Keskiarvo ja mediaaniEdit
Esimerkki ekologisesta harhaluulosta on oletus, että populaation keskiarvolla on yksinkertainen tulkinta, kun tarkastellaan yksilön todennäköisyyksiä.
Jos esimerkiksi ryhmän keskiarvo on suurempi kuin nolla, se ei tarkoita, että satunnainen yksilö kyseisestä ryhmästä saa todennäköisemmin positiivisen kuin negatiivisen pistemäärän (niin kauan kuin negatiivisia pistemääriä on enemmän kuin positiivisia, yksilö saa todennäköisemmin negatiivisen pistemäärän). Vastaavasti, jos tietyllä ihmisryhmällä mitataan olevan alhaisempi keskimääräinen älykkyysosamäärä kuin väestöllä yleensä, on virhe päätellä, että satunnaisesti valitulla ryhmän jäsenellä on todennäköisemmin alhaisempi älykkyysosamäärä kuin väestöllä yleensä; ei myöskään välttämättä ole niin, että satunnaisesti valitulla ryhmän jäsenellä on todennäköisemmin alhaisempi älykkyysosamäärä kuin satunnaisesti valitulla väestön jäsenellä yleensä. Matemaattisesti tämä johtuu siitä, että jakaumalla voi olla positiivinen keskiarvo mutta negatiivinen mediaani. Tämä ominaisuus liittyy jakauman vinouteen.
Tarkastellaan seuraavaa numeerista esimerkkiä:
- Ryhmä A: 80 % ihmisistä sai 40 pistettä ja 20 % sai 95 pistettä. Keskiarvo on 51 pistettä.
- Ryhmä B: 50 % ihmisistä sai 45 pistettä ja 50 % sai 55 pistettä. Keskimääräinen pistemäärä on 50 pistettä.
- Jos valitsemme satunnaisesti kaksi ihmistä A:sta ja B:stä, on 4 mahdollista lopputulosta:
- A – 40, B – 45 (B voittaa, 40 % todennäköisyys – 0.8 × 0.5)
- A – 40, B – 55 (B voittaa, 40 % todennäköisyys – 0,8 × 0,5)
- A – 95, B – 45 (A voittaa, 10 % todennäköisyys – 0,2 × 0,5)
- A – 95, B – 55 (A voittaa, 10 % todennäköisyys – 0,2 × 0,5)
- A – 95, B – 55 (A voittaa, 10 % todennäköisyys – 0.2 × 0.5)
- Vaikka ryhmällä A on korkeampi keskimääräinen pistemäärä, 80 % ajasta satunnainen A:n yksilö saa alhaisemman pistemäärän kuin satunnainen B:n yksilö.
Yksilö- ja kokonaiskorrelaatiot Muokkaa
Tutkimukset, jotka juontavat juurensa Émile Durkheimin ajoilta, viittaavat siihen, että protestanttisilla paikkakunnilla, joilla asuu pääasiassa protestantteja, on korkeampi itsemurhien määrä kuin katolilaisilla paikkakunnilla. Freedmanin mukaan ajatus siitä, että Durkheimin havainnot yhdistävät yksilötasolla henkilön uskonnon hänen itsemurhariskiinsä, on esimerkki ekologisesta harhaluulosta. Ryhmätason suhde ei automaattisesti luonnehdi suhdetta yksilötasolla.
Samoin vaikka yksilötasolla varallisuus korreloi positiivisesti taipumukseen äänestää republikaaneja, havaitsemme, että varakkaammat osavaltiot äänestävät yleensä demokraatteja. Esimerkiksi vuonna 2004 republikaanien ehdokas George W. Bush voitti viisitoista köyhintä osavaltiota ja demokraattien ehdokas John Kerry yhdeksän 11 rikkaimmasta osavaltiosta. Kuitenkin 62 prosenttia äänestäjistä, joiden vuositulot olivat yli 200 000 dollaria, äänesti Bushia, mutta vain 36 prosenttia äänestäjistä, joiden vuositulot olivat 15 000 dollaria tai vähemmän, äänesti Bushia.Aggregaattitason korrelaatio eroaa yksilötason korrelaatiosta, jos osavaltioiden kokonaisvarallisuus vaikuttaa äänestyspreferensseihin myös sen jälkeen, kun yksilöllinen varallisuus on kontrolloitu. Voi olla, että äänestyspreferenssiä todella ohjaava tekijä on itse koettu suhteellinen vauraus; ehkäpä ne, jotka pitävät itseään paremmin toimeentulevina kuin naapurinsa, äänestävät todennäköisemmin republikaaneja. Tässä tapauksessa yksilö äänestäisi todennäköisemmin republikaaneja, jos hänestä tulisi varakkaampi, mutta hän äänestäisi todennäköisemmin demokraatteja, jos hänen naapurinsa varallisuus kasvaisi (mikä johtaisi varakkaampaan osavaltioon).
Havaittu ero äänestystottumuksissa osavaltiotason ja yksilötason varallisuuden perusteella voisi kuitenkin selittyä myös edellä käsitellyllä korkeampien keskiarvojen ja korkeampien todennäköisyyksien välisellä yleisellä sekaannuksella. Osavaltiot eivät välttämättä ole varakkaampia siksi, että niissä on enemmän varakkaita ihmisiä (eli enemmän ihmisiä, joiden vuositulot ovat yli 200 000 dollaria), vaan pikemminkin siksi, että niissä on pieni määrä superrikkaita yksilöitä; ekologinen harhaluulo johtuu tällöin siitä, että oletetaan virheellisesti, että varakkaammissa osavaltioissa asuvat yksilöt ovat todennäköisemmin varakkaita.
Lukuisia esimerkkejä ekologisista harhaluuloista löytyy sosiaalisia verkostoja käsittelevistä tutkimuksista, joissa usein yhdistetään analyysejä ja implikaatioita eri tasoilta. Tätä on havainnollistettu akateemisessa artikkelissa, joka käsitteli maanviljelijöiden verkostoja Sumatralla.
Robinsonin paradoksiEdit
William S. Robinsonin vuonna 1950 laatimassa artikkelissa laskettiin lukutaidottomuusprosentti ja muualla kuin Yhdysvalloissa syntyneiden osuus Yhdysvaltain väestöstä jokaisessa osavaltiossa ja Kolumbian piirikunnassa vuoden 1930 väestölaskennan perusteella. Hän osoitti, että näiden kahden luvun välillä oli negatiivinen korrelaatio -0,53; toisin sanoen mitä suurempi maahanmuuttajien osuus osavaltiossa oli, sitä alhaisempi oli sen keskimääräinen lukutaidottomuus. Kun kuitenkin tarkasteltiin yksilöitä, korrelaatio oli +0,12 (maahanmuuttajat olivat keskimäärin lukutaidottomampia kuin syntyperäiset kansalaiset). Robinson osoitti, että negatiivinen korrelaatio osavaltioiden väestötasolla johtui siitä, että maahanmuuttajilla oli taipumus asettua osavaltioihin, joissa kantaväestö oli lukutaidottomampaa. Hän varoitti tekemästä päätelmiä yksilöistä väestötason tai ”ekologisten” tietojen perusteella. Vuonna 2011 havaittiin, että Robinsonin laskelmat ekologisista korrelaatioista perustuvat vääriin osavaltiotason tietoihin. Edellä mainittu korrelaatio -0,53 on itse asiassa -0,46. Robinsonin artikkeli oli uraauurtava, mutta termi ”ekologinen harhaluulo” keksittiin vasta vuonna 1958 Selvinin toimesta.
Muodollinen ongelma Muokkaa
Aggregoitujen suureiden korrelaatio (tai ekologinen korrelaatio) ei ole yhtä suuri kuin yksittäisten suureiden korrelaatio. Merkitään Xi:llä, Yi:llä kahta yksilötason suuretta. Kaava aggregaattimäärien kovarianssille N-kokoisissa ryhmissä on
cov ( ∑ i = 1 N Y i , ∑ i = 1 N X i ) = ∑ i = 1 N cov ( Y i , X i ) + ∑ i = 1 N ∑ l ≠ i cov ( Y l , X i ) {\displaystyle \operatorname {cov} \left(\sum _{i=1}^{N}Y_{i},\sum _{i=1}^{N}X_{i}\right)=\sum _{i=1}^{N}\operatorname {cov} (Y_{i},X_{i})+\sum _{i=1}^{N}\sum _{l\neq i}\operatorname {cov} (Y_{l},X_{i})}
Kahden aggregoidun muuttujan kovarianssi ei riipu ainoastaan kahden muuttujan kovarianssista samojen yksilöiden sisällä, vaan myös muuttujien kovariansseista eri yksilöiden välillä. Toisin sanoen aggregaattimuuttujien korrelaatioissa otetaan huomioon poikkileikkausvaikutukset, joilla ei ole merkitystä yksilötasolla.
Korrelaatioiden ongelma aiheuttaa luonnollisesti ongelman aggregaattimuuttujien regressioille: korrelaatiovirhe on siis tärkeä kysymys tutkijalle, joka haluaa mitata kausaalisia vaikutuksia. Aloitetaan regressiomallista, jossa tulos Y i {\displaystyle Y_{i}}
vaikuttaa X i {\displaystyle X_{i}}
Y i = α + β X i + u i , {\displaystyle Y_{i}=\alpha +\beta X_{i}+u_{i},}
cov = 0.
cov =0.}
Agrogaattitason regressiomalli saadaan laskemalla yksittäiset yhtälöt yhteen:
∑ i = 1 N Y i = α ⋅ N + β ∑ i = 1 N X i + ∑ i = 1 N u i , {\displaystyle \sum _{i=1}^{N}Y_{i}=\alpha \cdot N+\beta \sum _{i=1}^{N}X_{i}+\sum _{i=1}^{N}u_{i},}
cov ≠ 0. {\displaystyle \operatorname {cov} \left\neq 0.}
Mikään ei estä sitä, että regressorit ja virheet korreloivat aggregaattitasolla. Siksi yleensä regression suorittaminen aggregaattitiedoilla ei estimoi samaa mallia kuin regression suorittaminen yksilötiedoilla.
Aggregaattimalli on oikea, jos ja vain jos
cov = 0 kaikille i . {\displaystyle \operatorname {cov} \left=0\quad {\text{ for all }i.}
Tämä tarkoittaa, että kontrolloimalla X i {\displaystyle X_{i}}
, ∑ k = 1 N X k {\displaystyle \sum _{k=1}^{N}X_{k}}
ei määrää Y i {\displaystyle Y_{i}}
.
Valinta aggregoidun ja yksilöllisen päättelyn välilläEdit
Ei ole mitään väärää suorittaa regressioita aggregoidulla aineistolla, jos on kiinnostunut aggregoidusta mallista. Esimerkiksi osavaltion kuvernöörin osalta on oikein tehdä regressioita poliisivoimien ja rikollisuuden määrän välillä osavaltion tasolla, jos ollaan kiinnostuneita poliisivoimien lisäämisen poliittisista vaikutuksista. Ekologinen harhaluulo kuitenkin tapahtuisi, jos kaupunginvaltuusto päättelisi poliisivoimien lisäämisen vaikutuksen rikollisuuden määrään kaupunkitasolla osavaltion tason korrelaatiosta.
Valinta suorittaa aggregaatti- tai yksilöllisiä regressioita jonkin politiikan aggregaattivaikutusten ymmärtämiseksi riippuu seuraavasta kompromissista: aggregaattitason regressioissa menetetään yksilötason tietoja, mutta yksilölliset regressiot lisäävät vahvoja mallinnusoletuksia. Jotkut tutkijat esittävät, että ekologinen korrelaatio antaa paremman kuvan julkisten politiikkatoimien tuloksista, joten he suosittelevat ekologista korrelaatiota yksilötason korrelaation sijaan tähän tarkoitukseen (Lubinski & Humphreys, 1996). Toiset tutkijat ovat eri mieltä, erityisesti silloin, kun tasojen välisiä suhteita ei ole mallinnettu selkeästi. Ekologisen harhaluulon välttämiseksi tutkijat, joilla ei ole yksilötietoja, voivat ensin mallintaa, mitä yksilötasolla tapahtuu, sitten mallintaa, miten yksilö- ja ryhmätasot ovat yhteydessä toisiinsa, ja lopuksi tutkia, lisääkö mikään ryhmätasolla tapahtuva suhteiden ymmärtämistä. Esimerkiksi arvioitaessa osavaltioiden politiikkojen vaikutuksia on hyödyllistä tietää, että politiikkojen vaikutukset vaihtelevat osavaltioittain vähemmän kuin itse politiikat, mikä viittaa siihen, että politiikkojen erot eivät ole hyvin siirrettävissä tuloksiin korkeista ekologisista korrelaatioista huolimatta (Rose, 1973).