Átlag és mediánSzerkesztés

Az ökológiai tévedésre példa az a feltételezés, hogy a populáció átlagának egyszerű értelmezése van, amikor egy egyed valószínűségét vizsgáljuk.

Ez például, ha egy csoport átlagpontszáma nagyobb, mint nulla, nem jelenti azt, hogy a csoport egy véletlenszerű egyedének nagyobb valószínűséggel lesz pozitív pontszáma, mint negatív (amíg több a negatív pontszám, mint a pozitív pontszám, addig egy egyednek nagyobb valószínűséggel lesz negatív pontszáma). Hasonlóképpen, ha az emberek egy adott csoportjának a mérések szerint alacsonyabb az átlagos IQ-ja, mint az általános népességé, hiba azt a következtetést levonni, hogy a csoport egy véletlenszerűen kiválasztott tagjának nagyobb valószínűséggel alacsonyabb az IQ-ja, mint az általános népesség átlagos IQ-ja; az sem feltétlenül igaz, hogy a csoport egy véletlenszerűen kiválasztott tagjának nagyobb valószínűséggel alacsonyabb az IQ-ja, mint az általános népesség egy véletlenszerűen kiválasztott tagjának. Matematikailag ez abból a tényből ered, hogy egy eloszlásnak lehet pozitív átlaga, de negatív mediánja. Ez a tulajdonság az eloszlás ferdeségével függ össze.

Mondjuk a következő számpéldát:

  • A csoport: az emberek 80%-a 40 pontot kapott, 20%-uk pedig 95 pontot. Az átlagpontszám 51 pont.
  • B csoport: Az emberek 50%-a kapott 45 pontot és 50%-a 55 pontot. Az átlagpontszám 50 pont.
  • Ha véletlenszerűen kiválasztunk két embert az A és B csoportból, akkor 4 lehetséges eredmény van:
    • A – 40, B – 45 (B nyer, 40% valószínűséggel – 0,8 × 0.5)
    • A – 40, B – 55 (B nyer, 40% valószínűség – 0,8 × 0,5)
    • A – 95, B – 45 (A nyer, 10% valószínűség – 0,2 × 0,5)
    • A – 95, B – 55 (A nyer, 10% valószínűség – 0.2 × 0,5)
  • Bár az A csoportnak magasabb az átlagpontszáma, az esetek 80%-ában egy véletlen A csoportba tartozó egyén alacsonyabb pontszámot kap, mint egy véletlen B csoportba tartozó egyén.

Egyéni és összesített összefüggésekSzerkesztés

Emile Durkheimig visszanyúló kutatások szerint a túlnyomórészt protestáns településeken magasabb az öngyilkossági arány, mint a túlnyomórészt katolikus településeken. Freedman szerint az az elképzelés, hogy Durkheim eredményei egyéni szinten összekapcsolják egy személy vallását az öngyilkossági kockázatával, az ökológiai tévedés egyik példája. Egy csoportszintű kapcsolat nem jellemzi automatikusan az egyén szintjén fennálló kapcsolatot.

Hasonlóképpen, még ha egyéni szinten a gazdagság pozitívan korrelál is a republikánus szavazásra való hajlammal, megfigyelhetjük, hogy a gazdagabb államok inkább a demokratákra szavaznak. Például 2004-ben a republikánus jelölt, George W. Bush a tizenöt legszegényebb államot nyerte meg, a demokrata jelölt, John Kerry pedig a 11 leggazdagabb államból 9-et. Ennek ellenére a 200 000 dollár feletti éves jövedelemmel rendelkező szavazók 62%-a Bushra szavazott, de a 15 000 dolláros vagy annál alacsonyabb éves jövedelemmel rendelkező szavazóknak csak 36%-a. Az aggregált szintű korreláció eltér az egyéni szintű korrelációtól, ha a szavazási preferenciákat az állam teljes vagyona befolyásolja, még az egyéni vagyon ellenőrzését követően is. Lehetséges, hogy a választási preferencia valódi mozgatórugója a saját maguk által érzékelt relatív jólét; talán azok, akik jobb helyzetben lévőnek látják magukat, mint a szomszédjaik, nagyobb valószínűséggel szavaznak republikánusra. Ebben az esetben egy egyén nagyobb valószínűséggel szavazna a republikánusokra, ha gazdagabb lenne, de nagyobb valószínűséggel szavazna a demokratákra, ha a szomszédja vagyona növekedne (ami egy gazdagabb államot eredményezne).

A szavazási szokásokban az állami és az egyéni szintű gazdagság alapján megfigyelt különbség azonban a magasabb átlagok és a magasabb valószínűségek közötti, fentebb tárgyalt gyakori összetévesztéssel is magyarázható. Lehet, hogy az államok nem azért gazdagabbak, mert több gazdag embert tartalmaznak (azaz több 200 000 dollár feletti éves jövedelemmel rendelkező embert), hanem inkább azért, mert kevés számú szupergazdag egyént tartalmaznak; az ökológiai tévedés ekkor abból adódik, hogy tévesen feltételezzük, hogy a gazdagabb államokban élő egyének nagyobb valószínűséggel gazdagok.

Az ökológiai tévedésekre számos példát találunk a társadalmi hálózatokról szóló tanulmányokban, amelyek gyakran különböző szintek elemzését és következményeit kombinálják. Ezt egy szumátrai földművesek hálózatairól szóló tudományos dolgozatban szemléltették.

Robinson paradoxonaSzerkesztés

William S. Robinson 1950-ben megjelent tanulmányában kiszámította az analfabéták arányát és az Egyesült Államokon kívül született lakosság arányát az egyes államokra és a Columbia körzetre vonatkozóan az 1930-as népszámlálásra vonatkozóan. Kimutatta, hogy e két adat között -0,53-as negatív korreláció áll fenn; más szóval, minél nagyobb a bevándorlók aránya egy államban, annál alacsonyabb az átlagos analfabetizmus. Az egyének figyelembevételével azonban a korreláció +0,12 volt (a bevándorlók átlagosan analfabétabbak voltak, mint az őslakosok). Robinson kimutatta, hogy a negatív korreláció az államok lakosságának szintjén annak köszönhető, hogy a bevándorlók inkább olyan államokban telepedtek le, ahol az őslakosok írástudóbbak voltak. Óva intett attól, hogy a népességszintű vagy “ökológiai” adatok alapján egyénekre vonatkozó következtetéseket vonjon le. 2011-ben kiderült, hogy Robinson ökológiai korrelációkra vonatkozó számításai rossz állami szintű adatokon alapulnak. A fent említett -0,53-as korreláció valójában -0,46-os. Robinson tanulmánya korszakalkotó volt, de az “ökológiai tévedés” kifejezést csak 1958-ban Selvin alkotta meg.

Formai problémaSzerkesztés

Az aggregált mennyiségek korrelációja (vagy ökológiai korreláció) nem egyenlő az egyedi mennyiségek korrelációjával. Jelöljünk Xi, Yi-vel két mennyiséget egyéni szinten. Az aggregált mennyiségek kovarianciájának képlete N méretű csoportokban a következő

cov ( ∑ i = 1 N Y i , ∑ i = 1 N X i ) = ∑ i = 1 N cov ( Y i , X i ) + ∑ i = 1 N ∑ l ≠ i cov ( Y l , X i ) {\displaystyle \operatorname {cov} \left(\sum _{i=1}^{N}Y_{i},\sum _{i=1}^{N}X_{i}\right)=\sum _{i=1}^{N}\operatorname {cov} (Y_{i},X_{i})+\sum _{i=1}^{N}\sum _{l\neq i}\operatornév {cov} (Y_{l},X_{i})}

A két aggregált változó kovarianciája nemcsak két változó ugyanazon egyéneken belüli kovarianciájától függ, hanem a változók különböző egyének közötti kovarianciáitól is. Más szóval az aggregált változók korrelációi olyan keresztmetszeti hatásokat vesznek figyelembe, amelyek az egyén szintjén nem relevánsak.

A korrelációkra vonatkozó probléma természetesen problémát von maga után az aggregált változókra vonatkozó regressziók esetében is: a korrelációs tévedés tehát fontos kérdés egy olyan kutató számára, aki oksági hatásokat akar mérni. Induljunk ki egy olyan regressziós modellel, ahol az Y i {\displaystyle Y_{i}} kimenet {\displaystyle Y_{i}}

hatására X i {\displaystyle X_{i}}

Y i = α + β X i + u i , {\displaystyle Y_{i}=\alpha +\beta X_{i}+u_{i},}

cov = 0. {\displaystyle \operatorname {cov} =0.}

Az aggregált szintű regressziós modellt az egyes egyenletek összegzésével kapjuk:

∑ i = 1 N Y i = α ⋅ N + β ∑ i = 1 N X i + ∑ i = 1 N u i , {\displaystyle \sum _{i=1}^{N}Y_{i}=\alpha \cdot N+\beta \sum _{i=1}^{N}X_{i}+\sum _{i=1}^{N}u_{i},}

cov ≠ 0. {\displaystyle \operatorname {cov} \left\neq 0.}

Nem akadályozza meg semmi, hogy a regresszorok és a hibák aggregált szinten korreláljanak. Ezért általában az aggregált adatokon végzett regresszió futtatása nem ugyanazt a modellt becsüli, mint az egyéni adatokkal végzett regresszió.

Az aggregált modell akkor és csak akkor helyes, ha

cov = 0 minden i-re . {\displaystyle \operatorname {cov} \left=0\quad {\text{ for all}i.}

Ez azt jelenti, hogy az X i {\displaystyle X_{i}} kontrollálásával

, ∑ k = 1 N X k {\displaystyle \sum _{k=1}^{N}X_{k}}}

nem határozza meg Y i {\displaystyle Y_{i}}

.

Választás az aggregált és az egyéni következtetés közöttSzerkesztés

Az aggregált adatokon történő regressziók futtatásával nincs semmi baj, ha az aggregált modell érdekel. Például egy állam kormányzója esetében helyes, ha regressziókat futtatunk a rendőri erő és a bűnözési ráta között állami szinten, ha a rendőri erő növekedésének politikai következményei érdekelnek. Azonban ökológiai tévedés történne, ha egy városi tanács az állami szintű korrelációból következtetne a rendőri erő növelésének hatására a bűnözési rátára városi szinten.

Az, hogy aggregált vagy egyéni regressziókat futtatunk-e valamilyen politikára gyakorolt aggregált hatások megértéséhez, a következő kompromisszumtól függ: az aggregált regressziók elveszítik az egyéni szintű adatokat, de az egyéni regressziók erős modellezési feltételezéseket adnak hozzá. Egyes kutatók szerint az ökológiai korreláció jobb képet ad a közpolitikai intézkedések eredményéről, ezért erre a célra az ökológiai korrelációt ajánlják az egyéni szintű korrelációval szemben (Lubinski & Humphreys, 1996). Más kutatók nem értenek ezzel egyet, különösen akkor, ha a szintek közötti kapcsolatokat nem modellezik egyértelműen. Az ökológiai tévedés elkerülése érdekében az egyéni adatokkal nem rendelkező kutatók először azt modellezhetik, hogy mi történik az egyéni szinten, majd azt, hogy az egyéni és a csoportszint hogyan kapcsolódik egymáshoz, és végül megvizsgálják, hogy a csoportszinten történtek hozzájárulnak-e a kapcsolat megértéséhez. Például az állami politikák hatásának értékelésénél hasznos tudni, hogy a politika hatásai kevésbé különböznek az egyes államok között, mint maguk a politikák, ami arra utal, hogy a politikai különbségek a magas ökológiai korrelációk ellenére nem jól fordíthatók le eredményekre (Rose, 1973).

Vélemény, hozzászólás?

Az e-mail-címet nem tesszük közzé.