Průměr a mediánUpravit

Příkladem ekologického omylu je předpoklad, že populační průměr má jednoduchou interpretaci při posuzování pravděpodobností pro jedince.

Například pokud je průměrné skóre skupiny větší než nula, neznamená to, že náhodný jedinec této skupiny má větší pravděpodobnost kladného skóre než záporného (dokud je více záporných skóre než kladných, má jedinec větší pravděpodobnost záporného skóre). Podobně pokud je u určité skupiny lidí naměřeno nižší průměrné IQ než u obecné populace, je chybou vyvozovat, že náhodně vybraný člen této skupiny má s větší pravděpodobností nižší IQ než průměrné IQ obecné populace; nemusí to také nutně znamenat, že náhodně vybraný člen této skupiny má s větší pravděpodobností nižší IQ než náhodně vybraný člen obecné populace. Matematicky to vychází ze skutečnosti, že rozdělení může mít kladný průměr, ale záporný medián. Tato vlastnost souvisí se šikmostí rozdělení.

Podívejte se na následující číselný příklad:

  • Skupina A: 80 % lidí získalo 40 bodů a 20 % z nich získalo 95 bodů. Průměrný výsledek je 51 bodů.
  • Skupina B: 50 % lidí získalo 45 bodů a 50 % lidí získalo 55 bodů. Průměrné skóre je 50 bodů.
  • Pokud vybereme náhodně dva lidi z A a B, existují 4 možné výsledky:
    • A – 40, B – 45 (B vyhrává, pravděpodobnost 40% – 0,8 × 0.5)
    • A – 40, B – 55 (B vyhrává, 40% pravděpodobnost – 0,8 × 0,5)
    • A – 95, B – 45 (A vyhrává, 10% pravděpodobnost – 0,2 × 0,5)
    • A – 95, B – 55 (A vyhrává, 10% pravděpodobnost – 0.2 × 0,5)
  • Ačkoli má skupina A vyšší průměrné skóre, v 80 % případů bude mít náhodný jedinec skupiny A nižší skóre než náhodný jedinec skupiny B.

Individuální a agregátní korelaceEdit

Výzkumy pocházející již od Émila Durkheima naznačují, že převážně protestantské lokality mají vyšší počet sebevražd než převážně katolické lokality. Podle Freedmana je představa, že Durkheimova zjištění spojují na individuální úrovni náboženství člověka s jeho rizikem sebevraždy, příkladem ekologického omylu. Vztah na úrovni skupiny automaticky necharakterizuje vztah na úrovni jednotlivce.

Podobně, i když na úrovni jednotlivce bohatství pozitivně koreluje s tendencí volit republikány, pozorujeme, že bohatší státy mají tendenci volit demokraty. Například v roce 2004 vyhrál republikánský kandidát George W. Bush v patnácti nejchudších státech a demokratický kandidát John Kerry v 9 z 11 nejbohatších států. Přesto 62 % voličů s ročním příjmem nad 200 000 dolarů volilo Bushe, ale pouze 36 % voličů s ročním příjmem 15 000 dolarů a méně. korelace na agregátní úrovni se bude lišit od korelace na individuální úrovni, pokud jsou volební preference ovlivněny celkovým bohatstvím státu i po kontrole individuálního bohatství. Mohlo by se stát, že skutečným hnacím faktorem volebních preferencí je vlastní vnímání relativního bohatství; možná ti, kteří se považují za lépe situované než jejich sousedé, budou s větší pravděpodobností volit republikány. V takovém případě by jednotlivec s větší pravděpodobností volil republikány, pokud by se stal bohatším, ale s větší pravděpodobností by volil demokraty, pokud by se zvýšilo bohatství jeho souseda (což by vedlo k bohatšímu státu).

Pozorovaný rozdíl ve volebních zvyklostech na základě bohatství na úrovni státu a na úrovni jednotlivce by však mohl být také vysvětlen běžnou záměnou vyšších průměrů a vyšších pravděpodobností, jak bylo uvedeno výše. Státy nemusí být bohatší proto, že obsahují více bohatých lidí (tj. více lidí s ročním příjmem nad 200 000 USD), ale spíše proto, že obsahují malý počet superbohatých jednotlivců; ekologický omyl pak vyplývá z nesprávného předpokladu, že jednotlivci v bohatších státech jsou s větší pravděpodobností bohatí.

Mnoho příkladů ekologických omylů lze nalézt ve studiích sociálních sítí, které často kombinují analýzu a důsledky z různých úrovní. To bylo ilustrováno v akademické práci o sítích farmářů na Sumatře.

Robinsonův paradoxUpravit

V práci Williama S. Robinsona z roku 1950 byla vypočtena míra negramotnosti a podíl obyvatel narozených mimo USA pro každý stát a pro District of Columbia podle sčítání lidu z roku 1930. Ukázal, že tyto dva údaje jsou spojeny zápornou korelací -0,53; jinými slovy, čím větší je podíl přistěhovalců v daném státě, tím nižší je jeho průměrná negramotnost. Při zohlednění jednotlivců však korelace činila +0,12 (přistěhovalci byli v průměru negramotnější než rodilí občané). Robinson ukázal, že záporná korelace na úrovni obyvatelstva státu byla způsobena tím, že přistěhovalci měli tendenci usazovat se ve státech, kde bylo domácí obyvatelstvo gramotnější. Varoval před vyvozováním závěrů o jednotlivcích na základě údajů na úrovni populace nebo „ekologických“ údajů. V roce 2011 bylo zjištěno, že Robinsonovy výpočty ekologických korelací vycházejí z nesprávných údajů na úrovni států. Výše uvedená korelace -0,53 je ve skutečnosti -0,46. Robinsonův článek byl zásadní, ale termín „ekologický omyl“ zavedl až v roce 1958 Selvin.

Formální problémEdit

Korelace agregátních veličin (neboli ekologická korelace) se nerovná korelaci individuálních veličin. Označme Xi, Yi dvě veličiny na individuální úrovni. Vzorec pro kovarianci agregátních veličin ve skupinách velikosti N je

cov ( ∑ i = 1 N Y i , ∑ i = 1 N X i ) = ∑ i = 1 N cov ( Y i , X i ) + ∑ i = 1 N ∑ l ≠ i cov ( Y l , X i ) {\displaystyle \operatorname {cov} \left(\sum _{i=1}^{N}Y_{i},\sum _{i=1}^{N}X_{i}\right)=\sum _{i=1}^{N}\operatorname {cov} (Y_{i},X_{i})+\sum _{i=1}^{N}\sum _{l\neq i}\operátorname {cov} (Y_{l},X_{i})}

Kovariance dvou agregovaných proměnných závisí nejen na kovarianci dvou proměnných v rámci stejných jedinců, ale také na kovarianci proměnných mezi různými jedinci. Jinými slovy, korelace agregovaných proměnných berou v úvahu průřezové efekty, které nejsou relevantní na úrovni jednotlivců.

Problém pro korelace s sebou přirozeně nese problém pro regrese na agregovaných proměnných: korelační omyl je proto důležitým problémem pro výzkumníka, který chce měřit kauzální dopady. Začněte s regresním modelem, kde výsledek Y i {\displaystyle Y_{i}}.

je ovlivněn X i {\displaystyle X_{i}}.

Y i = α + β X i + u i , {\displaystyle Y_{i}=\alfa +\beta X_{i}+u_{i},}

cov = 0. {\displaystyle \operatorname {cov} =0.}

Regresní model na agregátní úrovni získáme součtem jednotlivých rovnic:

∑ i = 1 N Y i = α ⋅ N + β ∑ i = 1 N X i + ∑ i = 1 N u i , {\displaystyle \sum _{i=1}^{N}Y_{i}=\alfa \cdot N+\beta \sum _{i=1}^{N}X_{i}+\sum _{i=1}^{N}u_{i},}

cov ≠ 0. {\displaystyle \operatorname {cov} \left\neq 0.}

Nic nebrání tomu, aby regresory a chyby byly na agregátní úrovni korelovány. Proto obecně platí, že provedení regrese na agregátních datech neodhaduje stejný model jako provedení regrese s individuálními daty.

Agregátní model je správný tehdy a jen tehdy, když

cov = 0 pro všechna i . {\displaystyle \operatorname {cov} \left=0\quad {\text{ for all }}i.}.

To znamená, že při kontrole pro X i {\displaystyle X_{i}}.

, ∑ k = 1 N X k {\displaystyle \sum _{k=1}^{N}X_{k}}}

neurčuje Y i {\displaystyle Y_{i}}.

.

Volba mezi agregátním a individuálním odvozovánímEdit

Není nic špatného na provádění regresí na agregátních datech, pokud nás zajímá agregátní model. Například pro guvernéra státu je správné provádět regrese mezi policejní silou a mírou kriminality na úrovni státu, pokud se zajímáme o politické důsledky zvýšení policejní síly. K ekologickému omylu by však došlo, pokud by městská rada odvozovala dopad zvýšení policejních sil na míru kriminality na úrovni města z korelace na úrovni státu.

Volba provádět agregátní nebo individuální regrese pro pochopení agregátních dopadů na nějakou politiku závisí na následujícím kompromisu: agregátní regrese ztrácejí údaje na individuální úrovni, ale individuální regrese přidávají silné modelovací předpoklady. Někteří výzkumníci naznačují, že ekologická korelace poskytuje lepší obraz o výsledku opatření veřejné politiky, a proto pro tento účel doporučují ekologickou korelaci místo korelace na individuální úrovni (Lubinski & Humphreys, 1996). Jiní výzkumníci s tímto názorem nesouhlasí, zejména pokud nejsou vztahy mezi jednotlivými úrovněmi jasně modelovány. Aby se předešlo ekologickému omylu, mohou výzkumníci, kteří nemají k dispozici individuální údaje, nejprve modelovat, co se děje na individuální úrovni, poté modelovat, jak spolu souvisí individuální a skupinová úroveň, a nakonec zkoumat, zda něco, co se děje na skupinové úrovni, přispívá k pochopení vztahu. Například při hodnocení dopadu státních politik je užitečné vědět, že dopady politik se mezi jednotlivými státy liší méně než samotné politiky, což naznačuje, že rozdíly v politikách se navzdory vysokým ekologickým korelacím dobře nepromítají do výsledků (Rose, 1973).

.

Napsat komentář

Vaše e-mailová adresa nebude zveřejněna.