Medelvärde och medianRedigera

Ett exempel på ett ekologiskt felsteg är antagandet att ett populationsmedelvärde har en enkel tolkning när man överväger sannolikheterna för en individ.

Om till exempel medelvärdet för en grupp är större än noll innebär det inte att en slumpmässig individ i den gruppen har större sannolikhet att få ett positivt resultat än ett negativt (så länge det finns fler negativa resultat än positiva resultat har en individ större sannolikhet att få ett negativt resultat). På samma sätt är det ett misstag att dra slutsatsen att en slumpmässigt utvald medlem av gruppen har större sannolikhet än inte att ha en lägre IQ än genomsnitts-IQ för befolkningen i allmänhet, om en viss grupp människor mäts ha en lägre genomsnitts-IQ än befolkningen i allmänhet; det är inte heller nödvändigtvis så att en slumpmässigt utvald medlem av gruppen har större sannolikhet än inte att ha en lägre IQ än en slumpmässigt utvald medlem av befolkningen i allmänhet. Matematiskt sett kommer detta från det faktum att en fördelning kan ha ett positivt medelvärde men en negativ median. Denna egenskap är kopplad till fördelningens skevhet.

Tänk på följande numeriska exempel:

  • Grupp A: 80 % av personerna fick 40 poäng och 20 % av dem fick 95 poäng. Medelvärdet är 51 poäng.
  • Grupp B: 50 % av personerna fick 45 poäng och 50 % fick 55 poäng. Medelvärdet är 50 poäng.
  • Om vi väljer två personer slumpmässigt från A och B finns det fyra möjliga utfall:
    • A – 40, B – 45 (B vinner, 40 % sannolikhet – 0,8 × 0.5)
    • A – 40, B – 55 (B vinner, 40 % sannolikhet – 0,8 × 0,5)
    • A – 95, B – 45 (A vinner, 10 % sannolikhet – 0,2 × 0,5)
    • A – 95, B – 55 (A vinner, 10 % sannolikhet – 0,2 × 0,5).2 × 0,5)
  • Och även om grupp A har en högre medelpoäng kommer 80 % av tiden en slumpmässig individ i A att få en lägre poäng än en slumpmässig individ i B.

Individuella och aggregerade korrelationerRedigera

Förskning som går tillbaka till Émile Durkheim tyder på att övervägande protestantiska orter har högre självmordsfrekvens än övervägande katolska orter. Enligt Freedman är idén att Durkheims resultat på individnivå kopplar samman en persons religion med hans eller hennes självmordsrisk ett exempel på en ekologisk felbedömning. Ett förhållande på gruppnivå kännetecknar inte automatiskt förhållandet på individnivå.

På liknande sätt, även om rikedom på individnivå är positivt korrelerad med tendensen att rösta republikanskt, observerar vi att rikare stater tenderar att rösta demokratiskt. År 2004 till exempel vann den republikanske kandidaten George W. Bush de femton fattigaste delstaterna och den demokratiske kandidaten John Kerry nio av de elva rikaste delstaterna. Ändå röstade 62 % av väljarna med en årsinkomst på över 200 000 dollar på Bush, men endast 36 % av väljarna med en årsinkomst på 15 000 dollar eller mindre röstade på Bush.Korrelationen på aggregerad nivå kommer att skilja sig från korrelationen på individnivå om röstpreferenserna påverkas av delstatens totala förmögenhet även efter att ha kontrollerat för individuell förmögenhet. Det kan vara så att den verkliga drivande faktorn i röstpreferensen är den självupplevda relativa rikedomen; kanske är de som anser sig ha det bättre ställt än sina grannar mer benägna att rösta republikanskt. I detta fall skulle en individ vara mer benägen att rösta republikanskt om hon blev rikare, men hon skulle vara mer benägen att rösta på en demokrat om grannens rikedom ökade (vilket resulterade i en rikare stat).

Den observerade skillnaden i röstningsvanor baserat på rikedom på statsnivå och individnivå skulle dock också kunna förklaras av den vanliga förväxlingen mellan högre medelvärden och högre sannolikheter som diskuterats ovan. Delstater kanske inte är rikare för att de innehåller fler rika människor (dvs. fler människor med årsinkomster över 200 000 dollar), utan snarare för att de innehåller ett litet antal superrika individer; det ekologiska felsteget beror då på att man felaktigt antar att individer i rikare delstater har större sannolikhet att vara rika.

Många exempel på ekologiska felsteg kan hittas i studier av sociala nätverk, som ofta kombinerar analys och implikationer från olika nivåer. Detta har illustrerats i en akademisk artikel om nätverk av jordbrukare på Sumatra.

Robinsons paradoxRedigera

En artikel från 1950 av William S. Robinson beräknade analfabetismen och andelen av befolkningen som är född utanför USA för varje delstat och för District of Columbia, enligt 1930 års folkräkning. Han visade att dessa två siffror var förknippade med en negativ korrelation på -0,53; med andra ord, ju större andel invandrare i en delstat, desto lägre är dess genomsnittliga analfabetism. När man däremot tar hänsyn till enskilda individer var korrelationen +0,12 (invandrare var i genomsnitt mer analfabeter än infödda medborgare). Robinson visade att den negativa korrelationen på statsbefolkningsnivå berodde på att invandrare tenderade att bosätta sig i stater där den inhemska befolkningen var mer läs- och skrivkunnig. Han varnade för att dra slutsatser om individer på grundval av uppgifter på befolkningsnivå, eller ”ekologiska” uppgifter. År 2011 upptäcktes det att Robinsons beräkningar av de ekologiska korrelationerna bygger på fel uppgifter på delstatsnivå. Den korrelation på -0,53 som nämns ovan är i själva verket -0,46. Robinsons artikel var banbrytande, men termen ”ekologisk felbedömning” myntades inte förrän 1958 av Selvin.

Formellt problemRedigera

Korrelationen mellan aggregerade storheter (eller ekologisk korrelation) är inte lika med korrelationen mellan individuella storheter. Beteckna med Xi, Yi två storheter på individnivå. Formeln för kovariansen för de aggregerade kvantiteterna i grupper av storlek N är

cov ( ∑ i = 1 N Y i , ∑ i = 1 N X i ) = ∑ i = 1 N cov ( Y i , X i ) + ∑ i = 1 N ∑ l ≠ i cov ( Y l , X i ) {\displaystyle \operatorname {cov} \left(\sum _{i=1}^{N}Y_{i},\sum _{i=1}^{N}X_{i}\right)=\sum _{i=1}^{N}\operatorname {cov} (Y_{i},X_{i})+\sum _{i=1}^{N}\sum _{l\neq i}\operatorname {cov} (Y_{l},X_{i})}

Kovariansen för två aggregerade variabler beror inte bara på kovariansen för två variabler inom samma individer utan även på kovarianser för variablerna mellan olika individer. Med andra ord tar korrelationen av aggregerade variabler hänsyn till tvärsnittseffekter som inte är relevanta på individnivå.

Problemet för korrelationer medför naturligtvis ett problem för regressioner på aggregerade variabler: korrelationsfelet är därför en viktig fråga för en forskare som vill mäta kausala effekter. Börja med en regressionsmodell där utfallet Y i {\displaystyle Y_{i}}

påverkas av X i {\displaystyle X_{i}}

Y i = α + β X i + u i , {\displaystyle Y_{i}=\alpha +\beta X_{i}+u_{i},}

cov = 0. {\displaystyle \operatorname {cov} =0.}

Regressionsmodellen på aggregerad nivå erhålls genom att summera de enskilda ekvationerna:

∑ i = 1 N Y i = α ⋅ N + β ∑ i = 1 N X i + ∑ i = 1 N u i , {\displaystyle \sum _{i=1}^{N}Y_{i}=\alpha \cdot N+\beta \sum _{i=1}^{N}X_{i}+\sum _{i=1}^{N}u_{i},}

cov ≠ 0. {\\displaystyle \operatorname {cov} \left\neq 0.}

Inget hindrar regressorerna och felen från att vara korrelerade på aggregerad nivå. Därför skattar man i allmänhet inte samma modell genom att köra en regression på aggregerade data som genom att köra en regression med individuella data.

Den aggregerade modellen är korrekt om och endast om

cov = 0 för alla i . {\displaystyle \operatorname {cov} \left=0\quad {\text{ for all }}i.}

Detta innebär att om man kontrollerar för X i {\displaystyle X_{i}}

, ∑ k = 1 N X k {\displaystyle \sum _{k=1}^{N}X_{k}}

bestämmer inte Y i {\displaystyle Y_{i}}

.

Att välja mellan aggregerad och individuell inferensRedigera

Det är inget fel att köra regressioner på aggregerade data om man är intresserad av den aggregerade modellen. För guvernören i en delstat är det till exempel korrekt att köra regressioner mellan polisstyrkan och brottsligheten på delstatsnivå om man är intresserad av de politiska konsekvenserna av en ökning av polisstyrkan. En ekologisk felbedömning skulle dock inträffa om ett stadsfullmäktige drar slutsatsen att en ökning av polisstyrkan påverkar brottsligheten på stadsnivå utifrån korrelationen på delstatsnivå.

Välja att köra aggregerade eller individuella regressioner för att förstå de aggregerade effekterna av en viss politik beror på följande avvägning: aggregerade regressioner förlorar uppgifter på individnivå, men individuella regressioner innebär att man lägger till starka modelleringsantaganden. Vissa forskare menar att den ekologiska korrelationen ger en bättre bild av resultatet av offentliga politiska åtgärder och rekommenderar därför den ekologiska korrelationen framför korrelationen på individnivå för detta ändamål (Lubinski & Humphreys, 1996). Andra forskare håller inte med, särskilt när relationerna mellan nivåerna inte är tydligt modellerade. För att förhindra ekologiska felbedömningar kan forskare utan individdata först modellera vad som sker på individnivå, sedan modellera hur individ- och gruppnivåerna är relaterade och slutligen undersöka om något som sker på gruppnivå bidrar till förståelsen av förhållandet. När man till exempel utvärderar effekterna av statlig politik är det bra att veta att effekterna av politiken varierar mindre mellan staterna än vad politiken i sig gör, vilket tyder på att de politiska skillnaderna inte är väl omsatta i resultat, trots höga ekologiska korrelationer (Rose, 1973).

Lämna ett svar

Din e-postadress kommer inte publiceras.