Middelværdi og medianRediger
Et eksempel på økologisk fejlslutning er antagelsen om, at en populationsmiddelværdi har en simpel fortolkning, når man overvejer sandsynligheder for et individ.
For eksempel, hvis middelværdien for en gruppe er større end nul, betyder det ikke, at et tilfældigt individ i denne gruppe har større sandsynlighed for at have en positiv score end en negativ (så længe der er flere negative scores end positive scores, er det mere sandsynligt, at et individ har en negativ score). På samme måde er det en fejl at konkludere, at hvis en bestemt gruppe af mennesker måles til at have en lavere gennemsnitlig IQ end den generelle befolkning, er det en fejl at konkludere, at et tilfældigt udvalgt medlem af gruppen har større sandsynlighed for at have en lavere IQ end den generelle befolknings gennemsnitlige IQ; det er heller ikke nødvendigvis tilfældet, at et tilfældigt udvalgt medlem af gruppen har større sandsynlighed for at have en lavere IQ end et tilfældigt udvalgt medlem af den generelle befolkning. Matematisk set skyldes dette, at en fordeling kan have en positiv middelværdi, men en negativ median. Denne egenskab hænger sammen med fordelingens skævhed.
Se på følgende numeriske eksempel:
- Gruppe A: 80 % af personerne fik 40 point, og 20 % af dem fik 95 point. Middelværdien er 51 point.
- Gruppe B: 50 % af personerne fik 45 point, og 50 % fik 55 point. Gennemsnitspointen er 50 point.
- Hvis vi vælger to personer tilfældigt blandt A og B, er der 4 mulige udfald:
- A – 40, B – 45 (B vinder, 40% sandsynlighed – 0,8 × 0.5)
- A – 40, B – 55 (B vinder, 40% sandsynlighed – 0,8 × 0,5)
- A – 95, B – 45 (A vinder, 10% sandsynlighed – 0,2 × 0,5)
- A – 95, B – 55 (A vinder, 10% sandsynlighed – 0,2 × 0,5)
- A – 95, B – 55 (A vinder, 10% sandsynlighed – 0.2 × 0,5)
- Og selv om gruppe A har en højere gennemsnitsscore, vil et tilfældigt individ fra A i 80% af tilfældige tilfælde score lavere end et tilfældigt individ fra B.
Individuelle og aggregerede sammenhængeRediger
Forskning, der går tilbage til Émile Durkheim, tyder på, at overvejende protestantiske lokaliteter har højere selvmordsrater end overvejende katolske lokaliteter. Ifølge Freedman er idéen om, at Durkheims resultater på individuelt plan forbinder en persons religion med hans eller hendes selvmordsrisiko et eksempel på den økologiske fejlslutning. Et forhold på gruppeniveau karakteriserer ikke automatisk forholdet på individniveau.
Sådan er det også, selv om rigdom på individniveau er positivt korreleret med tendensen til at stemme republikansk, at vi observerer, at rigere stater har en tendens til at stemme demokratisk. I 2004 vandt den republikanske kandidat, George W. Bush, f.eks. de femten fattigste stater, og den demokratiske kandidat, John Kerry, vandt ni af de elleve rigeste stater. Alligevel stemte 62 % af vælgerne med en årlig indkomst på over 200.000 USD på Bush, men kun 36 % af vælgerne med en årlig indkomst på 15.000 USD eller mindre stemte på Bush.Korrelationen på aggregeret niveau vil afvige fra korrelationen på individniveau, hvis stemmepræferencerne påvirkes af statens samlede velstand, selv efter at der er kontrolleret for den individuelle velstand. Det kunne være, at den egentlige drivkraft i stemmepræferencerne er den selvopfattede relative velstand; måske er det mere sandsynligt, at de, der opfatter sig selv som bedre stillet end deres naboer, stemmer republikansk. I dette tilfælde ville en person være mere tilbøjelig til at stemme republikansk, hvis hun blev rigere, men hun ville være mere tilbøjelig til at stemme på en demokrat, hvis naboens velstand steg (hvilket resulterede i en rigere stat).
Den observerede forskel i stemmevaner baseret på rigdom på statsniveau og individniveau kunne imidlertid også forklares ved den almindelige forvirring mellem højere gennemsnit og højere sandsynligheder som diskuteret ovenfor. Stater er måske ikke rigere, fordi de indeholder flere velhavende personer (dvs. flere personer med en årsindkomst på over 200.000 dollars), men snarere fordi de indeholder et lille antal superrige personer; den økologiske fejlslutning skyldes så den fejlagtige antagelse, at personer i rigere stater er mere tilbøjelige til at være velhavende.
Mange eksempler på økologiske fejlslutninger findes i undersøgelser af sociale netværk, som ofte kombinerer analyser og implikationer fra forskellige niveauer. Dette er blevet illustreret i en akademisk artikel om netværk af landmænd i Sumatra.
Robinsons paradoksRediger
En artikel fra 1950 af William S. Robinson beregnede analfabetiseringsgraden og andelen af befolkningen født uden for USA for hver stat og for District of Columbia, fra 1930-tællingen. Han viste, at disse to tal var forbundet med en negativ korrelation på -0,53; med andre ord, jo større andelen af indvandrere i en stat er, jo lavere er dens gennemsnitlige analfabetisme. Når der tages hensyn til enkeltpersoner, var korrelationen imidlertid +0,12 (indvandrere var i gennemsnit mere analfabeter end indfødte borgere). Robinson viste, at den negative korrelation på statsbefolkningsniveau skyldtes, at indvandrere havde en tendens til at bosætte sig i stater, hvor den indfødte befolkning var mere analfabet. Han advarede mod at drage konklusioner om enkeltpersoner på grundlag af data på befolkningsniveau, eller “økologiske” data. I 2011 blev det konstateret, at Robinsons beregninger af de økologiske korrelationer er baseret på de forkerte data på statsniveau. Den ovenfor nævnte korrelation på -0,53 er i virkeligheden -0,46. Robinsons artikel var banebrydende, men udtrykket “økologisk fejlslutning” blev først opfundet i 1958 af Selvin.
Formelt problemRediger
Korrelationen af aggregerede størrelser (eller økologisk korrelation) er ikke lig med korrelationen af individuelle størrelser. Ved Xi, Yi betegnes to størrelser på individniveau. Formlen for kovariansen af de aggregerede størrelser i grupper af størrelse N er
cov ( ∑ i = 1 N Y i , ∑ i = 1 N X i ) = ∑ i = 1 N cov ( Y i , X i ) + ∑ i = 1 N ∑ l ≠ i cov ( Y l , X i ) {\displaystyle \operatornavn {cov} \left(\sum _{i=1}^{N}Y_{i},\sum _{i=1}^{N}X_{i}\right)=\sum _{i=1}^{N}\operatornavn {cov} (Y_{i},X_{i})+\sum _{i=1}^{N}\sum _{l\neq i}\operatornavn {cov} (Y_{l},X_{i})}
Kovariansen af to aggregerede variabler afhænger ikke kun af kovariansen af to variabler inden for de samme individer, men også af kovarianserne af variablerne mellem forskellige individer. Med andre ord tager korrelation af aggregerede variabler hensyn til tværsnitseffekter, som ikke er relevante på individniveau.
Problemet for korrelationer medfører naturligvis et problem for regressioner på aggregerede variabler: korrelationsfejltagelsen er derfor et vigtigt problem for en forsker, der ønsker at måle kausale virkninger. Start med en regressionsmodel, hvor resultatet Y i {\displaystyle Y_{i}}
påvirkes af X i {\displaystyle X_{i}}
Y i = α + β X i + u i , {{\displaystyle Y_{i}=\alpha +\beta X_{i}+u_{i},}
cov = 0. {\displaystyle \operatornavn {cov} =0.}
Regressionsmodellen på det aggregerede niveau fås ved at summere de enkelte ligninger:
∑ i = 1 N Y i = α ⋅ N + β ∑ i = 1 N X i + ∑ i = 1 N u i , {\displaystyle \sum _{i=1}^{N}Y_{i}=\alpha \cdot N+\beta \sum _{i=1}^{N}X_{i}+\sum _{i=1}^{N}u_{i},}
cov ≠ 0. {\displaystyle \operatorname {cov} \left\neq 0.}
Ingen forhindrer regressorer og fejl i at være korreleret på det aggregerede niveau. Derfor estimerer man generelt ikke den samme model ved at køre en regression på aggregerede data som ved at køre en regression med individuelle data.
Den aggregerede model er korrekt, hvis og kun hvis
cov = 0 for alle i . {\displaystyle \operatorname {cov} \left=0\quad {\text{ for all }}i.}
Det betyder, at hvis man kontrollerer for X i {\displaystyle X_{i}}
, ∑ k = 1 N X k {\displaystyle \sum _{k=1}^{N}X_{k}}
bestemmer ikke Y i {\displaystyle Y_{i}}
.
Valg mellem aggregeret og individuel inferensRediger
Der er intet galt i at køre regressioner på aggregerede data, hvis man er interesseret i den aggregerede model. For guvernøren i en stat er det f.eks. korrekt at køre regressioner mellem politistyrke på kriminalitetsraten på statsniveau, hvis man er interesseret i den politiske konsekvens af en stigning i politistyrken. Det ville imidlertid være en økologisk fejlslutning, hvis et byråd udleder virkningen af en forøgelse af politistyrken på kriminaliteten på byniveau fra korrelationen på statsniveau.
Valg af at køre aggregerede eller individuelle regressioner for at forstå de aggregerede virkninger på en bestemt politik afhænger af følgende afvejning: aggregerede regressioner mister data på individuelt niveau, men individuelle regressioner tilføjer stærke modelleringsforudsætninger. Nogle forskere foreslår, at den økologiske korrelation giver et bedre billede af resultatet af offentlige politiske tiltag, og de anbefaler derfor den økologiske korrelation frem for korrelation på individniveau til dette formål (Lubinski & Humphreys, 1996). Andre forskere er uenige, især når relationerne mellem niveauerne ikke er klart modelleret. For at undgå økologisk fejlslutning kan forskere uden individuelle data først modellere, hvad der sker på individniveau, derefter modellere, hvordan individ- og gruppeniveauet er relateret, og til sidst undersøge, om noget, der sker på gruppeniveau, bidrager til forståelsen af forholdet. Når man f.eks. evaluerer virkningen af statslige politikker, er det nyttigt at vide, at de politiske virkninger varierer mindre mellem staterne end selve politikkerne, hvilket tyder på, at de politiske forskelle ikke omsættes godt til resultater, på trods af høje økologiske korrelationer (Rose, 1973).