Gemiddelde en mediaanEdit
Een voorbeeld van een ecologische denkfout is de veronderstelling dat een populatiegemiddelde een eenvoudige interpretatie heeft wanneer de waarschijnlijkheid voor een individu wordt bekeken.
Wanneer bijvoorbeeld de gemiddelde score van een groep groter is dan nul, impliceert dit niet dat een willekeurig individu van die groep meer kans heeft op een positieve score dan op een negatieve (zolang er meer negatieve scores dan positieve scores zijn, is de kans groter dat een individu een negatieve score heeft). Evenzo, als van een bepaalde groep mensen wordt gemeten dat ze een lager gemiddeld IQ hebben dan de algemene bevolking, is het een vergissing om te concluderen dat een willekeurig gekozen lid van die groep meer kans heeft om een lager IQ te hebben dan het gemiddelde IQ van de algemene bevolking; het is ook niet noodzakelijk het geval dat een willekeurig gekozen lid van de groep meer kans heeft om een lager IQ te hebben dan een willekeurig gekozen lid van de algemene bevolking. Wiskundig komt dit voort uit het feit dat een verdeling een positief gemiddelde maar een negatieve mediaan kan hebben. Deze eigenschap hangt samen met de scheefheid van de verdeling.
Bedenk het volgende numerieke voorbeeld:
- Groep A: 80% van de mensen heeft 40 punten en 20% heeft 95 punten. De gemiddelde score is 51 punten.
- Groep B: 50% van de mensen heeft 45 punten en 50% heeft 55 punten. De gemiddelde score is 50 punten.
- Als we twee mensen willekeurig uit A en B kiezen, zijn er 4 mogelijke uitkomsten:
- A – 40, B – 45 (B wint, 40% kans – 0,8 × 0.5)
- A – 40, B – 55 (B wint, 40% kans – 0.8 × 0.5)
- A – 95, B – 45 (A wint, 10% kans – 0.2 × 0.5)
- A – 95, B – 55 (A wint, 10% kans – 0.2 × 0.5)
- A – 95, B – 55 (A wint, 10% kans – 0.2 × 0.5)
- A – 95, B – 55 (A wint, 10% kans – 0.2 × 0.5).2 × 0.5)
- Hoewel groep A een hogere gemiddelde score heeft, zal 80% van de tijd een willekeurig individu van A lager scoren dan een willekeurig individu van B.
Individuele en geaggregeerde correlatiesEdit
Onderzoek dat teruggaat tot Émile Durkheim suggereert dat overwegend protestantse plaatsen hogere zelfmoordcijfers hebben dan overwegend katholieke plaatsen. Volgens Freedman is het idee dat de bevindingen van Durkheim op individueel niveau een verband leggen tussen iemands godsdienst en zijn of haar zelfmoordrisico een voorbeeld van de ecologische denkfout. Een verband op groepsniveau kenmerkt niet automatisch het verband op het niveau van het individu.
Zo ook, zelfs als op individueel niveau, rijkdom positief gecorreleerd is met de neiging om Republikeins te stemmen, zien we dat rijkere staten de neiging hebben om Democratisch te stemmen. In 2004 bijvoorbeeld won de Republikeinse kandidaat George W. Bush de vijftien armste staten, en de Democratische kandidaat John Kerry won negen van de elf rijkste staten. Toch stemde 62% van de kiezers met een jaarinkomen van meer dan 200.000 dollar op Bush, maar slechts 36% van de kiezers met een jaarinkomen van 15.000 dollar of minder stemde op Bush. De correlatie op geaggregeerd niveau zal verschillen van de correlatie op individueel niveau als de stemvoorkeur wordt beïnvloed door de totale rijkdom van de staat, zelfs na controle voor de individuele rijkdom. Het zou kunnen dat de werkelijke drijvende factor achter de stemvoorkeur de zelfvermeende relatieve rijkdom is; misschien zullen diegenen die zichzelf als beter afstaand zien dan hun buren, eerder Republikeins stemmen. In dat geval zou iemand eerder Republikeins stemmen als hij rijker wordt, maar eerder Democratisch als de rijkdom van zijn buurman toeneemt (met een rijkere staat tot gevolg).
Het waargenomen verschil in stemgewoonten op basis van rijkdom op het niveau van de staat en op individueel niveau zou echter ook kunnen worden verklaard door de gebruikelijke verwarring tussen hogere gemiddelden en hogere waarschijnlijkheden, zoals hierboven besproken. Het is mogelijk dat staten niet rijker zijn omdat ze meer rijke mensen bevatten (d.w.z. meer mensen met een jaarinkomen van meer dan $200.000), maar eerder omdat ze een klein aantal superrijke individuen bevatten; de ecologische denkfout vloeit dan voort uit de onjuiste aanname dat individuen in rijkere staten meer kans hebben om rijk te zijn.
Veel voorbeelden van ecologische denkfouten zijn te vinden in studies van sociale netwerken, die vaak analyses en implicaties van verschillende niveaus combineren. Dit is geïllustreerd in een academisch artikel over netwerken van boeren in Sumatra.
Robinson’s paradoxEdit
Een artikel uit 1950 van William S. Robinson berekende het percentage analfabeten en het percentage van de bevolking dat buiten de VS was geboren voor elke staat en voor het District of Columbia, vanaf de volkstelling van 1930. Hij toonde aan dat deze twee cijfers samenhingen met een negatieve correlatie van -0,53; met andere woorden, hoe groter het aandeel immigranten in een staat, hoe lager het gemiddelde analfabetisme in die staat. Wanneer echter naar individuen wordt gekeken, was de correlatie +0,12 (immigranten waren gemiddeld meer analfabeet dan autochtone burgers). Robinson toonde aan dat de negatieve correlatie op het niveau van de staatsbevolking het gevolg was van het feit dat immigranten de neiging vertoonden zich te vestigen in staten waar de autochtone bevolking meer geletterd was. Hij waarschuwde tegen het trekken van conclusies over individuen op basis van gegevens op populatieniveau, of “ecologische” gegevens. In 2011 werd ontdekt dat Robinsons berekeningen van de ecologische correlaties gebaseerd zijn op de verkeerde gegevens op deelstaatniveau. De genoemde correlatie van -0,53 is in werkelijkheid -0,46. Robinsons artikel was baanbrekend, maar de term “ecological fallacy” werd pas in 1958 bedacht door Selvin.
Formeel probleemEdit
De correlatie van geaggregeerde grootheden (of ecologische correlatie) is niet gelijk aan de correlatie van individuele grootheden. Noem met Xi, Yi twee grootheden op individueel niveau. De formule voor de covariantie van de geaggregeerde grootheden in groepen van grootte N is
cov ( ∑ i = 1 N Y i , ∑ i = 1 N X i ) = ∑ i = 1 N cov ( Y i , X i ) + ∑ i = 1 N ∑ l ≠ i cov ( Y l , X i ) {displaystyle \operatornaam {cov} \left(\sum _{i=1}^{N}Y_{i},\sum _{i=1}^{N}X_{i}right)=\sum _{i=1}^{N}\operatornaam {cov} (Y_{i},X_{i})+\sum _{i=1}^{N}\sum _{l_neq i}\operatornaam {cov} (Y_{l},X_{i})}
De covariantie van twee geaggregeerde variabelen hangt niet alleen af van de covariantie van twee variabelen binnen dezelfde individuen, maar ook van covarianties van de variabelen tussen verschillende individuen. Met andere woorden, correlaties van geaggregeerde variabelen houden rekening met transversale effecten die op individueel niveau niet relevant zijn.
Het probleem voor correlaties brengt natuurlijk een probleem met zich mee voor regressies op geaggregeerde variabelen: de correlation fallacy is dus een belangrijk probleem voor een onderzoeker die causale effecten wil meten. Begin met een regressiemodel waarin de uitkomst Y i {\displaystyle Y_{i}}
wordt beïnvloed door X i {\displaystyle X_{i}}
Y i = α + β X i + u i , {\displaystyle Y_{i}==alpha + bèta X_{i}+u_{i},}
cov = 0. {\displaystyle \operatornaam {cov} =0.}
Het regressiemodel op geaggregeerd niveau wordt verkregen door de som van de afzonderlijke vergelijkingen te maken:
∑ i = 1 N Y i = α ⋅ N + β ∑ i = 1 N X i + ∑ i = 1 N u i , {\displaystyle sum _{i=1}^{N}Y_{i}=\alpha \cdot N+\beta \sum _{i=1}^{N}X_{i}+\sum _{i=1}^{N}u_{i},}
cov ≠ 0. {cov} \left_neq 0.}
Niets verhindert dat de regressoren en de fouten op het geaggregeerde niveau gecorreleerd zijn. Daarom wordt bij een regressie op geaggregeerde gegevens over het algemeen niet hetzelfde model geschat als bij een regressie op individuele gegevens.
Het geaggregeerde model is juist als en slechts als
cov = 0 voor alle i . {\displaystyle \operatorname {cov} \left=0\quad {\text{ for all }}i.}
Dit betekent dat, met controle voor X i {\displaystyle X_{i}}
, ∑ k = 1 N X k {\displaystyle \sum _{k=1}^{N}X_{k}}
is niet bepalend voor Y i {\displaystyle Y_{i}}
.
Kiezen tussen geaggregeerde en individuele inferentieEdit
Er is niets mis met het uitvoeren van regressies op geaggregeerde gegevens als men geïnteresseerd is in het geaggregeerde model. Voor de gouverneur van een staat is het bijvoorbeeld correct regressies uit te voeren tussen de politiemacht en de criminaliteit op het niveau van de staat, als men geïnteresseerd is in de beleidsimplicatie van een toename van de politiemacht. Er zou echter sprake zijn van een ecologische denkfout als een gemeenteraad het effect van een toename van de politie op de criminaliteit op stadsniveau zou afleiden uit de correlatie op het niveau van de staat.
De keuze om geaggregeerde of individuele regressies uit te voeren om de geaggregeerde effecten op een bepaald beleid te begrijpen, hangt af van de volgende afweging: bij geaggregeerde regressies gaan gegevens op individueel niveau verloren, maar individuele regressies voegen sterke modelaannames toe. Sommige onderzoekers suggereren dat de ecologische correlatie een beter beeld geeft van het resultaat van beleidsmaatregelen van de overheid, en bevelen voor dit doel dus de ecologische correlatie aan boven de correlatie op individueel niveau (Lubinski & Humphreys, 1996). Andere onderzoekers zijn het daar niet mee eens, vooral wanneer de relaties tussen de niveaus niet duidelijk gemodelleerd zijn. Om een ecologische denkfout te voorkomen, kunnen onderzoekers zonder individuele gegevens eerst modelleren wat er op individueel niveau gebeurt, dan modelleren hoe het individuele niveau en het groepsniveau met elkaar in verband staan, en tenslotte onderzoeken of iets wat op groepsniveau gebeurt, bijdraagt tot het begrip van de relatie. Bijvoorbeeld, bij het evalueren van het effect van staatsbeleid, is het nuttig om te weten dat de beleidseffecten minder verschillen tussen de staten dan het beleid zelf, wat suggereert dat de beleidsverschillen niet goed worden vertaald in resultaten, ondanks hoge ecologische correlaties (Rose, 1973).