Mittelwert und MedianBearbeiten
Ein Beispiel für einen ökologischen Trugschluss ist die Annahme, dass ein Populationsmittelwert bei der Betrachtung der Wahrscheinlichkeiten für ein Individuum eine einfache Interpretation hat.
Wenn beispielsweise der Mittelwert einer Gruppe größer als Null ist, bedeutet dies nicht, dass ein zufällig ausgewähltes Individuum dieser Gruppe mit größerer Wahrscheinlichkeit einen positiven Wert als einen negativen Wert hat (solange es mehr negative als positive Werte gibt, hat ein Individuum mit größerer Wahrscheinlichkeit einen negativen Wert). Wird bei einer bestimmten Gruppe von Menschen ein niedrigerer mittlerer IQ gemessen als bei der Allgemeinbevölkerung, so ist es ein Fehler, daraus zu schließen, dass ein zufällig ausgewähltes Mitglied der Gruppe mit größerer Wahrscheinlichkeit einen niedrigeren IQ hat als der mittlere IQ der Allgemeinbevölkerung; es ist auch nicht unbedingt der Fall, dass ein zufällig ausgewähltes Mitglied der Gruppe mit größerer Wahrscheinlichkeit einen niedrigeren IQ hat als ein zufällig ausgewähltes Mitglied der Allgemeinbevölkerung. Mathematisch gesehen ergibt sich dies aus der Tatsache, dass eine Verteilung einen positiven Mittelwert, aber einen negativen Median haben kann. Diese Eigenschaft hängt mit der Schiefe der Verteilung zusammen.
Betrachten Sie das folgende Zahlenbeispiel:
- Gruppe A: 80 % der Personen haben 40 Punkte und 20 % haben 95 Punkte erreicht. Die durchschnittliche Punktzahl beträgt 51 Punkte.
- Gruppe B: 50% der Teilnehmer haben 45 Punkte und 50% 55 Punkte erreicht. Die durchschnittliche Punktzahl beträgt 50 Punkte.
- Wenn wir zwei Personen aus A und B zufällig auswählen, gibt es 4 mögliche Ergebnisse:
- A – 40, B – 45 (B gewinnt mit 40% Wahrscheinlichkeit – 0,8 × 0.5)
- A – 40, B – 55 (B gewinnt, 40% Wahrscheinlichkeit – 0,8 × 0,5)
- A – 95, B – 45 (A gewinnt, 10% Wahrscheinlichkeit – 0,2 × 0,5)
- A – 95, B – 55 (A gewinnt, 10% Wahrscheinlichkeit – 0.2 × 0,5)
- Obwohl Gruppe A einen höheren Mittelwert hat, wird ein zufälliges Individuum von A in 80 % der Fälle einen niedrigeren Wert erreichen als ein zufälliges Individuum von B.
Individuelle und aggregierte KorrelationenBearbeiten
Forschungen, die auf Émile Durkheim zurückgehen, legen nahe, dass überwiegend protestantische Ortschaften höhere Selbstmordraten aufweisen als überwiegend katholische Ortschaften. Freedman zufolge ist die Vorstellung, dass Durkheims Ergebnisse auf individueller Ebene einen Zusammenhang zwischen der Religion einer Person und ihrem Selbstmordrisiko herstellen, ein Beispiel für einen ökologischen Trugschluss. Eine Beziehung auf Gruppenebene charakterisiert nicht automatisch die Beziehung auf der Ebene des Individuums.
Auch wenn auf individueller Ebene der Wohlstand positiv mit der Neigung korreliert ist, die Republikaner zu wählen, können wir beobachten, dass wohlhabendere Staaten eher die Demokraten wählen. So gewann 2004 der republikanische Kandidat George W. Bush die fünfzehn ärmsten Bundesstaaten und der demokratische Kandidat John Kerry 9 der 11 reichsten Bundesstaaten. Dennoch stimmten 62 % der Wähler mit einem Jahreseinkommen von über 200.000 Dollar für Bush, aber nur 36 % der Wähler mit einem Jahreseinkommen von 15.000 Dollar oder weniger stimmten für Bush. Es könnte sein, dass der wahre Faktor für die Wahlpräferenz der selbst wahrgenommene relative Wohlstand ist; vielleicht wählen diejenigen, die sich selbst als wohlhabender betrachten als ihre Nachbarn, eher die Republikaner. In diesem Fall würde eine Person eher die Republikaner wählen, wenn sie wohlhabender wird, aber sie würde eher die Demokraten wählen, wenn der Wohlstand ihres Nachbarn steigt (was zu einem reicheren Staat führt).
Der beobachtete Unterschied im Wahlverhalten auf der Grundlage des Wohlstands auf staatlicher und individueller Ebene könnte jedoch auch durch die oben beschriebene Verwechslung zwischen höheren Durchschnittswerten und höheren Wahrscheinlichkeiten erklärt werden. Staaten sind möglicherweise nicht wohlhabender, weil sie mehr wohlhabende Menschen enthalten (d.h. mehr Menschen mit einem Jahreseinkommen von über 200.000 Dollar), sondern weil sie eine kleine Anzahl superreicher Individuen enthalten; der ökologische Trugschluss resultiert dann aus der falschen Annahme, dass Individuen in wohlhabenderen Staaten mit größerer Wahrscheinlichkeit wohlhabend sind.
Viele Beispiele für ökologische Trugschlüsse finden sich in Studien über soziale Netzwerke, die oft Analysen und Implikationen aus verschiedenen Ebenen kombinieren. Dies wurde in einer wissenschaftlichen Arbeit über Netzwerke von Landwirten in Sumatra veranschaulicht.
Robinsons ParadoxonEdit
In einer Arbeit von William S. Robinson aus dem Jahr 1950 wurden die Analphabetenrate und der Anteil der außerhalb der USA geborenen Bevölkerung für jeden Bundesstaat und den District of Columbia (Stand der Volkszählung von 1930) berechnet. Er zeigte, dass zwischen diesen beiden Zahlen eine negative Korrelation von -0,53 bestand, d. h., je höher der Anteil der Einwanderer in einem Bundesstaat war, desto niedriger war die durchschnittliche Analphabetenquote. Betrachtet man jedoch die einzelnen Personen, so betrug die Korrelation +0,12 (die Einwanderer waren im Durchschnitt mehr Analphabeten als die einheimischen Bürger). Robinson zeigte, dass die negative Korrelation auf der Ebene der Bevölkerung eines Staates darauf zurückzuführen ist, dass sich Einwanderer eher in Staaten niederlassen, in denen die einheimische Bevölkerung besser alphabetisiert ist. Er warnte davor, aus bevölkerungsbezogenen oder „ökologischen“ Daten Schlussfolgerungen über Einzelpersonen abzuleiten. Im Jahr 2011 wurde festgestellt, dass Robinsons Berechnungen der ökologischen Korrelationen auf den falschen Daten auf Staatsebene beruhen. Die oben erwähnte Korrelation von -0,53 ist in Wirklichkeit -0,46. Robinsons Arbeit war bahnbrechend, aber der Begriff „ökologischer Fehlschluss“ wurde erst 1958 von Selvin geprägt.
Formales ProblemBearbeiten
Die Korrelation von aggregierten Größen (oder ökologische Korrelation) ist nicht gleich der Korrelation von Einzelgrößen. Bezeichne mit Xi, Yi zwei Größen auf der individuellen Ebene. Die Formel für die Kovarianz der aggregierten Größen in Gruppen der Größe N lautet
cov ( ∑ i = 1 N Y i , ∑ i = 1 N X i ) = ∑ i = 1 N cov ( Y i , X i ) + ∑ i = 1 N ∑ l ≠ i cov ( Y l , X i ) {\displaystyle \operatorname {cov} \left(\sum _{i=1}^{N}Y_{i},\sum _{i=1}^{N}X_{i}\right)=\sum _{i=1}^{N}\operatorname {cov} (Y_{i},X_{i})+\sum _{i=1}^{N}\sum _{l\neq i}\Operatorname {cov} (Y_{l},X_{i})}
Die Kovarianz zweier aggregierter Variablen hängt nicht nur von der Kovarianz zweier Variablen innerhalb derselben Individuen ab, sondern auch von den Kovarianzen der Variablen zwischen verschiedenen Individuen. Mit anderen Worten, Korrelationen von aggregierten Variablen berücksichtigen Querschnittseffekte, die auf individueller Ebene nicht relevant sind.
Das Problem für Korrelationen bringt natürlich ein Problem für Regressionen auf aggregierten Variablen mit sich: Der Korrelationsfehler ist daher ein wichtiges Problem für einen Forscher, der kausale Auswirkungen messen möchte. Beginnen wir mit einem Regressionsmodell, bei dem das Ergebnis Y i {\displaystyle Y_{i}}
beeinflusst wird von X i {\displaystyle X_{i}}
Y i = α + β X i + u i , {\displaystyle Y_{i}=\alpha +\beta X_{i}+u_{i},}
cov = 0.
Das Regressionsmodell auf der Aggregatebene erhält man durch Summierung der einzelnen Gleichungen:
∑ i = 1 N Y i = α ⋅ N + β ∑ i = 1 N X i + ∑ i = 1 N u i , {\displaystyle \sum _{i=1}^{N}Y_{i}=\alpha \cdot N+\beta \sum _{i=1}^{N}X_{i}+\sum _{i=1}^{N}u_{i},}
cov ≠ 0. {\displaystyle \operatorname {cov} \left\neq 0.}
Nichts verhindert, dass die Regressoren und die Fehler auf der aggregierten Ebene korreliert sind. Daher schätzt eine Regression mit aggregierten Daten im Allgemeinen nicht dasselbe Modell wie eine Regression mit individuellen Daten.
Das aggregierte Modell ist korrekt, wenn und nur wenn
cov = 0 für alle i . {\displaystyle \operatorname {cov} \left=0\quad {\text{ for all }}i.}
Das bedeutet, dass bei Kontrolle für X i {\displaystyle X_{i}}
, ∑ k = 1 N X k {\displaystyle \sum _{k=1}^{N}X_{k}}
bestimmt nicht Y i {\displaystyle Y_{i}}
.
Wahl zwischen aggregierter und individueller InferenzBearbeiten
Es ist nichts Falsches daran, Regressionen auf aggregierten Daten durchzuführen, wenn man an dem aggregierten Modell interessiert ist. Für den Gouverneur eines Bundesstaates ist es zum Beispiel richtig, Regressionen zwischen Polizeikräften und Kriminalitätsrate auf der Ebene des Bundesstaates durchzuführen, wenn man an den politischen Auswirkungen einer Erhöhung der Polizeikräfte interessiert ist. Es wäre jedoch ein ökologischer Irrtum, wenn ein Stadtrat die Auswirkungen einer Erhöhung der Polizeikräfte auf die Kriminalitätsrate auf Stadtebene aus der Korrelation auf Staatsebene ableiten würde.
Die Entscheidung, ob man aggregierte oder individuelle Regressionen durchführt, um die aggregierten Auswirkungen auf eine bestimmte Politik zu verstehen, hängt von folgendem Kompromiss ab: Bei aggregierten Regressionen gehen Daten auf individueller Ebene verloren, aber individuelle Regressionen führen zu starken Modellierungsannahmen. Einige Forscher sind der Meinung, dass die ökologische Korrelation ein besseres Bild von den Ergebnissen politischer Maßnahmen vermittelt, und empfehlen daher zu diesem Zweck die ökologische Korrelation gegenüber der Korrelation auf individueller Ebene (Lubinski & Humphreys, 1996). Andere Forscher sind anderer Meinung, insbesondere wenn die Beziehungen zwischen den Ebenen nicht klar modelliert sind. Um ökologische Fehlschlüsse zu vermeiden, können Forscher, die keine individuellen Daten haben, zunächst modellieren, was auf der individuellen Ebene geschieht, dann modellieren, wie die individuelle und die Gruppenebene zusammenhängen, und schließlich untersuchen, ob irgendetwas, das auf der Gruppenebene geschieht, zum Verständnis der Beziehung beiträgt. Bei der Bewertung der Auswirkungen staatlicher Maßnahmen ist es beispielsweise hilfreich zu wissen, dass die Auswirkungen der Maßnahmen in den einzelnen Staaten weniger stark variieren als die Maßnahmen selbst, was darauf hindeutet, dass die Unterschiede in den Maßnahmen trotz hoher ökologischer Korrelationen nicht gut in Ergebnisse umgesetzt werden (Rose, 1973).