Średnia i medianaEdit
Przykładem błędu ekologicznego jest założenie, że średnia populacji ma prostą interpretację przy rozważaniu prawdopodobieństw dla jednostki.
Na przykład, jeśli średni wynik grupy jest większy od zera, nie oznacza to, że losowy osobnik z tej grupy ma większe prawdopodobieństwo uzyskania wyniku pozytywnego niż negatywnego (tak długo, jak istnieje więcej wyników negatywnych niż pozytywnych, osobnik ma większe prawdopodobieństwo uzyskania wyniku negatywnego). Podobnie, jeśli określona grupa ludzi ma niższe średnie IQ niż populacja ogólna, błędem jest wnioskowanie, że losowo wybrany członek tej grupy ma większe prawdopodobieństwo niższego IQ niż średnie IQ populacji ogólnej; niekoniecznie też jest tak, że losowo wybrany członek tej grupy ma większe prawdopodobieństwo niż nie ma niższego IQ niż losowo wybrany członek populacji ogólnej. Z matematycznego punktu widzenia wynika to z faktu, że rozkład może mieć dodatnią średnią, ale ujemną medianę. Ta własność jest związana ze skośnością rozkładu.
Rozważmy następujący przykład liczbowy:
- Grupa A: 80% osób uzyskało 40 punktów, a 20% z nich uzyskało 95 punktów. Średni wynik wynosi 51 punktów.
- Grupa B: 50% osób uzyskało 45 punktów, a 50% uzyskało 55 punktów. Średnia ocena wynosi 50 punktów.
- Jeśli wybierzemy losowo dwie osoby z grup A i B, to są 4 możliwe wyniki:
- A – 40, B – 45 (wygrywa B, prawdopodobieństwo 40% – 0,8 × 0.5)
- A – 40, B – 55 (B wygrywa, 40% prawdopodobieństwo – 0.8 × 0.5)
- A – 95, B – 45 (A wygrywa, 10% prawdopodobieństwo – 0.2 × 0.5)
- A – 95, B – 55 (A wygrywa, 10% prawdopodobieństwo – 0.2 × 0.5)
- Although Group A has a higher mean score, 80% of the time a random individual of A will score lower than a random individual of B.
Individual and aggregate correlationsEdit
Badania sięgające Émile’a Durkheima sugerują, że miejscowości z przewagą protestantów mają wyższe wskaźniki samobójstw niż miejscowości z przewagą katolików. Według Freedmana, pomysł, że ustalenia Durkheima łączą, na poziomie indywidualnym, religię osoby z jej ryzykiem samobójstwa jest przykładem ekologicznego błędu. Związek na poziomie grupy nie charakteryzuje automatycznie związku na poziomie jednostki.
Podobnie, nawet jeśli na poziomie indywidualnym, bogactwo jest pozytywnie skorelowane z tendencją do głosowania na Republikanów, obserwujemy, że bogatsze stany mają tendencję do głosowania na Demokratów. Na przykład, w 2004 roku kandydat Republikanów, George W. Bush, wygrał w piętnastu najbiedniejszych stanach, a kandydat Demokratów, John Kerry, wygrał w 9 z 11 najbogatszych stanów. Jednak 62% wyborców o rocznych dochodach powyżej 200 000 $ głosowało na Busha, ale tylko 36% wyborców o rocznych dochodach 15 000 $ lub niższych głosowało na Busha.Korelacja na poziomie zagregowanym będzie różnić się od korelacji na poziomie indywidualnym, jeśli na preferencje wyborcze wpływa całkowite bogactwo stanu nawet po kontroli indywidualnego bogactwa. Może się okazać, że prawdziwym czynnikiem sprawczym preferencji wyborczych jest postrzegane przez siebie względne bogactwo; być może ci, którzy uważają się za lepiej sytuowanych niż ich sąsiedzi, częściej głosują na Republikanów. W tym przypadku, osoba byłaby bardziej skłonna głosować na Republikanina, gdyby stała się bogatsza, ale byłaby bardziej skłonna głosować na Demokratę, gdyby bogactwo jej sąsiada wzrosło (co skutkowałoby bogatszym stanem).
Jednakże obserwowana różnica w zwyczajach wyborczych opartych na bogactwie na poziomie państwowym i indywidualnym może być również wyjaśniona przez powszechne pomieszanie wyższych średnich i wyższych prawdopodobieństw, jak omówiono powyżej. Stany mogą nie być bogatsze, ponieważ zawierają więcej zamożnych ludzi (tj. więcej ludzi z rocznymi dochodami powyżej 200 000 USD), ale raczej dlatego, że zawierają niewielką liczbę super-bogatych jednostek; ekologiczny błąd wynika wtedy z błędnego założenia, że jednostki w bogatszych stanach są bardziej skłonne do bycia zamożnymi.
Wiele przykładów ekologicznego błędu można znaleźć w badaniach sieci społecznych, które często łączą analizę i implikacje z różnych poziomów. Zostało to zilustrowane w pracy akademickiej na temat sieci rolników na Sumatrze.
Paradoks RobinsonaEdit
Praca z 1950 roku przez Williama S. Robinsona obliczyła wskaźnik analfabetyzmu i odsetek ludności urodzonej poza USA dla każdego stanu i dla Dystryktu Kolumbii, od spisu ludności z 1930 roku. Wykazał, że te dwie liczby były powiązane ujemną korelacją -0,53; innymi słowy, im większy odsetek imigrantów w danym stanie, tym niższy średni analfabetyzm. Jednakże, jeśli wziąć pod uwagę pojedyncze osoby, korelacja wynosiła +0,12 (imigranci byli średnio bardziej niepiśmienni niż rodzimi obywatele). Robinson wykazał, że ujemna korelacja na poziomie populacji stanów wynikała z tego, że imigranci mieli tendencję do osiedlania się w stanach, w których ludność rodzima była bardziej piśmienna. Przestrzegał przed wyciąganiem wniosków na temat jednostek na podstawie danych z poziomu populacji, czyli danych „ekologicznych”. W 2011 roku okazało się, że wyliczenia Robinsona dotyczące korelacji ekologicznych oparte są na niewłaściwych danych z poziomu stanów. Wspomniana wyżej korelacja -0,53 to w rzeczywistości -0,46. Praca Robinsona była przełomowa, ale termin „ecological fallacy” został ukuty dopiero w 1958 roku przez Selvina.
Problem formalnyEdit
Korelacja wielkości zagregowanych (lub korelacja ekologiczna) nie jest równa korelacji wielkości indywidualnych. Oznaczamy przez Xi, Yi dwie wielkości na poziomie indywidualnym. Wzór na kowariancję wielkości zagregowanych w grupach o wielkości N ma postać
cov ( ∑ i = 1 N Y i , ∑ i = 1 N X i ) = ∑ i = 1 N cov ( Y i , X i ) + ∑ i = 1 N ∑ l ≠ i cov ( Y l , X i ) { {displaystyle \operatorname {cov} \left(\sum _{i=1}^{N}Y_{i},\sum _{i=1}^{N}X_{i}right)= \sum _{i=1}^{N}operatorname {cov} (Y_{i},X_{i})+suma _{i=1}^{N}}operatorname {cov} (Y_{l},X_{i})}
Kowariancja dwóch zagregowanych zmiennych zależy nie tylko od kowariancji dwóch zmiennych w obrębie tych samych osobników, ale także od kowariancji zmiennych pomiędzy różnymi osobnikami. Innymi słowy, korelacje zmiennych zagregowanych uwzględniają efekty przekrojowe, które nie są istotne na poziomie indywidualnym.
Problem z korelacjami pociąga za sobą naturalnie problem dla regresji na zmiennych zagregowanych: błąd korelacji jest zatem ważnym zagadnieniem dla badacza, który chce zmierzyć wpływy przyczynowe. Zacznijmy od modelu regresji, w którym wynik Y i {{i}}
jest zależny od X i {displaystyle X_{i}}
Y i = α + β X i + u i , { {displaystyle Y_{i}=alfa +beta X_{i}+u_{i},}
cov = 0.
Model regresji na poziomie zagregowanym otrzymujemy poprzez zsumowanie poszczególnych równań:
∑ i = 1 N Y i = α ⋅ N + β ∑ i = 1 N X i + ∑ i = 1 N u i , { {displaystyle ∑sum _{i=1}^{N}Y_{i}= ∑alfa ∑ N+ ∑beta ∑sum _{i=1}^{N}X_{i}+ ∑sum _{i=1}^{N}u_{i},}
cov ≠ 0. {{displaystyle ≠ 0.}
Nic nie stoi na przeszkodzie, aby regresory i błędy były skorelowane na poziomie zagregowanym. Dlatego, ogólnie rzecz biorąc, regresja na danych zagregowanych nie szacuje tego samego modelu, co regresja na danych indywidualnych.
Model zagregowany jest poprawny wtedy i tylko wtedy, gdy
cov = 0 dla wszystkich i . {Model agregatowy jest poprawny wtedy i tylko wtedy, gdy cov = 0 dla wszystkich i.
To oznacza, że kontrolując dla X i {{displaystyle X_{i}}
, ∑ k = 1 N X k {displaystyle ∑sum _{k=1}^{N}X_{k}}
nie określa Y i {{displaystyle Y_{i}}
.
Wybór między wnioskowaniem zagregowanym a indywidualnymEdit
Nie ma nic złego w prowadzeniu regresji na danych zagregowanych, jeśli ktoś jest zainteresowany modelem zagregowanym. Na przykład, dla gubernatora stanu, poprawne jest uruchomienie regresji między siłą policji a wskaźnikiem przestępczości na poziomie stanu, jeśli ktoś jest zainteresowany implikacjami politycznymi wzrostu siły policji. Jednakże, ekologiczny błąd miałby miejsce, gdyby rada miejska wywnioskowała wpływ wzrostu sił policyjnych na wskaźnik przestępczości na poziomie miasta z korelacji na poziomie państwa.
Wybór pomiędzy regresjami zagregowanymi i indywidualnymi w celu zrozumienia zagregowanych wpływów na jakąś politykę zależy od następującego kompromisu: regresje zagregowane tracą dane na poziomie indywidualnym, ale regresje indywidualne dodają silne założenia modelowania. Niektórzy badacze sugerują, że korelacja ekologiczna daje lepszy obraz wyniku działań polityki publicznej, dlatego zalecają w tym celu korelację ekologiczną zamiast korelacji na poziomie indywidualnym (Lubinski & Humphreys, 1996). Inni badacze nie zgadzają się z tym, zwłaszcza gdy relacje między poziomami nie są wyraźnie modelowane. Aby zapobiec ekologicznemu błędowi, badacze nie dysponujący danymi indywidualnymi mogą najpierw modelować, co dzieje się na poziomie indywidualnym, następnie modelować, w jaki sposób poziomy indywidualny i grupowy są powiązane, a na końcu zbadać, czy cokolwiek, co dzieje się na poziomie grupowym, przyczynia się do zrozumienia związku. Na przykład, w ocenie wpływu polityki państwa pomocna jest wiedza, że wpływ polityki jest mniej zróżnicowany w poszczególnych stanach niż sama polityka, co sugeruje, że różnice w polityce nie przekładają się dobrze na wyniki, pomimo wysokich korelacji ekologicznych (Rose, 1973).
.