Media și medianaEdit

Un exemplu de eroare ecologică este presupunerea că media unei populații are o interpretare simplă atunci când se iau în considerare probabilitățile pentru un individ.

De exemplu, dacă scorul mediu al unui grup este mai mare decât zero, acest lucru nu implică faptul că un individ aleatoriu din acel grup are o probabilitate mai mare de a avea un scor pozitiv decât unul negativ (atâta timp cât există mai multe scoruri negative decât scoruri pozitive, un individ are o probabilitate mai mare de a avea un scor negativ). În mod similar, dacă se măsoară că un anumit grup de persoane are un IQ mediu mai mic decât populația generală, este o eroare să se concluzioneze că un membru al grupului ales la întâmplare are o probabilitate mai mare de a avea un IQ mai mic decât IQ-ul mediu al populației generale; de asemenea, nu este neapărat cazul că un membru al grupului ales la întâmplare are o probabilitate mai mare de a avea un IQ mai mic decât un membru al populației generale ales la întâmplare. Din punct de vedere matematic, acest lucru provine din faptul că o distribuție poate avea o medie pozitivă, dar o mediană negativă. Această proprietate este legată de asimetria distribuției.

Considerați următorul exemplu numeric:

  • Grupul A: 80% dintre oameni au obținut 40 de puncte și 20% dintre ei au obținut 95 de puncte. Punctajul mediu este de 51 de puncte.
  • Grupa B: 50% dintre persoane au obținut 45 de puncte și 50% au obținut 55 de puncte. Scorul mediu este de 50 de puncte.
  • Dacă alegem două persoane la întâmplare din A și B, există 4 rezultate posibile:
    • A – 40, B – 45 (B câștigă, 40% probabilitate – 0,8 × 0.5)
    • A – 40, B – 55 (B câștigă, 40% probabilitate – 0.8 × 0.5)
    • A – 95, B – 45 (A câștigă, 10% probabilitate – 0.2 × 0.5)
    • A – 95, B – 55 (A câștigă, 10% probabilitate – 0.5 × 0.5)
    • A – 95, B – 55 (A câștigă, 10% probabilitate – 0.2 × 0,5)
  • Deși grupul A are un scor mediu mai mare, 80% din timp un individ aleatoriu din A va avea un scor mai mic decât un individ aleatoriu din B.

Corelații individuale și agregateEdit

Cercetarea care datează de la Émile Durkheim sugerează că localitățile predominant protestante au rate de sinucidere mai mari decât localitățile predominant catolice. Potrivit lui Freedman, ideea că descoperirile lui Durkheim leagă, la nivel individual, religia unei persoane de riscul de sinucidere al acesteia este un exemplu de eroare ecologică. O relație la nivel de grup nu caracterizează în mod automat relația la nivel de individ.

În mod similar, chiar dacă la nivel individual, bogăția este corelată pozitiv cu tendința de a vota republican, observăm că statele mai bogate tind să voteze democrat. De exemplu, în 2004, candidatul republican, George W. Bush, a câștigat cele mai sărace cincisprezece state, iar candidatul democrat, John Kerry, a câștigat 9 din cele mai bogate 11 state. Cu toate acestea, 62% dintre alegătorii cu venituri anuale de peste 200.000 de dolari au votat pentru Bush, dar numai 36% dintre alegătorii cu venituri anuale de 15.000 de dolari sau mai puțin au votat pentru Bush.Corelația la nivel agregat va fi diferită de corelația la nivel individual dacă preferințele de vot sunt afectate de bogăția totală a statului chiar și după ce se controlează bogăția individuală. S-ar putea ca adevăratul factor determinant în preferințele de vot să fie bogăția relativă autopercepută; poate că cei care se consideră mai înstăriți decât vecinii lor sunt mai predispuși să voteze republican. În acest caz, un individ ar fi mai predispus să voteze republican dacă ar deveni mai bogat, dar ar fi mai predispus să voteze pentru un democrat dacă bogăția vecinului său ar crește (rezultând un stat mai bogat).

Cu toate acestea, diferența observată în ceea ce privește obiceiurile de vot pe baza bogăției la nivel de stat și la nivel individual ar putea fi, de asemenea, explicată prin confuzia obișnuită între mediile mai mari și probabilitățile mai mari, așa cum s-a discutat mai sus. Este posibil ca statele să nu fie mai bogate deoarece conțin mai mulți oameni bogați (adică mai multe persoane cu venituri anuale de peste 200.000 de dolari), ci mai degrabă pentru că acestea conțin un număr mic de indivizi super-bogați; eroare ecologică rezultă atunci din presupunerea incorectă că indivizii din statele mai bogate au o probabilitate mai mare de a fi bogați.

Multe exemple de erori ecologice pot fi găsite în studiile privind rețelele sociale, care combină adesea analize și implicații de la diferite niveluri. Acest lucru a fost ilustrat într-o lucrare academică despre rețelele de fermieri din Sumatra.

Paradoxul lui RobinsonEdit

O lucrare din 1950 a lui William S. Robinson a calculat rata analfabetismului și proporția populației născute în afara SUA pentru fiecare stat și pentru Districtul Columbia, la recensământul din 1930. El a arătat că aceste două cifre au fost asociate cu o corelație negativă de -0,53; cu alte cuvinte, cu cât este mai mare proporția de imigranți într-un stat, cu atât este mai scăzută media analfabetismului. Cu toate acestea, atunci când sunt luați în considerare indivizii, corelația era de +0,12 (imigranții erau în medie mai analfabeți decât cetățenii nativi). Robinson a arătat că corelația negativă la nivelul populațiilor statelor se datorează faptului că imigranții aveau tendința de a se stabili în statele în care populația nativă era mai alfabetizată. El a avertizat împotriva deducerii unor concluzii despre indivizi pe baza datelor la nivel de populație, sau „ecologice”. În 2011, s-a descoperit că calculele lui Robinson cu privire la corelațiile ecologice se bazează pe date greșite la nivel de stat. Corelația de -0,53 menționată mai sus este, de fapt, de -0,46. Lucrarea lui Robinson a fost fundamentală, dar termenul „eroare ecologică” a fost inventat abia în 1958 de Selvin.

Problemă formalăEdit

Corelația cantităților agregate (sau corelația ecologică) nu este egală cu corelația cantităților individuale. Se denumește prin Xi, Yi două mărimi la nivel individual. Formula pentru covarianța cantităților agregate în grupuri de mărime N este

cov ( ∑ i = 1 N Y i , ∑ i = 1 N X i ) = ∑ i = 1 N cov ( Y i , X i ) + ∑ i = 1 N ∑ l ≠ i cov ( Y l , X i ) {\displaystyle \operatorname {cov} \left(\sum _{i=1}^{N}Y_{i},\sum _{i=1}^{N}X_{i}\right)=\sum _{i=1}^{N}\operatorname {cov} (Y_{i},X_{i})+\sum _{i=1}^{N}\sum _{l\neq i}\operatorname {cov} (Y_{l},X_{i})}

Covarianța a două variabile agregate depinde nu numai de covarianța a două variabile în cadrul acelorași indivizi, ci și de covarianțele variabilelor între indivizi diferiți. Cu alte cuvinte, corelația variabilelor agregate ia în considerare efectele transversale care nu sunt relevante la nivel individual.

Problema pentru corelații implică în mod natural o problemă pentru regresiile pe variabile agregate: eroarea de corelație este, prin urmare, o problemă importantă pentru un cercetător care dorește să măsoare impactul cauzal. Începeți cu un model de regresie în care rezultatul Y i {\displaystyle Y_{i}}.

este influențat de X i {\displaystyle X_{i}}.

Y i = α + β X i + u i , {\displaystyle Y_{i}=\alpha +\beta X_{i}+u_{i},}

cov = 0. {\displaystyle \operatorname {cov} =0.}

Modelul de regresie la nivel agregat se obține prin însumarea ecuațiilor individuale:

∑ i = 1 N Y i = α ⋅ N + β ∑ i = 1 N X i + ∑ i = 1 N u i , {\displaystyle \sum _{i=1}^{N}Y_{i}=\alpha \cdot N+\beta \sum _{i=1}^{N}X_{i}+\sum _{i=1}^{N}u_{i},}

cov ≠ 0. {\displaystyle \operatorname {cov} \left\neq 0.}

Nimic nu împiedică ca regresorii și erorile să fie corelate la nivel agregat. Prin urmare, în general, efectuarea unei regresii pe date agregate nu estimează același model decât efectuarea unei regresii cu date individuale.

Modelul agregat este corect dacă și numai dacă

cov = 0 pentru toți i . {\displaystyle \operatorname {cov} \left=0\quad {\text{ pentru toți }}i.}

Aceasta înseamnă că, controlând pentru X i {\displaystyle X_{i}}

, ∑ k = 1 N X k {\displaystyle \sum _{k=1}^{N}X_{k}}}

nu determină Y i {\displaystyle Y_{i}}

.

Alegerea între inferența agregată și cea individualăEdit

Nu este nimic greșit în a rula regresii pe date agregate dacă cineva este interesat de modelul agregat. De exemplu, pentru guvernatorul unui stat, este corect să se ruleze regresii între forța de poliție și rata criminalității la nivel de stat dacă cineva este interesat de implicațiile politice ale unei creșteri a forței de poliție. Cu toate acestea, ar avea loc o eroare ecologică dacă un consiliu municipal ar deduce impactul unei creșteri a forței de poliție asupra ratei criminalității la nivel de oraș din corelația la nivel de stat.

Alegerea de a rula regresii agregate sau individuale pentru a înțelege impactul agregat asupra unei anumite politici depinde de următorul compromis: regresiile agregate pierd date la nivel individual, dar regresiile individuale adaugă ipoteze puternice de modelare. Unii cercetători sugerează că corelația ecologică oferă o imagine mai bună a rezultatului acțiunilor de politică publică, astfel încât aceștia recomandă corelația ecologică în locul corelației la nivel individual în acest scop (Lubinski & Humphreys, 1996). Alți cercetători nu sunt de acord, în special atunci când relațiile dintre niveluri nu sunt clar modelate. Pentru a preveni falacia ecologică, cercetătorii care nu dispun de date individuale pot modela mai întâi ceea ce se întâmplă la nivel individual, apoi pot modela modul în care nivelurile individual și de grup sunt legate și, în final, pot examina dacă ceva ce se întâmplă la nivel de grup contribuie la înțelegerea relației. De exemplu, în evaluarea impactului politicilor de stat, este util să știm că impactul politicilor variază mai puțin între state decât politicile în sine, ceea ce sugerează că diferențele dintre politici nu sunt bine transpuse în rezultate, în ciuda corelațiilor ecologice ridicate (Rose, 1973).

.

Lasă un răspuns

Adresa ta de email nu va fi publicată.