Media e medianaModifica
Un esempio di fallacia ecologica è l’assunzione che una media della popolazione abbia una semplice interpretazione quando si considerano le probabilità per un individuo.
Per esempio, se il punteggio medio di un gruppo è maggiore di zero, questo non implica che un individuo casuale di quel gruppo abbia più probabilità di avere un punteggio positivo che uno negativo (finché ci sono più punteggi negativi che positivi un individuo ha più probabilità di avere un punteggio negativo). Allo stesso modo, se si misura che un particolare gruppo di persone ha un QI medio più basso della popolazione generale, è un errore concludere che un membro del gruppo selezionato a caso ha più probabilità di non avere un QI più basso del QI medio della popolazione generale; non è nemmeno necessariamente il caso che un membro del gruppo selezionato a caso ha più probabilità di non avere un QI più basso di un membro selezionato a caso della popolazione generale. Matematicamente, questo deriva dal fatto che una distribuzione può avere una media positiva ma una mediana negativa. Questa proprietà è legata all’asimmetria della distribuzione.
Considerate il seguente esempio numerico:
- Gruppo A: l’80% delle persone ha ottenuto 40 punti e il 20% ha ottenuto 95 punti. Il punteggio medio è di 51 punti.
- Gruppo B: il 50% delle persone ha ottenuto 45 punti e il 50% ha ottenuto 55 punti. Il punteggio medio è 50 punti.
- Se prendiamo due persone a caso da A e B, ci sono 4 possibili risultati:
- A – 40, B – 45 (B vince, 40% di probabilità – 0,8 × 0.5)
- A – 40, B – 55 (B vince, 40% di probabilità – 0,8 × 0,5)
- A – 95, B – 45 (A vince, 10% di probabilità – 0,2 × 0,5)
- A – 95, B – 55 (A vince, 10% di probabilità – 0.2 × 0,5)
- Anche se il gruppo A ha un punteggio medio più alto, l’80% delle volte un individuo a caso di A avrà un punteggio più basso di un individuo a caso di B.
Correlazioni individuali e aggregateModifica
Ricerche che risalgono a Émile Durkheim suggeriscono che le località prevalentemente protestanti hanno tassi di suicidio più alti delle località prevalentemente cattoliche. Secondo Freedman, l’idea che i risultati di Durkheim colleghino, a livello individuale, la religione di una persona al suo rischio di suicidio è un esempio di fallacia ecologica. Una relazione a livello di gruppo non caratterizza automaticamente la relazione a livello dell’individuo.
Similmente, anche se a livello individuale, la ricchezza è positivamente correlata alla tendenza a votare repubblicano, si osserva che gli stati più ricchi tendono a votare democratico. Per esempio, nel 2004, il candidato repubblicano, George W. Bush, ha vinto i quindici stati più poveri, e il candidato democratico, John Kerry, ha vinto 9 degli 11 stati più ricchi. Eppure il 62% degli elettori con un reddito annuo superiore ai 200.000 dollari ha votato per Bush, ma solo il 36% degli elettori con un reddito annuo di 15.000 dollari o meno ha votato per Bush.La correlazione a livello aggregato sarà diversa da quella a livello individuale se le preferenze di voto sono influenzate dalla ricchezza totale dello stato anche dopo aver controllato la ricchezza individuale. Potrebbe essere che il vero fattore trainante nella preferenza di voto sia la ricchezza relativa auto-percepita; forse coloro che si vedono meglio dei loro vicini sono più propensi a votare repubblicano. In questo caso, un individuo sarebbe più propenso a votare repubblicano se diventasse più ricco, ma sarebbe più propenso a votare per un democratico se la ricchezza del suo vicino aumentasse (risultando in uno stato più ricco).
Tuttavia, la differenza osservata nelle abitudini di voto basata sulla ricchezza a livello statale e a livello individuale potrebbe anche essere spiegata dalla comune confusione tra medie più alte e probabilità più alte, come discusso sopra. Gli stati potrebbero non essere più ricchi perché contengono più persone ricche (cioè più persone con un reddito annuo superiore a 200.000 dollari), ma piuttosto perché contengono un piccolo numero di individui super-ricchi; la fallacia ecologica risulta quindi dall’assunzione errata che gli individui negli stati più ricchi hanno più probabilità di essere ricchi.
Molti esempi di fallacie ecologiche si possono trovare negli studi sulle reti sociali, che spesso combinano analisi e implicazioni da diversi livelli. Questo è stato illustrato in un documento accademico sulle reti di agricoltori a Sumatra.
Il paradosso di RobinsonModifica
Un documento del 1950 di William S. Robinson calcolò il tasso di analfabetismo e la proporzione della popolazione nata fuori dagli Stati Uniti per ogni stato e per il distretto di Columbia, a partire dal censimento del 1930. Egli mostrò che queste due cifre erano associate con una correlazione negativa di -0,53; in altre parole, maggiore è la proporzione di immigrati in uno stato, minore è il suo analfabetismo medio. Tuttavia, quando si considerano gli individui, la correlazione era +0,12 (gli immigrati erano in media più analfabeti dei cittadini nativi). Robinson ha mostrato che la correlazione negativa a livello di popolazioni statali era dovuta al fatto che gli immigrati tendevano a stabilirsi negli stati dove la popolazione nativa era più alfabetizzata. Mise in guardia dal dedurre conclusioni sugli individui sulla base di dati a livello di popolazione, o “ecologici”. Nel 2011, si è scoperto che i calcoli di Robinson sulle correlazioni ecologiche sono basati su dati sbagliati a livello statale. La correlazione di -0,53 menzionata sopra è in realtà -0,46. L’articolo di Robinson fu seminale, ma il termine ‘fallacia ecologica’ non fu coniato fino al 1958 da Selvin.
Problema formaleModifica
La correlazione di quantità aggregate (o correlazione ecologica) non è uguale alla correlazione di quantità individuali. Denotate con Xi, Yi due quantità a livello individuale. La formula per la covarianza delle quantità aggregate in gruppi di dimensione N è
cov ( ∑ i = 1 N Y i , ∑ i = 1 N X i ) = ∑ i = 1 N cov ( Y i , X i ) + ∑ i = 1 N ∑ l ≠ i cov ( Y l , X i ) {displaystyle \operatorname {cov} \left(\sum _{i=1}^{N}Y_{i},\sum _{i=1}^{N}X_{i}right)=sum _{i=1}^{N}\operatorname {cov} (Y_{i},X_{i})+sum _{i=1}^{N}^{N}sum _{l\neq i}operatorname {cov} (Y_{l},X_{i})}
La covarianza di due variabili aggregate dipende non solo dalla covarianza di due variabili all’interno degli stessi individui ma anche dalle covarianze delle variabili tra individui diversi. In altre parole, la correlazione delle variabili aggregate tiene conto di effetti trasversali che non sono rilevanti a livello individuale.
Il problema delle correlazioni comporta naturalmente un problema per le regressioni su variabili aggregate: la fallacia della correlazione è quindi una questione importante per un ricercatore che vuole misurare gli impatti causali. Iniziamo con un modello di regressione in cui il risultato Y i {displaystyle Y_{i}}
è influenzato da X i {displaystyle X_{i}}
Y i = α + β X i + u i , {displaystyle Y_{i}=alpha +beta X_{i}+u_{i},}
cov = 0. {displaystyle \operatorname {cov} =0.}
Il modello di regressione a livello aggregato si ottiene sommando le singole equazioni:
∑ i = 1 N Y i = α ⋅ N + β ∑ i = 1 N X i + ∑ i = 1 N u i , {displaystyle \sum _{i=1}^{N}Y_{i}=\alpha \cdot N+\beta \sum _{i=1}^{N}X_{i}+\sum _{i=1}^{N}u_{i},}
cov ≠ 0. {0.
Nulla impedisce che i regressori e gli errori siano correlati a livello aggregato. Pertanto, generalmente, l’esecuzione di una regressione sui dati aggregati non stima lo stesso modello dell’esecuzione di una regressione con dati individuali.
Il modello aggregato è corretto se e solo se
cov = 0 per tutti gli i . {\displaystyle \operatorname {cov} \left=0\quadro {\testo{ per tutti }i.}
Questo significa che, controllando per X i {\displaystyle X_{i}
, ∑ k = 1 N X k {\displaystyle \sum _{k=1}^{N}X_{k}}
non determina Y i {displaystyle Y_{i}
.
Scegliere tra inferenza aggregata e individualeModifica
Non c’è niente di sbagliato nell’eseguire regressioni su dati aggregati se si è interessati al modello aggregato. Per esempio, per il governatore di uno stato, è corretto eseguire regressioni tra le forze di polizia e il tasso di criminalità a livello statale se si è interessati all’implicazione politica di un aumento delle forze di polizia. Tuttavia, si verificherebbe una fallacia ecologica se un consiglio comunale deducesse l’impatto di un aumento delle forze di polizia sul tasso di criminalità a livello cittadino dalla correlazione a livello statale.
Scegliere di eseguire regressioni aggregate o individuali per comprendere gli impatti aggregati su alcune politiche dipende dal seguente trade-off: le regressioni aggregate perdono dati a livello individuale ma le regressioni individuali aggiungono forti ipotesi di modellazione. Alcuni ricercatori suggeriscono che la correlazione ecologica fornisce un quadro migliore del risultato delle azioni di politica pubblica, quindi raccomandano la correlazione ecologica rispetto alla correlazione a livello individuale per questo scopo (Lubinski & Humphreys, 1996). Altri ricercatori non sono d’accordo, specialmente quando le relazioni tra i livelli non sono chiaramente modellate. Per prevenire la fallacia ecologica, i ricercatori senza dati individuali possono modellare prima ciò che accade a livello individuale, poi modellare come i livelli individuali e di gruppo sono correlati, e infine esaminare se qualcosa che accade a livello di gruppo aggiunge alla comprensione della relazione. Per esempio, nel valutare l’impatto delle politiche statali, è utile sapere che gli impatti delle politiche variano meno tra gli stati che non le politiche stesse, suggerendo che le differenze tra le politiche non sono ben tradotte in risultati, nonostante le alte correlazioni ecologiche (Rose, 1973).