Moyenne et médianeEdit
Un exemple d’erreur écologique est l’hypothèse selon laquelle une moyenne de population a une interprétation simple lorsqu’on considère les probabilités pour un individu.
Par exemple, si le score moyen d’un groupe est supérieur à zéro, cela n’implique pas qu’un individu aléatoire de ce groupe a plus de chances d’avoir un score positif qu’un score négatif (tant qu’il y a plus de scores négatifs que de scores positifs, un individu a plus de chances d’avoir un score négatif). De même, si l’on mesure qu’un groupe particulier de personnes a un QI moyen inférieur à celui de la population générale, c’est une erreur de conclure qu’un membre du groupe choisi au hasard a plus de chances d’avoir un QI inférieur au QI moyen de la population générale ; ce n’est pas non plus nécessairement le cas qu’un membre du groupe choisi au hasard ait plus de chances d’avoir un QI inférieur à celui d’un membre de la population générale choisi au hasard. Mathématiquement, cela vient du fait qu’une distribution peut avoir une moyenne positive mais une médiane négative. Cette propriété est liée à l’asymétrie de la distribution.
Considérez l’exemple numérique suivant :
- Groupe A : 80% des personnes ont obtenu 40 points et 20% d’entre elles ont obtenu 95 points. Le score moyen est de 51 points.
- Groupe B : 50% des personnes ont obtenu 45 points et 50% ont obtenu 55 points. Le score moyen est de 50 points.
- Si on choisit deux personnes au hasard parmi A et B, il y a 4 résultats possibles :
- A – 40, B – 45 (B gagne, probabilité de 40% – 0,8 × 0.5)
- A – 40, B – 55 (B gagne, probabilité de 40% – 0,8 × 0,5)
- A – 95, B – 45 (A gagne, probabilité de 10% – 0,2 × 0,5)
- A – 95, B – 55 (A gagne, probabilité de 10% – 0.2 × 0,5)
- Bien que le groupe A ait un score moyen plus élevé, 80 % du temps, un individu aléatoire de A aura un score inférieur à celui d’un individu aléatoire de B.
Corrélations individuelles et agrégéesModifié
Des recherches remontant à Émile Durkheim suggèrent que les localités à prédominance protestante ont des taux de suicide plus élevés que les localités à prédominance catholique. Selon Freedman, l’idée que les résultats de Durkheim établissent un lien, au niveau individuel, entre la religion d’une personne et son risque de suicide est un exemple de sophisme écologique. Une relation au niveau du groupe ne caractérise pas automatiquement la relation au niveau de l’individu.
De même, même si au niveau individuel, la richesse est positivement corrélée à la tendance à voter républicain, on observe que les États plus riches ont tendance à voter démocrate. Par exemple, en 2004, le candidat républicain, George W. Bush, a remporté les quinze États les plus pauvres, et le candidat démocrate, John Kerry, a remporté 9 des 11 États les plus riches. Pourtant, 62 % des électeurs disposant d’un revenu annuel supérieur à 200 000 dollars ont voté pour Bush, mais seulement 36 % des électeurs disposant d’un revenu annuel inférieur ou égal à 15 000 dollars ont voté pour Bush.La corrélation au niveau agrégé sera différente de la corrélation au niveau individuel si les préférences de vote sont affectées par la richesse totale de l’État, même après avoir contrôlé la richesse individuelle. Il se peut que le véritable facteur déterminant la préférence électorale soit la richesse relative perçue par l’individu ; peut-être que ceux qui se considèrent comme mieux lotis que leurs voisins sont plus susceptibles de voter républicain. Dans ce cas, une personne serait plus susceptible de voter républicain si elle devenait plus riche, mais elle serait plus susceptible de voter pour un démocrate si la richesse de son voisin augmentait (résultant en un état plus riche).
Cependant, la différence observée dans les habitudes de vote en fonction de la richesse au niveau de l’État et de l’individu pourrait également s’expliquer par la confusion courante entre des moyennes plus élevées et des probabilités plus élevées, comme discuté ci-dessus. Les États peuvent ne pas être plus riches parce qu’ils contiennent plus de personnes riches (c’est-à-dire plus de personnes ayant un revenu annuel supérieur à 200 000 $), mais plutôt parce qu’ils contiennent un petit nombre d’individus super-riches ; le sophisme écologique résulte alors de l’hypothèse incorrecte selon laquelle les individus des États plus riches sont plus susceptibles d’être riches.
De nombreux exemples de sophismes écologiques peuvent être trouvés dans les études des réseaux sociaux, qui combinent souvent des analyses et des implications de différents niveaux. Cela a été illustré dans un article universitaire sur les réseaux d’agriculteurs à Sumatra.
Paradoxe de RobinsonEdit
Un article de 1950 de William S. Robinson a calculé le taux d’analphabétisme et la proportion de la population née hors des États-Unis pour chaque État et pour le district de Columbia, à partir du recensement de 1930. Il a montré que ces deux chiffres étaient associés à une corrélation négative de -0,53 ; en d’autres termes, plus la proportion d’immigrants est importante dans un État, plus son taux d’analphabétisme moyen est faible. Cependant, si l’on considère les individus, la corrélation est de +0,12 (les immigrants sont en moyenne plus illettrés que les citoyens autochtones). Robinson a montré que la corrélation négative au niveau des populations des États était due au fait que les immigrants avaient tendance à s’installer dans les États où la population autochtone était plus alphabétisée. Il a mis en garde contre la déduction de conclusions sur les individus sur la base de données au niveau de la population, ou « écologiques ». En 2011, il a été découvert que les calculs des corrélations écologiques de Robinson étaient basés sur des données erronées au niveau des États. La corrélation de -0,53 mentionnée ci-dessus est en fait de -0,46. L’article de Robinson a fait école, mais le terme « sophisme écologique » n’a été inventé qu’en 1958 par Selvin.
Problème formelModifier
La corrélation des quantités agrégées (ou corrélation écologique) n’est pas égale à la corrélation des quantités individuelles. On désigne par Xi, Yi deux quantités au niveau individuel. La formule de la covariance des quantités agrégées dans des groupes de taille N est
cov ( ∑ i = 1 N Y i , ∑ i = 1 N X i ) = ∑ i = 1 N cov ( Y i , X i ) + ∑ i = 1 N ∑ l ≠ i cov ( Y l , X i ) {\displaystyle \operatorname {cov} \left(\sum _{i=1}^{N}Y_{i},\sum _{i=1}^{N}X_{i}\right)=\sum _{i=1}^{N}\operatorname {cov} (Y_{i},X_{i})+\sum _{i=1}^{N}\sum _{l\neq i}\operatorname {cov} (Y_{l},X_{i})}
La covariance de deux variables agrégées dépend non seulement de la covariance de deux variables au sein des mêmes individus mais aussi des covariances des variables entre différents individus. En d’autres termes, la corrélation des variables agrégées prend en compte des effets transversaux qui ne sont pas pertinents au niveau individuel.
Le problème pour les corrélations entraîne naturellement un problème pour les régressions sur les variables agrégées : le sophisme de la corrélation est donc un problème important pour un chercheur qui veut mesurer des impacts causaux. Commençons par un modèle de régression où le résultat Y i {\displaystyle Y_{i}}
est influencé par X i {\displaystyle X_{i}}
Y i = α + β X i + u i , {\displaystyle Y_{i}=\alpha +\beta X_{i}+u_{i},}
cov = 0. {\displaystyle \operatorname {cov} =0.}
Le modèle de régression au niveau agrégé est obtenu en additionnant les équations individuelles :
∑ i = 1 N Y i = α ⋅ N + β ∑ i = 1 N X i + ∑ i = 1 N u i , {\displaystyle \sum _{i=1}^{N}Y_{i}=\alpha \cdot N+\beta \sum _{i=1}^{N}X_{i}+\sum _{i=1}^{N}u_{i},}
cov ≠ 0. {\displaystyle \operatorname {cov} \left\neq 0.}
Rien n’empêche les régresseurs et les erreurs d’être corrélés au niveau agrégé. Par conséquent, généralement, l’exécution d’une régression sur des données agrégées n’estime pas le même modèle que l’exécution d’une régression avec des données individuelles.
Le modèle agrégé est correct si et seulement si
cov = 0 pour tous les i . {\displaystyle \operatorname {cov} \left=0\quad {\text{ for all }}i.}
Cela signifie que, en contrôlant pour X i {\displaystyle X_{i}}
, ∑ k = 1 N X k {\displaystyle \sum _{k=1}^{N}X_{k}}}
ne détermine pas Y i {\displaystyle Y_{i}}
.
Choix entre inférence agrégée et inférence individuelleEdit
Il n’y a rien de mal à effectuer des régressions sur des données agrégées si l’on s’intéresse au modèle agrégé. Par exemple, pour le gouverneur d’un État, il est correct d’effectuer des régressions entre les forces de police sur le taux de criminalité au niveau de l’État si l’on s’intéresse à l’implication politique d’une augmentation des forces de police. Cependant, une erreur écologique se produirait si un conseil municipal déduisait l’impact d’une augmentation des forces de police sur le taux de criminalité au niveau de la ville à partir de la corrélation au niveau de l’État.
Choisir d’effectuer des régressions agrégées ou individuelles pour comprendre les impacts agrégés sur une certaine politique dépend du compromis suivant : les régressions agrégées perdent des données au niveau individuel mais les régressions individuelles ajoutent des hypothèses de modélisation fortes. Certains chercheurs suggèrent que la corrélation écologique donne une meilleure image du résultat des actions de politique publique, ils recommandent donc la corrélation écologique plutôt que la corrélation au niveau individuel dans ce but (Lubinski & Humphreys, 1996). D’autres chercheurs ne sont pas d’accord, surtout lorsque les relations entre les niveaux ne sont pas clairement modélisées. Pour éviter le sophisme écologique, les chercheurs ne disposant pas de données individuelles peuvent d’abord modéliser ce qui se passe au niveau individuel, puis modéliser la façon dont les niveaux individuel et collectif sont liés, et enfin examiner si ce qui se passe au niveau collectif ajoute à la compréhension de la relation. Par exemple, pour évaluer l’impact des politiques des États, il est utile de savoir que les impacts des politiques varient moins entre les États que les politiques elles-mêmes, ce qui suggère que les différences entre les politiques ne se traduisent pas bien en résultats, malgré les corrélations écologiques élevées (Rose, 1973).