Media y medianaEditar
Un ejemplo de falacia ecológica es la suposición de que la media de una población tiene una interpretación simple cuando se consideran las probabilidades de un individuo.
Por ejemplo, si la puntuación media de un grupo es mayor que cero, esto no implica que un individuo al azar de ese grupo tenga más probabilidades de tener una puntuación positiva que una negativa (mientras haya más puntuaciones negativas que positivas un individuo tiene más probabilidades de tener una puntuación negativa). Del mismo modo, si se mide que un determinado grupo de personas tiene un coeficiente intelectual medio inferior al de la población general, es un error concluir que un miembro del grupo seleccionado al azar tiene más probabilidades de tener un coeficiente intelectual inferior al coeficiente intelectual medio de la población general; tampoco es necesariamente el caso que un miembro del grupo seleccionado al azar tenga más probabilidades de tener un coeficiente intelectual inferior al de un miembro de la población general seleccionado al azar. Desde el punto de vista matemático, esto se debe a que una distribución puede tener una media positiva pero una mediana negativa. Esta propiedad está ligada a la asimetría de la distribución.
Considere el siguiente ejemplo numérico:
- Grupo A: el 80% de las personas obtuvo 40 puntos y el 20% de ellas 95 puntos. La puntuación media es de 51 puntos.
- Grupo B: el 50% de las personas obtuvo 45 puntos y el 50% obtuvo 55 puntos. La puntuación media es de 50 puntos.
- Si elegimos dos personas al azar de A y B, hay 4 resultados posibles:
- A – 40, B – 45 (B gana, 40% de probabilidad – 0,8 × 0.5)
- A – 40, B – 55 (B gana, 40% de probabilidad – 0,8 × 0,5)
- A – 95, B – 45 (A gana, 10% de probabilidad – 0,2 × 0,5)
- A – 95, B – 55 (A gana, 10% de probabilidad – 0.2 × 0,5)
Aunque el grupo A tiene una puntuación media más alta, el 80% de las veces un individuo aleatorio de A tendrá una puntuación más baja que un individuo aleatorio de B.
Correlaciones individuales y agregadasEditar
Las investigaciones que se remontan a Émile Durkheim sugieren que las localidades predominantemente protestantes tienen tasas de suicidio más altas que las localidades predominantemente católicas. Según Freedman, la idea de que los hallazgos de Durkheim vinculan, a nivel individual, la religión de una persona con su riesgo de suicidio es un ejemplo de falacia ecológica. Una relación a nivel de grupo no caracteriza automáticamente la relación a nivel del individuo.
De forma similar, aunque a nivel individual la riqueza esté positivamente correlacionada con la tendencia a votar a los republicanos, observamos que los estados más ricos tienden a votar a los demócratas. Por ejemplo, en 2004, el candidato republicano, George W. Bush, ganó los quince estados más pobres, y el candidato demócrata, John Kerry, ganó 9 de los 11 estados más ricos. Sin embargo, el 62% de los votantes con ingresos anuales superiores a 200.000 dólares votaron a Bush, pero sólo el 36% de los votantes con ingresos anuales de 15.000 dólares o menos votaron a Bush.La correlación a nivel agregado diferirá de la correlación a nivel individual si las preferencias de voto se ven afectadas por la riqueza total del estado incluso después de controlar la riqueza individual. Podría ser que el verdadero factor impulsor de la preferencia de voto sea la riqueza relativa autopercibida; tal vez los que se ven a sí mismos como más acomodados que sus vecinos sean más propensos a votar a los republicanos. En este caso, un individuo sería más probable que votara a los republicanos si se volviera más rico, pero sería más probable que votara a los demócratas si la riqueza de su vecino aumentara (dando lugar a un estado más rico).
Sin embargo, la diferencia observada en los hábitos de voto en función de la riqueza a nivel estatal y a nivel individual también podría explicarse por la confusión común entre promedios más altos y probabilidades más altas, como se ha comentado anteriormente. Es posible que los estados no sean más ricos porque contengan más personas ricas (es decir, más personas con ingresos anuales superiores a 200.000 dólares), sino porque contienen un pequeño número de individuos superricos; la falacia ecológica resulta entonces de asumir incorrectamente que los individuos de los estados más ricos tienen más probabilidades de serlo.
Muchos ejemplos de falacias ecológicas pueden encontrarse en los estudios de redes sociales, que a menudo combinan análisis e implicaciones de diferentes niveles. Esto se ha ilustrado en un trabajo académico sobre las redes de agricultores en Sumatra.
Paradoja de RobinsonEditar
Un trabajo de 1950 de William S. Robinson calculó la tasa de analfabetismo y la proporción de la población nacida fuera de los Estados Unidos para cada estado y para el Distrito de Columbia, a partir del censo de 1930. Demostró que estas dos cifras estaban asociadas con una correlación negativa de -0,53; en otras palabras, cuanto mayor es la proporción de inmigrantes en un estado, menor es su promedio de analfabetismo. Sin embargo, cuando se consideran los individuos, la correlación era de +0,12 (los inmigrantes eran por término medio más analfabetos que los ciudadanos nativos). Robinson demostró que la correlación negativa a nivel de poblaciones estatales se debía a que los inmigrantes tendían a establecerse en estados donde la población nativa estaba más alfabetizada. Advirtió del peligro de deducir conclusiones sobre los individuos a partir de datos a nivel de población, o «ecológicos». En 2011, se descubrió que los cálculos de Robinson sobre las correlaciones ecológicas se basan en datos erróneos a nivel estatal. La correlación de -0,53 mencionada anteriormente es en realidad de -0,46. El artículo de Robinson fue seminal, pero el término ‘falacia ecológica’ no fue acuñado hasta 1958 por Selvin.
Problema formalEditar
La correlación de cantidades agregadas (o correlación ecológica) no es igual a la correlación de cantidades individuales. Denotemos por Xi, Yi dos cantidades a nivel individual. La fórmula de la covarianza de las cantidades agregadas en grupos de tamaño N es
cov ( ∑ i = 1 N Y i , ∑ i = 1 N X i ) = ∑ i = 1 N cov ( Y i , X i ) + ∑ i = 1 N ∑ l ≠ i cov ( Y l , X i ) {\displaystyle \operatorname {cov} \left(\sum _{i=1}^{N}Y_{i},\sum _{i=1}^N}X_{i}right)=\sum _{i=1}^{N}operatorname {cov} (Y_{i},X_{i})+suma _{i=1}^{N}suma _{l\neq i} {operador} {cov} (Y_{l},X_{i})}
La covarianza de dos variables agregadas depende no sólo de la covarianza de dos variables dentro de los mismos individuos, sino también de las covarianzas de las variables entre diferentes individuos. En otras palabras, la correlación de las variables agregadas tiene en cuenta los efectos transversales que no son relevantes a nivel individual.
El problema de las correlaciones conlleva naturalmente un problema para las regresiones sobre las variables agregadas: la falacia de la correlación es, por tanto, una cuestión importante para un investigador que quiera medir los impactos causales. Comencemos con un modelo de regresión en el que el resultado Y i {{displaystyle Y_{i}}
se ve afectado por X i {exp. X_{i}}
Y i = α + β X i + u i , {\displaystyle Y_{i}=\alpha +\beta X_{i}+u_{i},}
cov = 0. {\displaystyle \operatorname {cov} =0.}
El modelo de regresión a nivel agregado se obtiene sumando las ecuaciones individuales:
∑ i = 1 N Y i = α ⋅ N + β ∑ i = 1 N X i + ∑ i = 1 N u i , {\displaystyle \sum _{i=1}^{N}Y_{i}=\alpha \cdot N+\beta \i=1}^{N}X_{i}+sum _{i=1}^{N}u_{i},}
cov ≠ 0. {\displaystyle \operatorname {cov} \left\neq 0.}
Nada impide que los regresores y los errores estén correlacionados a nivel agregado. Por lo tanto, generalmente, la ejecución de una regresión sobre datos agregados no estima el mismo modelo que la ejecución de una regresión con datos individuales.
El modelo agregado es correcto si y sólo si
cov = 0 para todo i . {\displaystyle \operatorname {cov} \left=0\quad {\text{para todos}}i.}
Esto significa que, controlando por X i {\displaystyle X_{i}}
, ∑ k = 1 N X k {\displaystyle \sum _{k=1}^{}X_{k}}
no determina Y i {\displaystyle Y_{i}}
.
Elección entre inferencia agregada e individualEditar
No hay nada malo en ejecutar regresiones sobre datos agregados si uno está interesado en el modelo agregado. Por ejemplo, para el gobernador de un estado, es correcto realizar regresiones entre la fuerza policial y la tasa de criminalidad a nivel estatal si uno está interesado en la implicación política de un aumento de la fuerza policial. Sin embargo, se produciría una falacia ecológica si un ayuntamiento dedujera el impacto de un aumento de la fuerza policial en la tasa de criminalidad a nivel de la ciudad a partir de la correlación a nivel estatal.
La elección de realizar regresiones agregadas o individuales para comprender los impactos agregados en alguna política depende del siguiente compromiso: las regresiones agregadas pierden datos a nivel individual, pero las regresiones individuales añaden fuertes supuestos de modelización. Algunos investigadores sugieren que la correlación ecológica da una mejor imagen del resultado de las acciones de política pública, por lo que recomiendan la correlación ecológica sobre la correlación a nivel individual para este propósito (Lubinski & Humphreys, 1996). Otros investigadores no están de acuerdo, especialmente cuando las relaciones entre los niveles no están claramente modeladas. Para evitar la falacia ecológica, los investigadores que no disponen de datos individuales pueden modelar primero lo que ocurre en el nivel individual, luego modelar cómo se relacionan los niveles individual y de grupo y, por último, examinar si algo de lo que ocurre en el nivel de grupo contribuye a la comprensión de la relación. Por ejemplo, al evaluar el impacto de las políticas estatales, es útil saber que los impactos de las políticas varían menos entre los estados que las propias políticas, lo que sugiere que las diferencias políticas no se traducen bien en resultados, a pesar de las altas correlaciones ecológicas (Rose, 1973).