Média e medianaEditar

Um exemplo de falácia ecológica é a suposição de que uma média populacional tem uma interpretação simples ao considerar as probabilidades para um indivíduo.

Por exemplo, se a pontuação média de um grupo for maior que zero, isso não implica que um indivíduo aleatório desse grupo tenha mais probabilidade de ter uma pontuação positiva do que uma negativa (desde que haja mais pontuações negativas do que positivas, um indivíduo tem mais probabilidade de ter uma pontuação negativa). Da mesma forma, se um determinado grupo de pessoas for medido para ter um QI médio inferior ao da população geral, é um erro concluir que um membro do grupo seleccionado aleatoriamente tem mais probabilidade de ter um QI inferior ao da população geral; também não é necessariamente o caso de um membro do grupo seleccionado aleatoriamente ter mais probabilidade de ter um QI inferior ao de um membro da população geral seleccionado aleatoriamente. Matematicamente, isto advém do facto de uma distribuição poder ter uma média positiva mas uma mediana negativa. Esta propriedade está ligada ao enviesamento da distribuição.

Considere o seguinte exemplo numérico:

  • Grupo A: 80% das pessoas têm 40 pontos e 20% delas têm 95 pontos. A pontuação média é de 51 pontos.
  • Grupo B: 50% das pessoas obtiveram 45 pontos e 50% obtiveram 55 pontos. A pontuação média é de 50 pontos.
  • Se escolhermos duas pessoas ao acaso de A e B, há 4 resultados possíveis:
    • A – 40, B – 45 (B ganha, 40% de probabilidade – 0,8 × 0.5)
    • A – 40, B – 55 (B vence, 40% de probabilidade – 0,8 × 0,5)
    • A – 95, B – 45 (A vence, 10% de probabilidade – 0,2 × 0,5)
    • A – 95, B – 55 (A vence, 10% de probabilidade – 0.2 × 0,5)
  • A – 95, B – 55 (A ganha, 10% de probabilidade – 0. 2 × 0,5)
  • >A – 95, B – 55 (A ganha, 10% de probabilidade – 0. De acordo com Freedman, a idéia de que as descobertas de Durkheim ligam, a nível individual, a religião de uma pessoa ao seu risco de suicídio é um exemplo da falácia ecológica. Uma relação a nível de grupo não caracteriza automaticamente a relação a nível do indivíduo.

    Simplesmente, mesmo que a nível individual, a riqueza esteja positivamente correlacionada à tendência de votar Republicano, observamos que os estados mais ricos tendem a votar Democrático. Por exemplo, em 2004, o candidato republicano, George W. Bush, ganhou os quinze estados mais pobres, e o candidato democrata, John Kerry, ganhou 9 dos 11 estados mais ricos. No entanto, 62% dos eleitores com rendimentos anuais superiores a 200.000 dólares votaram em Bush, mas apenas 36% dos eleitores com rendimentos anuais de 15.000 dólares ou menos votaram em Bush. A correlação a nível agregado será diferente da correlação a nível individual se as preferências de voto forem afectadas pela riqueza total do estado, mesmo depois de controlar a riqueza individual. Pode ser que o verdadeiro factor impulsionador da preferência de voto seja a riqueza relativa auto-percebida; talvez aqueles que se vêem a si próprios como melhores do que os seus vizinhos sejam mais propensos a votar republicano. Neste caso, um indivíduo teria mais probabilidade de votar republicano se se tornasse mais rico, mas teria mais probabilidade de votar num democrata se a riqueza do seu vizinho aumentasse (resultando num estado mais rico).

    No entanto, a diferença observada nos hábitos de voto baseados na riqueza a nível estadual e individual também poderia ser explicada pela confusão comum entre médias mais altas e maiores probabilidades, como discutido acima. Os estados podem não ser mais ricos porque contêm pessoas mais ricas (ou seja, mais pessoas com rendimentos anuais superiores a 200.000 dólares), mas sim porque contêm um pequeno número de indivíduos super-ricos; a falácia ecológica resulta então do pressuposto incorrecto de que os indivíduos em estados mais ricos têm maior probabilidade de serem ricos.

    Muitos exemplos de falácias ecológicas podem ser encontrados em estudos de redes sociais, que muitas vezes combinam análises e implicações de diferentes níveis. Isto foi ilustrado em um artigo acadêmico sobre redes de agricultores em Sumatra.

    Paradoxo de RobinsonEditar

    Um artigo de William S. Robinson de 1950 calculou a taxa de analfabetismo e a proporção da população nascida fora dos EUA para cada estado e para o Distrito de Colúmbia, a partir do censo de 1930. Ele mostrou que estes dois números estavam associados a uma correlação negativa de -0,53; em outras palavras, quanto maior a proporção de imigrantes em um estado, menor será a sua analfabetismo média. No entanto, quando os indivíduos são considerados, a correlação foi de +0,12 (os imigrantes eram, em média, mais analfabetos do que os cidadãos nativos). Robinson mostrou que a correlação negativa ao nível das populações estatais se devia ao facto de os imigrantes tenderem a estabelecer-se em estados onde a população nativa era mais alfabetizada. Ele advertiu contra a dedução de conclusões sobre indivíduos com base no nível populacional, ou dados “ecológicos”. Em 2011, descobriu-se que os cálculos de Robinson sobre as correlações ecológicas se baseiam em dados errados do nível do estado. A correlação de -0,53 mencionada acima é na verdade -0,46. O trabalho de Robinson era seminal, mas o termo “falácia ecológica” não foi cunhado até 1958 por Selvin.

    Problema formalEditar

    A correlação das quantidades agregadas (ou correlação ecológica) não é igual à correlação das quantidades individuais. Denotado por Xi, Yi duas quantidades no nível individual. A fórmula para a covariância das quantidades agregadas em grupos de tamanho N é

    cov ( ∑ i = 1 N Y i , ∑ i = 1 N X i ) = ∑ i = 1 N cov ( Y i , X i ) + ∑ i = 1 N ∑ l ≠ i cov ( Y l , X i ) {\i}{\i1}esquerda(sum _\i=1}^{N}Y_{i},{i}sum _{i=1}^{N}X_{i}{i}direita)=sum _{i=1}{N}{i=1}{N}{i}{i}-operatornorname {cov}(Y_{i},X_{i})+_____sum _{i=1}^{N}sum _{l}neq i}}operatornorname {cov} (Y_{l},X_{i})}

    A covariância de duas variáveis agregadas depende não só da covariância de duas variáveis dentro do mesmo indivíduo, mas também das covariâncias das variáveis entre diferentes indivíduos. Em outras palavras, a correlação de variáveis agregadas leva em conta efeitos transversais que não são relevantes no nível individual.

    O problema para correlações implica naturalmente um problema para regressões em variáveis agregadas: a falácia da correlação é, portanto, uma questão importante para um pesquisador que quer medir os impactos causais. Comece com um modelo de regressão em que o resultado Y i {\i} {\i}

    é impactado por X i {\i} {\i}

    Y i = α + β X i + u i , {\displaystyle Y_{\i}=\alpha +\beta X_{\i}+u_{\i},}

    cov = 0. {\displaystyle \displaystyle {\i} =0.}

    O modelo de regressão no nível agregado é obtido pela soma das equações individuais:

    ∑ i = 1 N Y i = α ⋅ N + β ∑ i = 1 N X i + ∑ i = 1 N u i , {\i}displaystyle \sum _{i=1}^{N}Y_{i}==alpha \cdot N+\beta \sum _{i=1}^{N}X_{i}+\sum _{i=1}^{N}u_{i},}

    cov ≠ 0. Displaystyle Operatorname (cov), à esquerda 0.ª 0.ª 0.ª 0.ª 0.ª

    Nada impede que os regressores e os erros sejam correlacionados no nível agregado. Portanto, geralmente, executar uma regressão sobre dados agregados não estima o mesmo modelo do que executar uma regressão com dados individuais.

    O modelo agregado está correto se e somente se

    cov = 0 para todos i . estilo de operação do display {cov} {esquerda = 0 {texto }i.}

    Isto significa que, controlando para X i {\i}displaystyle X_{\i}

    >

    , ∑ k = 1 N X k {\\i}displaystyle \sum _{k=1}^{N}X_{k}}

    não determina Y i {\i}displaystyle Y_{\i}}

    .

    Escolher entre inferência agregada e individualEditar

    Não há nada de errado em executar regressões sobre dados agregados se alguém estiver interessado no modelo agregado. Por exemplo, para o governador de um estado, é correto executar regressões entre a força policial sobre a taxa de criminalidade a nível estadual se alguém estiver interessado na implicação política de um aumento da força policial. Entretanto, uma falácia ecológica aconteceria se uma câmara municipal deduzisse o impacto de um aumento da força policial na taxa de criminalidade em nível municipal da correlação em nível estadual.

    A escolha de executar regressões agregadas ou individuais para entender os impactos agregados em algumas políticas depende do seguinte trade-off: regressões agregadas perdem dados em nível individual, mas regressões individuais adicionam fortes suposições de modelagem. Alguns pesquisadores sugerem que a correlação ecológica dá uma melhor imagem do resultado das ações de políticas públicas, portanto eles recomendam a correlação ecológica sobre a correlação de nível individual para este propósito (Lubinski & Humphreys, 1996). Outros pesquisadores discordam, especialmente quando as relações entre os níveis não estão claramente modeladas. Para evitar a falácia ecológica, pesquisadores sem dados individuais podem primeiro modelar o que está ocorrendo no nível individual, depois modelar como os níveis individuais e grupais estão relacionados e, finalmente, examinar se algo que está ocorrendo no nível grupal contribui para a compreensão da relação. Por exemplo, ao avaliar o impacto das políticas estatais, é útil saber que os impactos das políticas variam menos entre os estados do que entre as próprias políticas, sugerindo que as diferenças entre políticas não são bem traduzidas em resultados, apesar das altas correlações ecológicas (Rose, 1973).

  • Deixe uma resposta

    O seu endereço de email não será publicado.