Considerar o seguinte conjunto de dados.
4; 5; 6; 6; 6; 7; 7; 7; 7; 7; 7; 7; 7; 8; 8; 8; 9; 10

Este conjunto de dados pode ser representado pelo seguinte histograma. Cada intervalo tem largura um, e cada valor está localizado no meio de um intervalo.

O histograma exibe uma distribuição simétrica dos dados. Uma distribuição é simétrica se uma linha vertical puder ser desenhada em algum ponto do histograma de tal forma que a forma à esquerda e à direita da linha vertical sejam imagens espelhadas uma da outra. A média, a mediana e o modo são cada sete para estes dados. Em uma distribuição perfeitamente simétrica, a média e a mediana são a mesma coisa. Este exemplo tem uma modalidade (unimodal), e a modalidade é a mesma que a média e a mediana. Em uma distribuição simétrica que tem dois modos (bimodal), os dois modos seriam diferentes da média e da mediana.

O histograma para os dados: 4566677778 não é simétrico. O lado direito parece “cortado” em comparação com o lado esquerdo. Uma distribuição deste tipo é chamada de inclinada para a esquerda porque é puxada para a esquerda. Podemos medir formalmente o enviesamento de uma distribuição tal como podemos medir matematicamente o peso central dos dados ou a sua “espeadidade” geral. A fórmula matemática para o enviesado é: . Quanto maior o desvio de zero indica um maior grau de enviesamento. Se o enviesamento for negativo, então a distribuição é enviesada para a esquerda como em (Figura). Uma medida positiva de enviesamento indica enviesamento para a direita, como em (Figura).

A média é 6,3, a mediana é 6,5, e o modo é sete. Note que a média é menor que a mediana, e ambas são menores que o modo. A média e a mediana refletem ambas a inclinação, mas a média reflete mais assim.

O histograma para os dados: 67777888910, também não é simétrico. É enviesado para a direita.

A média é 7,7, a mediana é 7,5, e o modo é sete. Das três estatísticas, a média é a maior, enquanto a modalidade é a menor. Novamente, a média reflete a inclinação máxima.

Para resumir, geralmente se a distribuição dos dados é inclinada para a esquerda, a média é menor do que a mediana, que muitas vezes é menor do que a moda. Se a distribuição dos dados for enviesada para a direita, a moda é frequentemente menor que a mediana, que é menor que a média.

Como veremos em breve, a variância, existem fórmulas matemáticas que nos dão medidas precisas destas características da distribuição dos dados. Olhando novamente para a fórmula de skewness vemos que esta é uma relação entre a média dos dados e as observações individuais em cubo.

onde é o desvio padrão da amostra dos dados, , e é a média aritmética e é o tamanho da amostra.

Formalmente a média aritmética é conhecida como o primeiro momento da distribuição. O segundo momento que veremos é a variância, e a obliquidade é o terceiro momento. A variância mede as diferenças quadráticas dos dados a partir da média e a assimetria mede as diferenças em cubos dos dados a partir da média. Enquanto uma variância nunca pode ser um número negativo, a medida da assimetria pode e é assim que determinamos se os dados são inclinados da direita para a esquerda. O enviesamento para uma distribuição normal é zero, e qualquer dado simétrico deve ter um enviesamento próximo de zero. Valores negativos para o enviesado indicam dados que são enviesados para a esquerda e valores positivos para o enviesado indicam dados que são enviesados para a direita. Por enviesado para a esquerda, queremos dizer que a cauda esquerda é longa em relação à cauda direita. Da mesma forma, a direita enviesada significa que a cauda direita é longa em relação à cauda esquerda. O enviesado caracteriza o grau de assimetria de uma distribuição em torno da sua média. Enquanto a média e o desvio padrão são quantidades dimensionais (é por isso que vamos tomar a raiz quadrada da variância ) ou seja, ter as mesmas unidades que as quantidades medidas , a assimetria é convencionalmente definida de tal forma a torná-la não dimensional. É um número puro que caracteriza apenas a forma da distribuição. Um valor positivo de obliquidade significa uma distribuição com uma cauda assimétrica estendendo-se para mais X positivo e um valor negativo significa uma distribuição cuja cauda se estende para mais X negativo. Uma medida zero de obliquidade indicará uma distribuição simétrica.

A obliquidade e simetria tornam-se importantes quando discutimos distribuições de probabilidade em capítulos posteriores.

Capítulo Revisão

Olhar para a distribuição de dados pode revelar muito sobre a relação entre a média, a mediana e o modo. Existem três tipos de distribuições. Uma distribuição distorcida direita (ou positiva) tem uma forma como (Figura). Uma distribuição enviesada para a esquerda (ou negativa) tem uma forma semelhante à (Figura). Uma distribuição simétrica se parece com (Figura).

Formula Review

Formula para obliquidade:
Fórmula para coeficiente de variação:

Utilize a seguinte informação para responder aos próximos três exercícios: Indique se os dados são simétricos, inclinados para a esquerda, ou inclinados para a direita.

Os dados são simétricos. A mediana é 3 e a média é 2,85. Eles estão próximos, e o modo fica perto do meio dos dados, portanto os dados são simétricos.

Os dados são inclinados para a direita. A mediana é 87,5 e a média é 88,2. Mesmo que estejam próximos, o modo fica à esquerda do meio dos dados e há muito mais casos de 87 do que qualquer outro número, portanto os dados são enviesados para a direita.

Quando os dados são enviesados para a esquerda, qual é a relação típica entre a média e a mediana?

>

Quando os dados são simétricos, qual é a relação típica entre a média e a mediana?

Quando os dados são simétricos, a média e a mediana são próximas ou iguais.

Que palavra descreve uma distribuição que tem dois modos?

Descreve a forma desta distribuição.

A distribuição é inclinada para a direita porque parece puxada para a direita.

Descreve a relação entre o modo e a mediana desta distribuição.

Descrever a relação entre a média e a mediana desta distribuição.

A média é 4,1 e é ligeiramente superior à mediana, que é quatro.

Descrever a forma desta distribuição.

Descreve a relação entre o modo e a mediana desta distribuição.

O modo e a mediana são os mesmos. Neste caso, são ambos cinco.

A média e a mediana são exactamente as mesmas nesta distribuição? Porque ou porque não?

Descreve a forma desta distribuição.

A distribuição é inclinada para a esquerda porque parece puxada para a esquerda.

Descreve a relação entre o modo e a mediana desta distribuição.

Descrever a relação entre a média e a mediana desta distribuição.

A média e a mediana são ambas seis.

A média e a mediana dos dados são as mesmas.

Os dados são perfeitamente simétricos? Porque ou porque não?

Qual é o maior, a média, o modo ou a mediana do conjunto de dados?

O modo é 12, a mediana é 12,5, e a média é 15,1. A média é a maior.

Qual é a menor, a média, o modo e a mediana do conjunto de dados?

Das três medidas, que tendem a refletir a maior inclinação, a média, o modo, ou a mediana? Porquê?

A média tende a reflectir mais a inclinação porque é mais afectada por aberrações.

Em uma distribuição perfeitamente simétrica, quando é que o modo seria diferente da média e da mediana?

Trabalho de casa

A idade média da população dos EUA em 1980 era de 30,0 anos. Em 1991, a mediana da idade era de 33,1 anos.

  1. O que significa para a mediana da idade aumentar?
  2. Dê duas razões para a mediana da idade aumentar.
  3. Para a mediana da idade aumentar, o número real de crianças em 1991 é menor do que em 1980? Porque ou porque não?

Deixe uma resposta

O seu endereço de email não será publicado.