Considérez l’ensemble de données suivant .
4 ; 5 ; 6 ; 6 ; 7 ; 7 ; 7 ; 7 ; 7 ; 7 ; 8 ; 8 ; 8 ; 9 ; 10
Cet ensemble de données peut être représenté par l’histogramme suivant. Chaque intervalle a une largeur de un, et chaque valeur est située au milieu d’un intervalle.
L’histogramme affiche une distribution symétrique des données. Une distribution est symétrique si une ligne verticale peut être tracée à un certain point de l’histogramme de sorte que la forme à gauche et à droite de la ligne verticale sont des images miroir l’une de l’autre. La moyenne, la médiane et le mode sont chacun sept pour ces données. Dans une distribution parfaitement symétrique, la moyenne et la médiane sont identiques. Cet exemple a un seul mode (unimodal), et le mode est le même que la moyenne et la médiane. Dans une distribution symétrique qui a deux modes (bimodale), les deux modes seraient différents de la moyenne et de la médiane.
L’histogramme pour les données : 4566677778 n’est pas symétrique. La partie droite semble « coupée » par rapport à la partie gauche. Une distribution de ce type est dite asymétrique à gauche car elle est tirée vers la gauche. Nous pouvons mesurer formellement l’asymétrie d’une distribution tout comme nous pouvons mesurer mathématiquement le poids central des données ou leur « spéciosité » générale. La formule mathématique de l’asymétrie est la suivante : . Plus l’écart par rapport à zéro est grand, plus l’asymétrie est importante. Si l’asymétrie est négative, la distribution est inclinée vers la gauche, comme dans la (Figure). Une mesure positive de l’asymétrie indique une asymétrie à droite comme dans (Figure).
La moyenne est de 6,3, la médiane est de 6,5 et le mode est de sept. Remarquez que la moyenne est inférieure à la médiane, et qu’elles sont toutes deux inférieures au mode. La moyenne et la médiane reflètent toutes deux l’asymétrie, mais la moyenne la reflète davantage.
L’histogramme pour les données : 67777888910, n’est pas non plus symétrique. Il est incliné vers la droite.
La moyenne est de 7,7, la médiane est de 7,5 et le mode est de sept. Des trois statistiques, la moyenne est la plus grande, tandis que le mode est le plus petit. Encore une fois, la moyenne reflète le plus l’asymétrie.
En résumé, généralement, si la distribution des données est asymétrique vers la gauche, la moyenne est inférieure à la médiane, qui est souvent inférieure au mode. Si la distribution des données est asymétrique vers la droite, le mode est souvent inférieur à la médiane, qui est inférieure à la moyenne.
Comme pour la moyenne, la médiane et le mode, et comme nous le verrons prochainement, la variance, il existe des formules mathématiques qui nous donnent des mesures précises de ces caractéristiques de la distribution des données. En regardant à nouveau la formule de l’asymétrie, nous voyons que c’est une relation entre la moyenne des données et les observations individuelles cubées.
où est l’écart type de l’échantillon des données, , et est la moyenne arithmétique et est la taille de l’échantillon.
Formellement, la moyenne arithmétique est connue comme le premier moment de la distribution. Le deuxième moment que nous allons voir est la variance, et l’asymétrie est le troisième moment. La variance mesure les différences au carré des données par rapport à la moyenne et l’asymétrie mesure les différences au cube des données par rapport à la moyenne. Alors que la variance ne peut jamais être un nombre négatif, la mesure de l’asymétrie peut l’être et c’est ainsi que nous déterminons si les données sont asymétriques à droite ou à gauche. L’asymétrie d’une distribution normale est de zéro, et toute donnée symétrique devrait avoir une asymétrie proche de zéro. Les valeurs négatives de l’asymétrie indiquent que les données sont inclinées vers la gauche et les valeurs positives de l’asymétrie indiquent que les données sont inclinées vers la droite. Par asymétrie à gauche, on entend que la queue de gauche est longue par rapport à la queue de droite. De même, l’asymétrie à droite signifie que la queue de droite est longue par rapport à la queue de gauche. L’asymétrie caractérise le degré d’asymétrie d’une distribution autour de sa moyenne. Alors que la moyenne et l’écart-type sont des quantités dimensionnelles (c’est pourquoi nous prendrons la racine carrée de la variance ) c’est-à-dire qu’elles ont les mêmes unités que les quantités mesurées , l’asymétrie est conventionnellement définie de manière à la rendre non dimensionnelle. C’est un nombre pur qui caractérise uniquement la forme de la distribution. Une valeur positive de l’asymétrie signifie une distribution dont la queue asymétrique s’étend vers un X plus positif et une valeur négative signifie une distribution dont la queue s’étend vers un X plus négatif. Une mesure nulle de l’asymétrie indiquera une distribution symétrique.
L’asymétrie et la symétrie deviennent importantes lorsque nous abordons les distributions de probabilité dans les chapitres suivants.
Revue de chapitre
L’examen de la distribution des données peut révéler beaucoup de choses sur la relation entre la moyenne, la médiane et le mode. Il existe trois types de distributions. Une distribution asymétrique à droite (ou positive) a une forme comme (Figure). Une distribution asymétrique à gauche (ou négative) a une forme semblable à (Figure). Une distribution symétrique ressemble à (Figure).
Revue des formules
Formule de l’asymétrie :
Formule du coefficient de variation:
Utilisez les informations suivantes pour répondre aux trois prochains exercices : Indiquez si les données sont symétriques, asymétriques à gauche ou asymétriques à droite.
Les données sont symétriques. La médiane est 3 et la moyenne est 2,85. Ils sont proches, et le mode se trouve près du milieu des données, donc les données sont symétriques.
Les données sont asymétriques à droite. La médiane est de 87,5 et la moyenne de 88,2. Même s’ils sont proches, le mode se trouve à gauche du milieu des données, et il y a beaucoup plus d’occurrences de 87 que de tout autre nombre, donc les données sont asymétriques à droite.
Lorsque les données sont asymétriques à gauche, quelle est la relation typique entre la moyenne et la médiane ?
Lorsque les données sont symétriques, quelle est la relation typique entre la moyenne et la médiane ?
Lorsque les données sont symétriques, la moyenne et la médiane sont proches ou identiques.
Quel mot décrit une distribution qui a deux modes ?
Décrivez la forme de cette distribution.
La distribution est asymétrique à droite car elle semble tirée vers la droite.
Décrivez la relation entre le mode et la médiane de cette distribution.
Décrivez la relation entre la moyenne et la médiane de cette distribution.
La moyenne est de 4,1 et est légèrement supérieure à la médiane, qui est de quatre.
Décrivez la forme de cette distribution.
Décrivez la relation entre le mode et la médiane de cette distribution.
Le mode et la médiane sont identiques. Dans ce cas, ils sont tous les deux cinq.
La moyenne et la médiane sont-elles exactement les mêmes dans cette distribution ? Pourquoi ou pourquoi pas ?
Décrivez la forme de cette distribution.
La distribution est asymétrique à gauche car elle semble tirée vers la gauche.
Décrivez la relation entre le mode et la médiane de cette distribution.
Décrivez la relation entre la moyenne et la médiane de cette distribution.
La moyenne et la médiane sont toutes deux six.
La moyenne et la médiane des données sont les mêmes.
Les données sont-elles parfaitement symétriques ? Pourquoi ou pourquoi pas ?
Quel est le plus grand, la moyenne, le mode ou la médiane de l’ensemble des données ?
Le mode est 12, la médiane est 12,5 et la moyenne est 15,1. La moyenne est la plus grande.
Qu’est-ce qui est le moins, la moyenne, le mode, et la médiane de l’ensemble de données?
De ces trois mesures, laquelle tend à refléter le plus l’asymétrie, la moyenne, le mode, ou la médiane ? Pourquoi ?
La moyenne a tendance à refléter le plus l’asymétrie parce qu’elle est la plus affectée par les valeurs aberrantes.
Dans une distribution parfaitement symétrique, quand le mode serait-il différent de la moyenne et de la médiane ?
Doctorat
L’âge médian de la population américaine en 1980 était de 30,0 ans. En 1991, l’âge médian était de 33,1 ans.
- Que signifie l’augmentation de l’âge médian ?
- Donnez deux raisons pour lesquelles l’âge médian pourrait augmenter.
- Pour que l’âge médian augmente, le nombre réel d’enfants est-il inférieur en 1991 à ce qu’il était en 1980 ? Pourquoi ou pourquoi pas ?
.