Betrachten Sie den folgenden Datensatz.
4; 5; 6; 6; 6; 7; 7; 7; 7; 7; 7; 8; 8; 8; 9; 10

Dieser Datensatz kann durch das folgende Histogramm dargestellt werden. Jedes Intervall hat die Breite eins, und jeder Wert befindet sich in der Mitte eines Intervalls.

Das Histogramm zeigt eine symmetrische Verteilung der Daten. Eine Verteilung ist symmetrisch, wenn an einem Punkt des Histogramms eine vertikale Linie gezogen werden kann, so dass die Form links und rechts der vertikalen Linie spiegelbildlich zueinander ist. Der Mittelwert, der Median und der Modus sind jeweils sieben für diese Daten. Bei einer perfekt symmetrischen Verteilung sind der Mittelwert und der Median identisch. In diesem Beispiel gibt es nur einen Modus (unimodal), und der Modus ist derselbe wie der Mittelwert und der Median. Bei einer symmetrischen Verteilung mit zwei Modi (bimodal) würden sich die beiden Modi von Mittelwert und Median unterscheiden.

Das Histogramm für die Daten: 4566677778 ist nicht symmetrisch. Die rechte Seite scheint im Vergleich zur linken Seite „abgehackt“ zu sein. Eine solche Verteilung wird als schief nach links bezeichnet, weil sie nach links gezogen ist. Wir können die Schiefe einer Verteilung formell messen, genauso wie wir das Mittelgewicht der Daten oder ihre allgemeine „Speadness“ mathematisch messen können. Die mathematische Formel für die Schiefe lautet: . Je größer die Abweichung von Null ist, desto größer ist der Grad der Schiefe. Ist die Schiefe negativ, so ist die Verteilung linksschief (siehe Abbildung). Ein positives Maß für die Schiefe zeigt eine rechte Schiefe an, wie in (Abbildung).

Der Mittelwert ist 6,3, der Median ist 6,5 und der Modus ist sieben. Beachten Sie, dass der Mittelwert kleiner ist als der Median und beide kleiner sind als der Modus. Sowohl der Mittelwert als auch der Median spiegeln die Schieflage wider, aber der Mittelwert spiegelt sie stärker wider.

Das Histogramm für die Daten: 67777888910, ist ebenfalls nicht symmetrisch. Es ist nach rechts geneigt.

Der Mittelwert ist 7,7, der Median ist 7,5 und der Modus ist sieben. Von den drei Statistiken ist der Mittelwert der größte, während der Modus der kleinste ist. Auch hier spiegelt der Mittelwert die Schieflage am stärksten wider.

Zusammenfassend lässt sich sagen, dass bei einer linksschiefen Verteilung der Daten der Mittelwert im Allgemeinen kleiner ist als der Median, der wiederum oft kleiner ist als der Modus. Wenn die Verteilung der Daten nach rechts schief ist, ist der Modus oft kleiner als der Median, der wiederum kleiner als der Mittelwert ist.

Wie für den Mittelwert, den Median und den Modus und, wie wir gleich sehen werden, die Varianz, gibt es mathematische Formeln, die uns genaue Maße für diese Merkmale der Datenverteilung liefern. Wenn wir uns die Formel für die Schiefe noch einmal ansehen, sehen wir, dass es sich um eine Beziehung zwischen dem Mittelwert der Daten und den einzelnen Beobachtungen kubiert handelt.

wobei die Stichproben-Standardabweichung der Daten, und das arithmetische Mittel und der Stichprobenumfang ist.

Formell ist das arithmetische Mittel als das erste Moment der Verteilung bekannt. Das zweite Moment, das wir sehen werden, ist die Varianz, und die Schiefe ist das dritte Moment. Die Varianz misst die quadrierten Abweichungen der Daten vom Mittelwert und die Schiefe misst die kubierten Abweichungen der Daten vom Mittelwert. Während die Varianz niemals eine negative Zahl sein kann, kann die Schiefe eine negative Zahl sein, und auf diese Weise lässt sich feststellen, ob die Daten rechts- oder linksschief sind. Bei einer Normalverteilung ist die Schiefe gleich Null, und alle symmetrischen Daten sollten eine Schiefe nahe Null aufweisen. Negative Werte für die Schiefe zeigen an, dass die Daten linksschief sind, und positive Werte für die Schiefe zeigen an, dass die Daten rechtsschief sind. Mit linksschief ist gemeint, dass der linke Schwanz im Verhältnis zum rechten Schwanz lang ist. Entsprechend bedeutet schief rechts, dass der rechte Schwanz im Verhältnis zum linken lang ist. Die Schiefe charakterisiert den Grad der Asymmetrie einer Verteilung um ihren Mittelwert. Während der Mittelwert und die Standardabweichung dimensionale Größen sind (deshalb nehmen wir die Quadratwurzel aus der Varianz), d. h. dieselben Einheiten haben wie die gemessenen Größen , wird die Schiefe üblicherweise so definiert, dass sie dimensionslos ist. Sie ist eine reine Zahl, die nur die Form der Verteilung charakterisiert. Ein positiver Wert der Schiefe bedeutet eine Verteilung mit einem asymmetrischen Schwanz, der sich zu einem positiveren X hin ausdehnt, und ein negativer Wert bedeutet eine Verteilung, deren Schwanz sich zu einem negativeren X hin ausdehnt. Ein Maß von Null für die Schiefe zeigt eine symmetrische Verteilung an.

Schiefe und Symmetrie werden wichtig, wenn wir in späteren Kapiteln Wahrscheinlichkeitsverteilungen diskutieren.

Kapitelüberprüfung

Die Betrachtung der Verteilung von Daten kann viel über die Beziehung zwischen dem Mittelwert, dem Median und dem Modus verraten. Es gibt drei Arten von Verteilungen. Eine rechtsschiefe (oder positive) Verteilung hat eine Form wie (Abbildung). Eine linksschiefe (oder negative) Verteilung hat eine Form wie (Abbildung). Eine symmetrische Verteilung sieht aus wie (Abbildung).

Formelübersicht

Formel für Schiefe:
Formel für den Variationskoeffizienten:

Nutzen Sie die folgenden Informationen, um die nächsten drei Aufgaben zu beantworten: Geben Sie an, ob die Daten symmetrisch, linksschief oder rechtsschief sind.

Die Daten sind symmetrisch. Der Median ist 3 und der Mittelwert ist 2,85. Sie liegen nahe beieinander, und der Modus liegt nahe an der Mitte der Daten, also sind die Daten symmetrisch.

Die Daten sind rechtsschief. Der Median liegt bei 87,5 und der Mittelwert bei 88,2. Obwohl sie nahe beieinander liegen, liegt der Modus links von der Mitte der Daten, und es gibt viel mehr Fälle von 87 als jede andere Zahl, so dass die Daten rechtsschief sind.

Wenn die Daten linksschief sind, was ist die typische Beziehung zwischen dem Mittelwert und dem Median?

Wenn die Daten symmetrisch sind, wie ist das typische Verhältnis zwischen dem Mittelwert und dem Median?

Wenn die Daten symmetrisch sind, liegen der Mittelwert und der Median nahe beieinander oder sind gleich.

Welches Wort beschreibt eine Verteilung, die zwei Modi hat?

Beschreiben Sie die Form dieser Verteilung.

Die Verteilung ist rechtsschief, weil sie nach rechts ausgezogen ist.

Beschreibe die Beziehung zwischen dem Modus und dem Median dieser Verteilung.

Beschreibe die Beziehung zwischen dem Mittelwert und dem Median dieser Verteilung.

Der Mittelwert ist 4,1 und ist etwas größer als der Median, der vier beträgt.

Beschreibe die Form dieser Verteilung.

Beschreibe die Beziehung zwischen dem Modus und dem Median dieser Verteilung.

Der Modus und der Median sind identisch. In diesem Fall sind sie beide fünf.

Sind der Mittelwert und der Median in dieser Verteilung genau gleich? Warum oder warum nicht?

Beschreibe die Form dieser Verteilung.

Die Verteilung ist linksschief, weil sie nach links ausgezogen ist.

Beschreiben Sie die Beziehung zwischen dem Modus und dem Median dieser Verteilung.

Beschreiben Sie die Beziehung zwischen dem Mittelwert und dem Median dieser Verteilung.

Der Mittelwert und der Median sind beide sechs.

Der Mittelwert und der Median der Daten sind gleich.

Ist die Verteilung vollkommen symmetrisch? Warum oder warum nicht?

Welches ist der größte Wert, der Mittelwert, der Modus oder der Median des Datensatzes?

Der Modus ist 12, der Median ist 12,5, und der Mittelwert ist 15,1. Der Mittelwert ist der größte.

Welches ist das kleinste, der Mittelwert, der Modus und der Median des Datensatzes?

Welches der drei Maße spiegelt die Schiefe am meisten wider, der Mittelwert, der Modus oder der Median? Warum?

Der Mittelwert spiegelt die Verzerrung am stärksten wider, weil er am meisten von Ausreißern beeinflusst wird.

Wann würde sich in einer vollkommen symmetrischen Verteilung der Modus vom Mittelwert und Median unterscheiden?

Hausaufgaben

Das Medianalter der US-Bevölkerung betrug 1980 30,0 Jahre. Im Jahr 1991 lag das Medianalter bei 33,1 Jahren.

  1. Was bedeutet es, dass das Medianalter steigt?
  2. Nennen Sie zwei Gründe, warum das Medianalter steigen könnte.
  3. Wenn das Medianalter steigt, ist dann die tatsächliche Anzahl der Kinder 1991 geringer als 1980? Warum oder warum nicht?

Schreibe einen Kommentar

Deine E-Mail-Adresse wird nicht veröffentlicht.