Overvej følgende datasæt.
4; 5; 6; 6; 6; 6; 6; 7; 7; 7; 7; 7; 7; 7; 7; 7; 7; 8; 8; 8; 8; 9; 10

Dette datasæt kan repræsenteres ved følgende histogram. Hvert interval har en bredde på én, og hver værdi er placeret i midten af et interval.

Histogrammet viser en symmetrisk fordeling af data. En fordeling er symmetrisk, hvis der kan trækkes en lodret linje et sted i histogrammet, således at formen til venstre og til højre for den lodrette linje er spejlbilleder af hinanden. Middelværdien, medianen og modus er hver syv for disse data. I en perfekt symmetrisk fordeling er middelværdien og medianen den samme. Dette eksempel har én modus (unimodal), og modus er den samme som middelværdien og medianen. I en symmetrisk fordeling, der har to modes (bimodal), ville de to modes være forskellige fra middelværdien og medianen.

Histogrammet for dataene: 4566677778 er ikke symmetrisk. Højre side virker “hakket af” i forhold til venstre side. En fordeling af denne type kaldes skævt til venstre, fordi den er trukket ud til venstre. Vi kan formelt måle skævheden af en fordeling på samme måde som vi matematisk kan måle dataenes centervægt eller deres generelle “speadness”. Den matematiske formel for skævhed er: . Jo større afvigelsen fra nul er, desto større er skævheden. Hvis skævheden er negativ, er fordelingen skæv til venstre som i (figur). Et positivt mål for skævhed angiver skævhed til højre som i (figur).

Middelværdien er 6,3, medianen er 6,5, og modus er syv. Bemærk, at middelværdien er mindre end medianen, og at de begge er mindre end modus. Middelværdien og medianen afspejler begge skævheden, men middelværdien afspejler den i højere grad.

Histogrammet for dataene: 67777888910, er heller ikke symmetrisk. Det er skævt til højre.

Middelværdien er 7,7, medianen er 7,5, og modus er syv. Af de tre statistikker er middelværdien den største, mens modus er den mindste. Igen afspejler gennemsnittet skævheden mest.

Som opsummering kan man sige, at hvis fordelingen af data generelt er skæv til venstre, er gennemsnittet mindre end medianen, som ofte er mindre end modus. Hvis fordelingen af data er skæv til højre, er modus ofte mindre end medianen, som er mindre end middelværdien.

Som med middelværdien, medianen og modus, og som vi vil se om lidt, variansen, findes der matematiske formler, der giver os præcise mål for disse karakteristika ved fordelingen af dataene. Hvis vi igen ser på formlen for skævhed, kan vi se, at dette er et forhold mellem dataenes gennemsnit og de enkelte observationer sat i tern.

hvor er stikprøvens standardafvigelse for dataene, , og er det aritmetiske gennemsnit og er stikprøvens størrelse.

Formelt set er det aritmetiske gennemsnit kendt som det første moment i fordelingen. Det andet moment, som vi vil se, er variansen, og skævhed er det tredje moment. Variansen måler dataenes kvadrerede forskelle fra middelværdien, og skewness måler dataenes kubiske forskelle fra middelværdien. Mens variansen aldrig kan være et negativt tal, kan skævhedsmålet være det, og det er på denne måde, vi afgør, om dataene er skæve til højre eller venstre. Skævheden for en normalfordeling er nul, og alle symmetriske data bør have en skævhed tæt på nul. Negative værdier for skævhed indikerer data, der er skæve til venstre, og positive værdier for skævhed indikerer data, der er skæve til højre. Med skævt til venstre menes, at den venstre hale er lang i forhold til den højre hale. Tilsvarende betyder skævt til højre, at den højre hale er lang i forhold til den venstre hale. Skævheden karakteriserer graden af asymmetri i en fordeling omkring dens gennemsnit. Mens middelværdien og standardafvigelsen er dimensionelle størrelser (det er derfor, vi tager kvadratroden af variansen ), dvs. har samme enheder som de målte størrelser , er skævheden konventionelt defineret på en sådan måde, at den er ikke-dimensionel. Det er et rent tal, der kun karakteriserer fordelingens form. En positiv værdi af skewness betyder en fordeling med en asymmetrisk hale, der strækker sig ud mod mere positive X, og en negativ værdi betyder en fordeling, hvis hale strækker sig ud mod mere negative X. Et mål på nul for skewness vil indikere en symmetrisk fordeling.

Skewness og symmetri bliver vigtige, når vi diskuterer sandsynlighedsfordelinger i senere kapitler.

Kapitelgennemgang

Hvis vi ser på fordelingen af data, kan det afsløre en masse om forholdet mellem middelværdi, median og modus. Der findes tre typer af fordelinger. En højre (eller positiv) skæv fordeling har en form som (figur). En venstre (eller negativ) skæv fordeling har en form som (figur). En symmetrisk fordeling ser ud som (Figur).

Formelgennemgang

Formel for skævhed:
Formel for variationskoefficient:

Brug følgende oplysninger til at besvare de næste tre opgaver: Angiv, om dataene er symmetriske, skæve til venstre eller skæve til højre.

Dataene er symmetriske. Medianen er 3, og gennemsnittet er 2,85. De ligger tæt på hinanden, og modus ligger tæt på midten af dataene, så dataene er symmetriske.

Dataene er skæve til højre. Medianen er 87,5, og gennemsnittet er 88,2. Selv om de ligger tæt på hinanden, ligger modus til venstre for midten af dataene, og der er mange flere forekomster af 87 end andre tal, så dataene er skæve til højre.

Når dataene er skæve til venstre, hvad er så det typiske forhold mellem middelværdi og median?

Når dataene er symmetriske, hvad er så det typiske forhold mellem middelværdi og median?

Når dataene er symmetriske, ligger middelværdi og median tæt på hinanden eller er ens.

Hvilket ord beskriver en fordeling, der har to modi?

Beskriv formen på denne fordeling.

Fordelingen er skævt til højre, fordi den ser ud til at være trukket ud til højre.

Beskriv forholdet mellem modus og median i denne fordeling.

Beskriv forholdet mellem middelværdien og medianen i denne fordeling.

Middelværdien er 4,1 og er lidt større end medianen, som er fire.

Beskriv formen af denne fordeling.

Beskriv forholdet mellem modus og median i denne fordeling.

Modus og median er den samme. I dette tilfælde er de begge fem.

Er middelværdien og medianen nøjagtig den samme i denne fordeling? Hvorfor eller hvorfor ikke?

Beskriv formen på denne fordeling.

Fordelingen er skæv til venstre, fordi den ser ud til at være trukket ud til venstre.

Beskriv forholdet mellem modus og median i denne fordeling.

Beskriv forholdet mellem middelværdien og medianen i denne fordeling.

Middelværdien og medianen er begge seks.

Middelværdien og medianen for dataene er den samme.

Er dataene fuldstændig symmetriske? Hvorfor eller hvorfor ikke?

Hvilken er størst, middelværdien, modus eller medianen for datasættet?

Modus er 12, medianen er 12,5, og middelværdien er 15,1. Middelværdien er den største.

Hvilket er mindst, middelværdien, modus og medianen for datasættet?

Hvilket af de tre mål har tendens til at afspejle skævhed mest, middelværdien, modus eller medianen? Hvorfor?

Middelværdien har tendens til at afspejle skævhed mest, fordi den påvirkes mest af outliers.

I en perfekt symmetrisk fordeling, hvornår ville modus være forskellig fra middelværdien og medianen?

Hjemmearbejde

Medianalderen i den amerikanske befolkning var i 1980 30,0 år. I 1991 var medianalderen 33,1 år.

  1. Hvad betyder det, at medianalderen stiger?
  2. Giv to grunde til, at medianalderen kan stige.
  3. For at medianalderen stiger, er det faktiske antal børn mindre i 1991 end i 1980? Hvorfor eller hvorfor ikke?

Skriv et svar

Din e-mailadresse vil ikke blive publiceret.