Považujte následující soubor dat.
4; 5; 6; 6; 6; 7; 7; 7; 7; 7; 7; 7; 8; 8; 8; 9; 10
Tento soubor dat lze znázornit následujícím histogramem. Každý interval má šířku jedna a každá hodnota se nachází uprostřed intervalu.
Histogram zobrazuje symetrické rozložení dat. Rozdělení je symetrické, pokud lze v některém bodě histogramu nakreslit svislou čáru tak, že tvar nalevo a napravo od svislé čáry jsou navzájem zrcadlovými obrazy. Střední hodnota, medián a modus jsou pro tato data každý sedm. V dokonale symetrickém rozdělení jsou střední hodnota a medián stejné. Tento příklad má jeden modus (unimodální) a modus je stejný jako průměr a medián. V symetrickém rozdělení, které má dva mody (bimodální), by se oba mody lišily od průměru a mediánu.
Histogram pro tato data: 4566677778 není symetrický. Pravá strana se zdá být „useknutá“ ve srovnání s levou stranou. Rozdělení tohoto typu se nazývá zkosené doleva, protože je vytažené doleva. Šikmost rozdělení můžeme formálně měřit stejně jako můžeme matematicky měřit střední váhu dat nebo jejich obecnou „speadness“. Matematický vzorec pro šikmost je následující: . Čím větší je odchylka od nuly, tím větší je stupeň šikmosti. Pokud je šikmost záporná, pak je rozdělení zkosené doleva jako na (obrázku). Kladná míra šikmosti značí pravé zkosení, jako například (obrázek).
Průměr je 6,3, medián je 6,5 a modus je sedm. Všimněte si, že průměr je menší než medián a oba jsou menší než modus. Průměr i medián odrážejí zkreslení, ale průměr ho odráží více.
Histogram pro data: 67777888910, také není symetrický. Je zkosený doprava.
Průměr je 7,7, medián je 7,5 a modus je sedm. Z těchto tří statistik je průměr největší, zatímco modus je nejmenší. Opět platí, že průměr nejvíce odráží zkreslení.
Shrneme-li to, obecně platí, že pokud je rozdělení dat zkreslené doleva, je průměr menší než medián, který je často menší než modus. Je-li rozdělení dat zkosené doprava, je modus často menší než medián, který je menší než průměr.
Stejně jako u průměru, mediánu a modu, a jak brzy uvidíme, i u rozptylu, existují matematické vzorce, které nám poskytují přesné míry těchto vlastností rozdělení dat. Při opětovném pohledu na vzorec pro šikmost vidíme, že se jedná o vztah mezi průměrem dat a jednotlivými pozorováními vynásobenými kubickou hodnotou.
kde je výběrová směrodatná odchylka dat, , je aritmetický průměr a je velikost vzorku.
Formálně je aritmetický průměr znám jako první moment rozdělení. Druhým momentem, který uvidíme, je rozptyl a třetím momentem je šikmost. Rozptyl měří kvadratické rozdíly dat od průměru a šikmost měří kubické rozdíly dat od průměru. Zatímco rozptyl nemůže být nikdy záporné číslo, míra šikmosti může a právě podle ní určíme, zda jsou data zkreslená doprava nebo doleva. Pro normální rozdělení je šikmost rovna nule a jakákoli symetrická data by měla mít šikmost blízkou nule. Záporné hodnoty šikmosti označují data, která jsou vychýlená doleva, a kladné hodnoty šikmosti označují data, která jsou vychýlená doprava. Šikmostí vlevo se rozumí, že levý chvost je delší než pravý chvost. Podobně zkosená doprava znamená, že pravý chvost je dlouhý vzhledem k levému chvostu. Šikmost charakterizuje stupeň asymetrie rozdělení kolem jeho průměru. Zatímco průměr a směrodatná odchylka jsou rozměrové veličiny (proto budeme brát druhou odmocninu z rozptylu ), tj. mají stejné jednotky jako měřené veličiny , šikmost je konvenčně definována tak, aby byla nerozměrová. Je to čisté číslo, které charakterizuje pouze tvar rozdělení. Kladná hodnota šikmosti značí rozdělení s asymetrickým chvostem, který se rozšiřuje směrem ke kladnějšímu X, a záporná hodnota značí rozdělení, jehož chvost se rozšiřuje směrem k zápornějšímu X. Nulová míra šikmosti bude znamenat symetrické rozdělení.
Šikmost a symetrie se stanou důležitými, až budeme v dalších kapitolách probírat rozdělení pravděpodobnosti.
Přehled kapitol
Pohledem na rozdělení dat lze zjistit mnoho o vztahu mezi průměrem, mediánem a modem. Existují tři typy rozdělení. Pravoúhlé (neboli kladně zkosené) rozdělení má tvar jako (obrázek). Levě (neboli záporně) zkosené rozdělení má tvar jako (obrázek). Symetrické rozdělení vypadá jako (Obrázek).
Přehled vzorců
Vzorec pro šikmost:
Formula pro variační koeficient:
Při řešení následujících tří úloh využijte následující informace:
Údaje jsou symetrické, zkreslené doleva nebo zkreslené doprava. Medián je 3 a průměr je 2,85. Jsou si blízké a modus leží blízko středu dat, takže data jsou symetrická.
Data jsou zkosená doprava. Medián je 87,5 a průměr je 88,2. Přestože jsou si blízké, modus leží vlevo od středu dat a případů čísla 87 je mnohem více než jiných čísel, takže data jsou zkosená doprava.
Když jsou data zkosená doleva, jaký je typický vztah mezi průměrem a mediánem?
Když jsou data symetrická, jaký je typický vztah mezi průměrem a mediánem.
Když jsou data symetrická, jsou průměr a medián blízké nebo stejné.
Jaké slovo popisuje rozdělení, které má dva mody
Popsat tvar tohoto rozdělení.
Rozdělení je zkosené doprava, protože vypadá jako vytažené doprava.
Popsat vztah mezi modem a mediánem tohoto rozdělení.
Popsat vztah mezi střední hodnotou a mediánem tohoto rozdělení.
Střední hodnota je 4,1 a je o něco větší než medián, který je 4.
Popsat tvar tohoto rozdělení.
Popsat vztah mezi modem a mediánem tohoto rozdělení.
Modus a medián jsou stejné. V tomto případě je jich obou pět.
Jsou průměr a medián v tomto rozdělení přesně stejné? Proč nebo proč ne?
Popsat tvar tohoto rozdělení.
Rozdělení je zkosené doleva, protože vypadá jako vytažené doleva.
Popsat vztah mezi modem a mediánem tohoto rozdělení.
Popsat vztah mezi střední hodnotou a mediánem tohoto rozdělení.
Střední hodnota i medián jsou šest.
Střední hodnota i medián pro tato data jsou stejné.
Jsou data dokonale symetrická? Proč, nebo proč ne?
Která hodnota je největší, průměr, modus, nebo medián souboru dat?
Modus je 12, medián je 12,5 a průměr je 15,1.
Jaká hodnota je největší? Průměr je největší.
Která z těchto tří měr, průměr, modus a medián souboru dat, je nejmenší?
Která z těchto tří měr má největší tendenci odrážet zkreslení, průměr, modus, nebo medián? Proč?
Střední hodnota má tendenci nejvíce odrážet zkreslení, protože je nejvíce ovlivněna odlehlými hodnotami.
Kdy by se v dokonale symetrickém rozdělení modus lišil od průměru a mediánu?
Domácí úkol
Medián věku obyvatel USA v roce 1980 byl 30,0 let. V roce 1991 byl medián věku 33,1 roku.
- Co to znamená, že se medián věku zvyšuje?
- Uveďte dva důvody, proč by se medián věku mohl zvyšovat.
- Pokud se medián věku zvyšuje, je skutečný počet dětí v roce 1991 nižší než v roce 1980? Proč, nebo proč ne?“