Vizsgáljuk meg a következő adathalmazt.
4; 5; 6; 6; 6; 6; 7; 7; 7; 7; 7; 7; 7; 7; 8; 8; 8; 8; 9; 10
Ezt az adathalmazt a következő hisztogrammal lehet ábrázolni. Minden intervallum szélessége egy, és minden érték az intervallum közepén helyezkedik el.
A hisztogram az adatok szimmetrikus eloszlását mutatja. Egy eloszlás akkor szimmetrikus, ha a hisztogram valamelyik pontján egy függőleges vonal húzható úgy, hogy a függőleges vonaltól balra és jobbra lévő alakzat egymás tükörképei legyenek. Az átlag, a medián és a módusz ezeknél az adatoknál egyenként hét. Tökéletesen szimmetrikus eloszlásban az átlag és a medián megegyezik. Ebben a példában egy módusz van (unimodális), és a módusz megegyezik az átlaggal és a mediánnal. Egy olyan szimmetrikus eloszlásban, amelynek két módusza van (bimodális), a két módus eltérne az átlagtól és a mediántól.
Az adatok hisztogramja: 456667777778 nem szimmetrikus. A jobb oldal “levágottnak” tűnik a bal oldalhoz képest. Az ilyen típusú eloszlást balra ferde eloszlásnak nevezzük, mert balra húzódik. Formálisan mérhetjük egy eloszlás ferdeségét, ahogyan matematikailag mérhetjük az adatok középponti súlyát vagy általános “speadness”-ét is. A ferdeség matematikai képlete a következő: . Minél nagyobb a nullától való eltérés, annál nagyobb fokú ferdeséget jelez. Ha a ferdeség negatív, akkor az eloszlás balra ferde, mint az (ábra). A ferdeség pozitív mértéke jobbra ferdeséget jelez, mint például (ábra).
Az átlag 6,3, a medián 6,5, a módusz pedig hét. Vegyük észre, hogy az átlag kisebb, mint a medián, és mindkettő kisebb, mint a módusz. Az átlag és a medián is tükrözi a ferdeséget, de az átlag jobban tükrözi azt.
Az adatok hisztogramja: 67777888910, szintén nem szimmetrikus. Jobbra ferde.
A középérték 7,7, a medián 7,5, a módusz pedig hét. A három statisztika közül az átlag a legnagyobb, míg a módusz a legkisebb. Ismét az átlag tükrözi leginkább a ferdeséget.
Összefoglalva, általában, ha az adatok eloszlása balra ferde, az átlag kisebb, mint a medián, amely gyakran kisebb, mint a módusz. Ha az adatok eloszlása jobbra ferde, a módusz gyakran kisebb, mint a medián, amely kisebb, mint az átlag.
Az átlag, a medián és a módusz, valamint – amint azt rövidesen látni fogjuk – a variancia esetében is léteznek olyan matematikai képletek, amelyek pontos mérőszámokat adnak az adatok eloszlásának ezen jellemzőire. Ha ismét megnézzük a ferdeség képletét, láthatjuk, hogy ez az adatok átlaga és az egyes megfigyelések kockára vetett értéke közötti kapcsolat.
ahol az adatok mintavételi szórása, , és a számtani átlag, pedig a minta mérete.
A számtani átlagot formálisan az eloszlás első momentumának nevezzük. A második momentum, amit látni fogunk, a variancia, a ferdeség pedig a harmadik momentum. A variancia az adatoknak az átlagtól való négyzetes eltéréseit, a ferdeség pedig az adatoknak az átlagtól való kockás eltéréseit méri. Míg a variancia soha nem lehet negatív szám, a ferdeség mértéke lehet, és így határozzuk meg, hogy az adatok jobbra vagy balra ferdék. Normális eloszlás esetén a ferdeség értéke nulla, és minden szimmetrikus adat ferdeségének nulla közelében kell lennie. A ferdeség negatív értékei balra ferde adatokat, a pozitív értékek pedig jobbra ferde adatokat jeleznek. A balra ferde alatt azt értjük, hogy a bal farok hosszú a jobb farokhoz képest. Hasonlóképpen, a jobbra ferde azt jelenti, hogy a jobb farok hosszú a bal farokhoz képest. A ferdeség az eloszlás átlaga körüli aszimmetria mértékét jellemzi. Míg az átlag és a szórás dimenziós mennyiségek (ezért vesszük a variancia négyzetgyökét ), vagyis ugyanazokkal a mértékegységekkel rendelkeznek, mint a mért mennyiségek , addig a ferdeséget konvencionálisan úgy definiálják, hogy az nem dimenziós. Ez egy tiszta szám, amely csak az eloszlás alakját jellemzi. A ferdeség pozitív értéke olyan eloszlást jelöl, amelynek aszimmetrikus farka a pozitívabb X felé nyúlik ki, a negatív érték pedig olyan eloszlást, amelynek farka a negatívabb X felé nyúlik ki. A ferdeség nulla mértéke szimmetrikus eloszlást jelöl.
A ferdeség és a szimmetria fontos lesz, amikor a valószínűségi eloszlásokat tárgyaljuk a későbbi fejezetekben.
Kapiteli áttekintés
Az adatok eloszlását vizsgálva sokat megtudhatunk az átlag, a medián és a módusz viszonyáról. Háromféle eloszlás létezik. A jobbra (vagy pozitívan) ferde eloszlásnak olyan alakja van, mint (ábra). A bal (vagy negatív) ferde eloszlás alakja a (ábra). A szimmetrikus eloszlás úgy néz ki, mint (ábra).
Forma áttekintése
A ferdeség képlete:
Variációs együttható képlete:
A következő három feladat megválaszolásához használd az alábbi információkat: Adja meg, hogy az adatok szimmetrikusak, balra vagy jobbra ferdék.
Az adatok szimmetrikusak. A medián 3, az átlag pedig 2,85. Ezek közel vannak egymáshoz, és a módusz közel az adatok közepéhez fekszik, tehát az adatok szimmetrikusak.
Az adatok jobbra ferdék. A medián 87,5, az átlag pedig 88,2. Bár közel vannak egymáshoz, a módusz az adatok közepétől balra fekszik, és a 87-es szám sokkal többször fordul elő, mint bármely más szám, tehát az adatok jobbra ferdék.
Ha az adatok balra ferdék, milyen tipikus kapcsolat van az átlag és a medián között?
Ha az adatok szimmetrikusak, mi a tipikus kapcsolat az átlag és a medián között?
Ha az adatok szimmetrikusak, az átlag és a medián közel vagy azonos.
Melyik szó írja le azt az eloszlást, amelynek két módusza van?
Írd le ennek az eloszlásnak az alakját.
Az eloszlás jobbra ferde, mert jobbra húzottnak tűnik.
Írd le ennek az eloszlásnak a módusza és mediánja közötti kapcsolatot.
Írd le ennek az eloszlásnak az átlaga és mediánja közötti kapcsolatot.
Az átlag 4,1, és valamivel nagyobb, mint a medián, ami négy.
Írd le ennek az eloszlásnak az alakját.
Írd le ennek az eloszlásnak a módusza és mediánja közötti kapcsolatot.
A módus és a medián megegyezik. Ebben az esetben mindkettő öt.
Az átlag és a medián pontosan megegyezik ebben az eloszlásban? Miért vagy miért nem?
Írd le ennek az eloszlásnak az alakját.
Az eloszlás balra ferde, mert balra húzottnak tűnik.
Írd le az eloszlás módusza és mediánja közötti kapcsolatot.
Írd le ennek az eloszlásnak az átlaga és mediánja közötti kapcsolatot.
Az átlag és a medián egyaránt hat.
Az adatok átlaga és mediánja megegyezik.
Az adatok tökéletesen szimmetrikusak? Miért vagy miért nem?
Melyik a legnagyobb, az átlag, a módusz vagy a medián az adathalmazban?
A módusz 12, a medián 12,5, az átlag pedig 15,1. Az átlag a legnagyobb.
Melyik a legkisebb, az adathalmaz átlaga, módusza vagy mediánja?
A három mérték közül melyik tükrözi leginkább a ferdeséget, az átlag, a módusz vagy a medián? Miért?
Az átlag hajlamos leginkább tükrözni a ferdeséget, mivel a kiugró értékek ezt befolyásolják leginkább.
Tökéletesen szimmetrikus eloszlásban mikor különbözne a módusz az átlagtól és a mediántól?
Házi feladat
Az USA lakosságának medián életkora 1980-ban 30,0 év volt. 1991-ben az átlagéletkor 33,1 év volt.
- Mit jelent az, hogy az átlagéletkor emelkedik?
- Adjon meg két okot, amiért az átlagéletkor emelkedhet.
- Az átlagéletkor emelkedéséhez a gyermekek tényleges száma 1991-ben kevesebb, mint 1980-ban? Miért vagy miért nem?