leíró statisztika
Ezzel a bemutatóval a Statához mellékelt auto
adatkészletet fogjuk használni. Ennek az adattípusnak a betöltéséhez
sysuse auto, clear
Az automatikus adatkészlet a következő változókat tartalmazza.
describe
Tegyük fel, hogy szeretnénk néhány összefoglaló statisztikát kapni az árra vonatkozóan, mint például az átlag, a szórás és a szórás. Használjuk a summarize
parancsot.
summarize price
Most adjuk hozzá a detail
opciót a summarize
parancshoz. Ezzel sokkal több információt kapunk, beleértve a mediánt és más percentiliseket is.
summarize price, detail
Multi változó egyszerre
Hogy egyszerre több változó leírását kapjuk meg, csak adjuk hozzá a változó nevét a summarize
után.
summarize price mpg
A detail
opció hozzáadása.
summarize price mpg, detail
Feldolgozással történő felhasználás
Tegyük fel, hogy az ár leíró statisztikáját szeretnénk megkapni az autó típusa szerint (külföldi vs. belföldi). Használhatjuk az úgynevezett by
feldolgozást.
by foreign: summarize price
A by parancs használatakor az adathalmazban rendezni kell az érdeklődő változót. Az előző példában például a “külföldi” változó már rendezve van az adathalmazunkon belül. Ha az árat mpg szerint akarnánk vizsgálni, akkor a mérföld/gallon értéket kellene rendezni. Az adatok rendezésének egyik módja az egyszerű rendezési parancs, amelyet a változó neve követ. A Stata alapértelmezés szerint növekvő sorrendbe rendezi az adatokat.
sort mpg
Az adatok rendezése után használhatjuk a standard by mpg: parancsot. A by
feldolgozásban az bysort
paranccsal egyidejűleg az adatokat is rendezhetjük és a by
parancsot is végrehajthatjuk:
bysort mpg: summarize price
A by
parancsot más parancsokban is használhatjuk, például grafikonok készítéséhez. Ha például az mpg hisztogramokat szeretnénk vizsgálni az autó márkája szerint, akkor a by
parancsot használnánk opcióként. Az autó márkáját nem kell rendezni ehhez a parancshoz.
histogram(mpg), by(foreign)
Az if
A by
utasítással a by
változó minden szintjére (azaz külföldi és belföldi) leíró adatokat kapunk. Tegyük fel, hogy csak a by
változó egy szintjének leírására vagyunk kíváncsiak. Erre használhatjuk a if
utasítást. Külföldi autókra (azaz foreign == 1
):
summarize price if foreign == 1
Belföldi autókra (azaz, foreign == 0
)
summarize price if foreign == 0
Ez a táblázat segítséget nyújt annak meghatározásához, hogy a változó milyen szintjeit kell megadni.
Szimbólum |
Megjelölés |
== | az vagy egyenlő |
!= vagy ~= | nem vagy nem egyenlő |
> | nagyobb, mint |
>= | nagyobb, mint vagy egyenlő |
< | kisebb |
<= | kisebb vagy egyenlő |
*From pg. 74 of A Gentle Introduction to Stata by Alan Acock |
Using in
A in
minősítő az esetek egy adott részhalmazát határozza meg az adathalmazban elfoglalt sorrendjük alapján. Ha például a 10 legolcsóbb autó mpg értékét szeretnénk vizsgálni, akkor a in
parancsot használjuk.
sort pricesummarize mpg in 1/10
Az ilyen eljárások bármelyikéhez hasznos tippként, ha a változók fel vannak címkézve (a numerikus érték helyett a címkét mutatja), és a változó szintjeinek vizsgálatához a numerikus értékeket kell megtalálnia, használhatja a nolabel
opciót.
browse, nolabel
Ez a változók számértékeit mutatja. Ezeket az értékeket úgy is megtalálhatja, ha duplán kattint rájuk az adatböngészőben.