leíró statisztika

Ezzel a bemutatóval a Statához mellékelt auto adatkészletet fogjuk használni. Ennek az adattípusnak a betöltéséhez

sysuse auto, clear

Az automatikus adatkészlet a következő változókat tartalmazza.

describe

Tegyük fel, hogy szeretnénk néhány összefoglaló statisztikát kapni az árra vonatkozóan, mint például az átlag, a szórás és a szórás. Használjuk a summarize parancsot.

summarize price

Most adjuk hozzá a detail opciót a summarize parancshoz. Ezzel sokkal több információt kapunk, beleértve a mediánt és más percentiliseket is.

summarize price, detail

Multi változó egyszerre

Hogy egyszerre több változó leírását kapjuk meg, csak adjuk hozzá a változó nevét a summarize után.

summarize price mpg

A detail opció hozzáadása.

summarize price mpg, detail

Feldolgozással történő felhasználás

Tegyük fel, hogy az ár leíró statisztikáját szeretnénk megkapni az autó típusa szerint (külföldi vs. belföldi). Használhatjuk az úgynevezett byfeldolgozást.

by foreign: summarize price

A by parancs használatakor az adathalmazban rendezni kell az érdeklődő változót. Az előző példában például a “külföldi” változó már rendezve van az adathalmazunkon belül. Ha az árat mpg szerint akarnánk vizsgálni, akkor a mérföld/gallon értéket kellene rendezni. Az adatok rendezésének egyik módja az egyszerű rendezési parancs, amelyet a változó neve követ. A Stata alapértelmezés szerint növekvő sorrendbe rendezi az adatokat.

sort mpg

Az adatok rendezése után használhatjuk a standard by mpg: parancsot. A by feldolgozásban az bysort paranccsal egyidejűleg az adatokat is rendezhetjük és a by parancsot is végrehajthatjuk:

bysort mpg: summarize price

A by parancsot más parancsokban is használhatjuk, például grafikonok készítéséhez. Ha például az mpg hisztogramokat szeretnénk vizsgálni az autó márkája szerint, akkor a by parancsot használnánk opcióként. Az autó márkáját nem kell rendezni ehhez a parancshoz.

histogram(mpg), by(foreign)

Az if

A by utasítással a by változó minden szintjére (azaz külföldi és belföldi) leíró adatokat kapunk. Tegyük fel, hogy csak a by változó egy szintjének leírására vagyunk kíváncsiak. Erre használhatjuk a if utasítást. Külföldi autókra (azaz foreign == 1):

summarize price if foreign == 1

Belföldi autókra (azaz, foreign == 0)

summarize price if foreign == 0

Ez a táblázat segítséget nyújt annak meghatározásához, hogy a változó milyen szintjeit kell megadni.

Szimbólum

Megjelölés

== az vagy egyenlő
!= vagy ~= nem vagy nem egyenlő
> nagyobb, mint
>= nagyobb, mint vagy egyenlő
< kisebb
<= kisebb vagy egyenlő
*From pg. 74 of A Gentle Introduction to Stata by Alan Acock

Using in

A in minősítő az esetek egy adott részhalmazát határozza meg az adathalmazban elfoglalt sorrendjük alapján. Ha például a 10 legolcsóbb autó mpg értékét szeretnénk vizsgálni, akkor a in parancsot használjuk.

sort pricesummarize mpg in 1/10

Az ilyen eljárások bármelyikéhez hasznos tippként, ha a változók fel vannak címkézve (a numerikus érték helyett a címkét mutatja), és a változó szintjeinek vizsgálatához a numerikus értékeket kell megtalálnia, használhatja a nolabel opciót.

browse, nolabel

Ez a változók számértékeit mutatja. Ezeket az értékeket úgy is megtalálhatja, ha duplán kattint rájuk az adatböngészőben.

Vélemény, hozzászólás?

Az e-mail-címet nem tesszük közzé.