Kuvailevat tilastot
Tässä opetusohjelmassa käytämme Statan mukana tulevaa auto
tietokantaa. Tämän datatyypin lataaminen
sysuse auto, clear
Automaattisessa datasetissä on seuraavat muuttujat.
describe
Esitellään, että haluamme saada joitain yhteenvetotilastoja hinnasta, kuten keskiarvon, keskihajonnan ja vaihteluvälin. Käytämme komentoa summarize
.
summarize price
Lisätään nyt summarize
-komentoon detail
. Näin saamme paljon lisätietoja, kuten mediaanin ja muut prosenttiosuudet.
summarize price, detail
Monia muuttujia kerralla
Tullaksemme saamaan useiden muuttujien kuvaukset kerralla, lisää vain muuttujien nimet summarize
jälkeen.
summarize price mpg
Lisäämällä detail
-vaihtoehto.
summarize price mpg, detail
Käyttämällä käsittelyä
Esitettäköön, että halutaan saada kuvailevat tilastot hinnan osalta autotyypeittäin (ulkomaan vs. kotimaan). Voimme käyttää niin sanottua by
käsittelyä.
by foreign: summarize price
Käyttäessämme by-komentoa kiinnostava muuttuja on lajiteltava aineistossa. Esimerkiksi edellisessä esimerkissä muuttuja ”foreign” on jo lajiteltu aineistossamme. Jos haluaisimme tutkia hintaa mpg:n mukaan, meidän olisi lajiteltava miles per gallon. Yksi tapa lajitella tietoja on käyttää yksinkertaista lajittelukomentoa, jota seuraa muuttujan nimi. Stata lajittelee aineiston oletusarvoisesti nousevaan järjestykseen.
sort mpg
Kun olemme lajitelleet aineiston, voimme käyttää tavallista by mpg: -käskyä. by
-käsittelyssä voimme myös lajitella datan ja suorittaa by
-komennon samanaikaisesti komennolla bysort
:
bysort mpg: summarize price
Komentoa by
voidaan käyttää myös muissa komennoissa, kuten grafiikan luomisessa. Jos esimerkiksi haluaisimme tutkia mpg:n histogrammeja auton merkin mukaan, käyttäisimme by
-komentoa vaihtoehtona. Auton merkkiä ei tarvitse lajitella tätä komentoa varten.
histogram(mpg), by(foreign)
Käyttämällä if
Käsky by
antaa meille kuvaajat kaikille by
-muuttujan tasoille (eli sekä ulkomaisille että kotimaisille). Oletetaan, että haluamme vain by
-muuttujan yhden tason kuvaukset. Voimme käyttää siihen if
-lauseketta. Ulkomaisten autojen osalta (ts. foreign == 1
):
summarize price if foreign == 1
Kotimaisten autojen osalta (ts, foreign == 0
)
summarize price if foreign == 0
Tämä taulukko auttaa määrittelemään, miten määritetään, mitä muuttujan tasoja halutaan käyttää.
Symboli |
Merkitys |
== | on tai on yhtä suuri kuin |
!= tai ~= | ei ole tai ei ole yhtä suuri kuin |
> | on suurempi kuin |
>= | on suurempi kuin tai yhtä suuri kuin |
< | on pienempi kuin |
<= | on pienempi tai yhtä suuri kuin |
*Sivulta pp. 74 of A Gentle Introduction to Stata by Alan Acock |
Käyttämällä
Ominaisuus in
määrittelee tietyn tapausten osajoukon sen perusteella, missä järjestyksessä ne ovat aineistossa. Jos esimerkiksi haluamme tutkia 10 halvimman auton mpg:tä, käytämme komentoa in
.
sort pricesummarize mpg in 1/10
Hyödyllisenä vinkkinä kaikissa näissä prosesseissa, jos muuttujasi ovat merkittyjä (näyttää merkinnän numeroarvon sijasta) ja sinun on löydettävä numeeriset arvot muuttujan tasojen tarkastelemiseksi, voit käyttää nolabel
-optiota.
browse, nolabel
Tällöin saat näkyviin muuttujien lukuarvot. Löydät nämä arvot myös kaksoisnapsauttamalla niitä dataselaimessa.