Kuvailevat tilastot

Tässä opetusohjelmassa käytämme Statan mukana tulevaa autotietokantaa. Tämän datatyypin lataaminen

sysuse auto, clear

Automaattisessa datasetissä on seuraavat muuttujat.

describe

Esitellään, että haluamme saada joitain yhteenvetotilastoja hinnasta, kuten keskiarvon, keskihajonnan ja vaihteluvälin. Käytämme komentoa summarize.

summarize price

Lisätään nyt summarize-komentoon detail. Näin saamme paljon lisätietoja, kuten mediaanin ja muut prosenttiosuudet.

summarize price, detail

Monia muuttujia kerralla

Tullaksemme saamaan useiden muuttujien kuvaukset kerralla, lisää vain muuttujien nimet summarize jälkeen.

summarize price mpg

Lisäämällä detail-vaihtoehto.

summarize price mpg, detail

Käyttämällä käsittelyä

Esitettäköön, että halutaan saada kuvailevat tilastot hinnan osalta autotyypeittäin (ulkomaan vs. kotimaan). Voimme käyttää niin sanottua by käsittelyä.

by foreign: summarize price

Käyttäessämme by-komentoa kiinnostava muuttuja on lajiteltava aineistossa. Esimerkiksi edellisessä esimerkissä muuttuja ”foreign” on jo lajiteltu aineistossamme. Jos haluaisimme tutkia hintaa mpg:n mukaan, meidän olisi lajiteltava miles per gallon. Yksi tapa lajitella tietoja on käyttää yksinkertaista lajittelukomentoa, jota seuraa muuttujan nimi. Stata lajittelee aineiston oletusarvoisesti nousevaan järjestykseen.

sort mpg

Kun olemme lajitelleet aineiston, voimme käyttää tavallista by mpg: -käskyä. by-käsittelyssä voimme myös lajitella datan ja suorittaa by-komennon samanaikaisesti komennolla bysort:

bysort mpg: summarize price

Komentoa by voidaan käyttää myös muissa komennoissa, kuten grafiikan luomisessa. Jos esimerkiksi haluaisimme tutkia mpg:n histogrammeja auton merkin mukaan, käyttäisimme by-komentoa vaihtoehtona. Auton merkkiä ei tarvitse lajitella tätä komentoa varten.

histogram(mpg), by(foreign)

Käyttämällä if

Käsky by antaa meille kuvaajat kaikille by-muuttujan tasoille (eli sekä ulkomaisille että kotimaisille). Oletetaan, että haluamme vain by-muuttujan yhden tason kuvaukset. Voimme käyttää siihen if-lauseketta. Ulkomaisten autojen osalta (ts. foreign == 1):

summarize price if foreign == 1

Kotimaisten autojen osalta (ts, foreign == 0)

summarize price if foreign == 0

Tämä taulukko auttaa määrittelemään, miten määritetään, mitä muuttujan tasoja halutaan käyttää.

Symboli

Merkitys

== on tai on yhtä suuri kuin
!= tai ~= ei ole tai ei ole yhtä suuri kuin
> on suurempi kuin
>= on suurempi kuin tai yhtä suuri kuin
< on pienempi kuin
<= on pienempi tai yhtä suuri kuin
*Sivulta pp. 74 of A Gentle Introduction to Stata by Alan Acock

Käyttämällä

Ominaisuus in määrittelee tietyn tapausten osajoukon sen perusteella, missä järjestyksessä ne ovat aineistossa. Jos esimerkiksi haluamme tutkia 10 halvimman auton mpg:tä, käytämme komentoa in.

sort pricesummarize mpg in 1/10

Hyödyllisenä vinkkinä kaikissa näissä prosesseissa, jos muuttujasi ovat merkittyjä (näyttää merkinnän numeroarvon sijasta) ja sinun on löydettävä numeeriset arvot muuttujan tasojen tarkastelemiseksi, voit käyttää nolabel-optiota.

browse, nolabel

Tällöin saat näkyviin muuttujien lukuarvot. Löydät nämä arvot myös kaksoisnapsauttamalla niitä dataselaimessa.

Vastaa

Sähköpostiosoitettasi ei julkaista.