Popisná statistika

Pro tento tutoriál použijeme datovou sadu auto, která je součástí Staty. Pro načtení tohoto datového souboru typu

sysuse auto, clear

Automatický datový soubor má následující proměnné.

describe

Předpokládejme, že chceme získat některé souhrnné statistiky pro cenu, jako je průměr, směrodatná odchylka a rozsah. Použijeme příkaz summarize.

summarize price

Nyní přidáme k příkazu summarize možnost detail. Tím získáme spoustu dalších informací, včetně mediánu a dalších percentilů.

summarize price, detail

Více proměnných najednou

Pro získání popisu více proměnných najednou stačí za summarize přidat názvy proměnných.

summarize price mpg

Přidání možnosti detail.

summarize price mpg, detail

Použití při zpracování

Předpokládejme, že chceme získat popisnou statistiku pro cenu podle typu vozu (zahraniční vs. domácí). Můžeme použít tzv. zpracování by.

by foreign: summarize price

Při použití příkazu by je třeba, aby proměnná, která nás zajímá, byla v souboru dat seřazena. Například v předchozím příkladu je proměnná „cizí“ v našem souboru dat již seřazena. Pokud bychom chtěli zkoumat cenu podle mpg, museli bychom seřadit míle na galon. Jedním ze způsobů třídění dat je použití jednoduchého příkazu sort, za kterým následuje název proměnné. Stata standardně seřadí data vzestupně.

sort mpg

Po seřazení dat můžeme použít standardní příkaz by mpg:. Při zpracování by můžeme také seřadit data a současně provést příkaz by pomocí příkazu bysort:

bysort mpg: summarize price

Příkaz by lze použít i v jiných příkazech, například při vytváření grafiky. Pokud bychom například chtěli zkoumat histogramy mpg podle značky automobilu, použili bychom jako volitelný příkaz by. Značka vozu nemusí být pro tento příkaz seřazena.

histogram(mpg), by(foreign)

Příkaz if

Příkaz by nám poskytne popisné údaje pro všechny úrovně proměnné by (tj. zahraniční i domácí). Předpokládejme, že chceme pouze popis pro jednu úroveň proměnné by. K tomu můžeme použít příkaz if. Pro zahraniční vozy (tj. foreign == 1):

summarize price if foreign == 1

Pro domácí vozy (tj, foreign == 0)

summarize price if foreign == 0

Tato tabulka má pomoci při určování, jak zadat, jaké úrovně proměnné chcete použít.

Symbol

Význam

== je nebo se rovná
!= nebo ~= není nebo není rovno
> je větší než
>= je větší než nebo rovná
< je menší než
<= je menší nebo rovna
*Z str. 74 knihy A Gentle Introduction to Stata by Alan Acock

Použití v

Kvalifikátor in určuje konkrétní podmnožinu případů na základě jejich pořadí v souboru dat. Chceme-li například zkoumat mpg u 10 nejlevnějších vozů, použijeme příkaz in.

sort pricesummarize mpg in 1/10

Jako užitečnou nápovědu pro některý z těchto postupů, pokud jsou vaše proměnné označeny (zobrazují označení místo číselné hodnoty) a potřebujete zjistit číselné hodnoty pro zkoumání úrovní proměnné, můžete použít volbu nolabel.

browse, nolabel

Tato volba vám zobrazí číselné hodnoty proměnných. Tyto hodnoty můžete také zjistit poklepáním na ně v prohlížeči dat.

Napsat komentář

Vaše e-mailová adresa nebude zveřejněna.