Popisná statistika
Pro tento tutoriál použijeme datovou sadu auto
, která je součástí Staty. Pro načtení tohoto datového souboru typu
sysuse auto, clear
Automatický datový soubor má následující proměnné.
describe
Předpokládejme, že chceme získat některé souhrnné statistiky pro cenu, jako je průměr, směrodatná odchylka a rozsah. Použijeme příkaz summarize
.
summarize price
Nyní přidáme k příkazu summarize
možnost detail
. Tím získáme spoustu dalších informací, včetně mediánu a dalších percentilů.
summarize price, detail
Více proměnných najednou
Pro získání popisu více proměnných najednou stačí za summarize
přidat názvy proměnných.
summarize price mpg
Přidání možnosti detail
.
summarize price mpg, detail
Použití při zpracování
Předpokládejme, že chceme získat popisnou statistiku pro cenu podle typu vozu (zahraniční vs. domácí). Můžeme použít tzv. zpracování by
.
by foreign: summarize price
Při použití příkazu by je třeba, aby proměnná, která nás zajímá, byla v souboru dat seřazena. Například v předchozím příkladu je proměnná „cizí“ v našem souboru dat již seřazena. Pokud bychom chtěli zkoumat cenu podle mpg, museli bychom seřadit míle na galon. Jedním ze způsobů třídění dat je použití jednoduchého příkazu sort, za kterým následuje název proměnné. Stata standardně seřadí data vzestupně.
sort mpg
Po seřazení dat můžeme použít standardní příkaz by mpg:. Při zpracování by
můžeme také seřadit data a současně provést příkaz by
pomocí příkazu bysort
:
bysort mpg: summarize price
Příkaz by
lze použít i v jiných příkazech, například při vytváření grafiky. Pokud bychom například chtěli zkoumat histogramy mpg podle značky automobilu, použili bychom jako volitelný příkaz by
. Značka vozu nemusí být pro tento příkaz seřazena.
histogram(mpg), by(foreign)
Příkaz if
Příkaz by
nám poskytne popisné údaje pro všechny úrovně proměnné by
(tj. zahraniční i domácí). Předpokládejme, že chceme pouze popis pro jednu úroveň proměnné by
. K tomu můžeme použít příkaz if
. Pro zahraniční vozy (tj. foreign == 1
):
summarize price if foreign == 1
Pro domácí vozy (tj, foreign == 0
)
summarize price if foreign == 0
Tato tabulka má pomoci při určování, jak zadat, jaké úrovně proměnné chcete použít.
Symbol |
Význam |
== | je nebo se rovná |
!= nebo ~= | není nebo není rovno |
> | je větší než |
>= | je větší než nebo rovná |
< | je menší než |
<= | je menší nebo rovna |
*Z str. 74 knihy A Gentle Introduction to Stata by Alan Acock |
Použití v
Kvalifikátor in
určuje konkrétní podmnožinu případů na základě jejich pořadí v souboru dat. Chceme-li například zkoumat mpg u 10 nejlevnějších vozů, použijeme příkaz in
.
sort pricesummarize mpg in 1/10
Jako užitečnou nápovědu pro některý z těchto postupů, pokud jsou vaše proměnné označeny (zobrazují označení místo číselné hodnoty) a potřebujete zjistit číselné hodnoty pro zkoumání úrovní proměnné, můžete použít volbu nolabel
.
browse, nolabel
Tato volba vám zobrazí číselné hodnoty proměnných. Tyto hodnoty můžete také zjistit poklepáním na ně v prohlížeči dat.