Statystyki opisowe

W tym tutorialu użyjemy zbioru danych auto, który jest dostarczany z programem Stata. Aby załadować te dane wpisz

sysuse auto, clear

Zbiór danych auto ma następujące zmienne.

describe

Przypuśćmy, że chcemy uzyskać kilka podsumowujących statystyk dla ceny, takich jak średnia, odchylenie standardowe i zakres. Skorzystamy z polecenia summarize.

summarize price

Dodajmy teraz opcję detail do summarize. To da nam dużo więcej informacji, w tym medianę i inne percentyle.

summarize price, detail

Multiple Variables at Once

Aby uzyskać opisy dla wielu zmiennych jednocześnie, wystarczy dodać nazwy zmiennych po summarize.

summarize price mpg

Dodanie opcji detail.

summarize price mpg, detail

Użycie przez przetwarzanie

Załóżmy, że chcemy uzyskać statystyki opisowe dla ceny według typu samochodu (zagraniczny vs krajowy). Możemy użyć czegoś, co nazywa się byprzetwarzaniem.

by foreign: summarize price

Przy użyciu polecenia by, interesująca nas zmienna musi być posortowana w zbiorze danych. Na przykład, w poprzednim przykładzie zmienna „zagranica” jest już posortowana w naszym zbiorze danych. Jeśli chcielibyśmy zbadać cenę według mpg, musielibyśmy posortować mile na galon. Jednym ze sposobów sortowania danych jest użycie prostego polecenia sort, po którym podajemy nazwę zmiennej. Stata domyślnie sortuje dane w porządku rosnącym.

sort mpg

Po posortowaniu danych, możemy użyć standardowego polecenia mpg:. W przetwarzaniu by możemy również posortować dane i wykonać polecenie by w tym samym czasie, używając polecenia bysort:

bysort mpg: summarize price

Polecenie by może być również używane w innych poleceniach, takich jak tworzenie grafiki. Na przykład, gdybyśmy chcieli zbadać histogramy mpg według marki samochodu, użylibyśmy polecenia by jako opcji. Marka samochodu nie musi być posortowana dla tego polecenia.

histogram(mpg), by(foreign)

Użycie if

Deklaracja by da nam opisy dla wszystkich poziomów zmiennej by (tzn. zarówno zagranicznych, jak i krajowych). Załóżmy, że chcemy uzyskać opisy tylko dla jednego poziomu zmiennej by. Do tego celu możemy użyć instrukcji if. Dla samochodów zagranicznych (tj. foreign == 1):

summarize price if foreign == 1

Dla samochodów krajowych (tj., foreign == 0)

summarize price if foreign == 0

Ta tabela ma pomóc w określeniu, jak określić, jakie poziomy zmiennej chcemy zastosować.

Symbol

Znaczenie

== jest lub jest równe
!= lub ~= nie jest lub nie jest równa
> jest większa niż
>= jest większa niż lub równa
< jest mniejsza niż
<= jest mniejsza lub równa
*From pg. 74 of A Gentle Introduction to Stata by Alan Acock

Użycie w

Kwalifikator in określa określony podzbiór przypadków na podstawie ich kolejności w zbiorze danych. Na przykład, jeśli chcemy zbadać mpg w 10 najtańszych samochodach, użyjemy polecenia in.

sort pricesummarize mpg in 1/10

Jako pomocna wskazówka dla każdego z tych procesów, jeśli twoje zmienne są etykietowane (pokazując etykietę zamiast wartości liczbowej) i musisz znaleźć wartości liczbowe, aby zbadać poziomy zmiennej, możesz użyć opcji nolabel.

browse, nolabel

Pokazuje ona wartości liczbowe dla zmiennych. Możesz również znaleźć te wartości, klikając je dwukrotnie w przeglądarce danych.

Dodaj komentarz

Twój adres e-mail nie zostanie opublikowany.