Statistici descriptive
Pentru acest tutorial vom folosi setul de date auto
care vine cu Stata. Pentru a încărca acest tip de date
sysuse auto, clear
Setul de date auto are următoarele variabile.
describe
Să presupunem că dorim să obținem câteva statistici rezumative pentru preț, cum ar fi media, deviația standard și intervalul. Vom folosi comanda summarize
.
summarize price
Acum să adăugăm opțiunea detail
la summarize
. Acest lucru ne va oferi mult mai multe informații, inclusiv mediana și alte percentile.
summarize price, detail
Multiple Variables at Once
Pentru a obține descrieri pentru mai multe variabile deodată, adăugați doar numele variabilelor după summarize
.
summarize price mpg
Aducerea opțiunii detail
.
summarize price mpg, detail
Utilizarea prin procesare
Să presupunem că dorim să obținem statisticile descriptive pentru prețul în funcție de tipul de mașină (străină vs. națională). Putem folosi ceea ce se numește procesare by
.
by foreign: summarize price
Când se folosește comanda by, variabila de interes trebuie să fie sortată în setul de date. De exemplu, în exemplul anterior, variabila „foreign” este deja sortată în cadrul setului nostru de date. Dacă am dori să examinăm prețul în funcție de numărul de mile pe galon, ar trebui să sortăm milele pe galon. O modalitate de sortare a datelor este utilizarea unei comenzi simple de sortare urmată de numele variabilei. În mod implicit, Stata va sorta datele în ordine crescătoare.
sort mpg
După ce am sortat datele, putem folosi comanda standard by mpg:. În procesarea by
, putem, de asemenea, să sortăm datele și să executăm comanda by
în același timp folosind comanda bysort
:
bysort mpg: summarize price
Comanda by
poate fi utilizată și în alte comenzi, cum ar fi crearea de grafice. De exemplu, dacă am dori să examinăm histogramele de mpg în funcție de marca mașinii, am folosi comanda by
ca opțiune. Marca mașinii nu trebuie să fie sortată pentru această comandă.
histogram(mpg), by(foreign)
Utilizarea if
Declarația by
ne va oferi descrieri pentru toate nivelurile variabilei by
(adică, atât pentru cele străine, cât și pentru cele naționale). Să presupunem că dorim doar descrierile pentru un singur nivel al variabilei by
. Putem folosi instrucțiunea if
pentru aceasta. Pentru mașinile străine (adică foreign == 1
):
summarize price if foreign == 1
Pentru mașinile naționale (adică, foreign == 0
)
summarize price if foreign == 0
Acest tabel are rolul de a vă ajuta să determinați cum să specificați ce niveluri ale variabilei pe care doriți să o utilizați.
Simbol |
Semnificație |
== | este sau este egal cu |
!= sau ~= | nu este sau nu este egal cu |
> | este mai mare decât |
>= | este mai mare decât sau egal cu |
< | este mai mic decât |
<= | este mai mic sau egal cu |
*De la pg. 74 din A Gentle Introduction to Stata de Alan Acock |
Utilizarea în
Calificatorul in
specifică un anumit subset de cazuri pe baza ordinii lor în setul de date. De exemplu, dacă dorim să examinăm mpg în cazul celor mai puțin costisitoare 10 mașini, vom utiliza comanda in
.
sort pricesummarize mpg in 1/10
Ca un indiciu util pentru oricare dintre aceste procese, dacă variabilele dvs. sunt etichetate (afișează eticheta în loc de valoarea numerică) și trebuie să găsiți valorile numerice pentru a examina nivelurile variabilei, puteți utiliza opțiunea nolabel
.
browse, nolabel
Aceasta vă va arăta valorile numerice pentru variabile. De asemenea, puteți găsi aceste valori dând dublu clic pe ele în browserul de date.
.