Statistici descriptive

Pentru acest tutorial vom folosi setul de date auto care vine cu Stata. Pentru a încărca acest tip de date

sysuse auto, clear

Setul de date auto are următoarele variabile.

describe

Să presupunem că dorim să obținem câteva statistici rezumative pentru preț, cum ar fi media, deviația standard și intervalul. Vom folosi comanda summarize.

summarize price

Acum să adăugăm opțiunea detail la summarize. Acest lucru ne va oferi mult mai multe informații, inclusiv mediana și alte percentile.

summarize price, detail

Multiple Variables at Once

Pentru a obține descrieri pentru mai multe variabile deodată, adăugați doar numele variabilelor după summarize.

summarize price mpg

Aducerea opțiunii detail.

summarize price mpg, detail

Utilizarea prin procesare

Să presupunem că dorim să obținem statisticile descriptive pentru prețul în funcție de tipul de mașină (străină vs. națională). Putem folosi ceea ce se numește procesare by.

by foreign: summarize price

Când se folosește comanda by, variabila de interes trebuie să fie sortată în setul de date. De exemplu, în exemplul anterior, variabila „foreign” este deja sortată în cadrul setului nostru de date. Dacă am dori să examinăm prețul în funcție de numărul de mile pe galon, ar trebui să sortăm milele pe galon. O modalitate de sortare a datelor este utilizarea unei comenzi simple de sortare urmată de numele variabilei. În mod implicit, Stata va sorta datele în ordine crescătoare.

sort mpg

După ce am sortat datele, putem folosi comanda standard by mpg:. În procesarea by, putem, de asemenea, să sortăm datele și să executăm comanda by în același timp folosind comanda bysort:

bysort mpg: summarize price

Comanda by poate fi utilizată și în alte comenzi, cum ar fi crearea de grafice. De exemplu, dacă am dori să examinăm histogramele de mpg în funcție de marca mașinii, am folosi comanda by ca opțiune. Marca mașinii nu trebuie să fie sortată pentru această comandă.

histogram(mpg), by(foreign)

Utilizarea if

Declarația by ne va oferi descrieri pentru toate nivelurile variabilei by (adică, atât pentru cele străine, cât și pentru cele naționale). Să presupunem că dorim doar descrierile pentru un singur nivel al variabilei by. Putem folosi instrucțiunea if pentru aceasta. Pentru mașinile străine (adică foreign == 1):

summarize price if foreign == 1

Pentru mașinile naționale (adică, foreign == 0)

summarize price if foreign == 0

Acest tabel are rolul de a vă ajuta să determinați cum să specificați ce niveluri ale variabilei pe care doriți să o utilizați.

Simbol

Semnificație

== este sau este egal cu
!= sau ~= nu este sau nu este egal cu
> este mai mare decât
>= este mai mare decât sau egal cu
< este mai mic decât
<= este mai mic sau egal cu
*De la pg. 74 din A Gentle Introduction to Stata de Alan Acock

Utilizarea în

Calificatorul inspecifică un anumit subset de cazuri pe baza ordinii lor în setul de date. De exemplu, dacă dorim să examinăm mpg în cazul celor mai puțin costisitoare 10 mașini, vom utiliza comanda in.

sort pricesummarize mpg in 1/10

Ca un indiciu util pentru oricare dintre aceste procese, dacă variabilele dvs. sunt etichetate (afișează eticheta în loc de valoarea numerică) și trebuie să găsiți valorile numerice pentru a examina nivelurile variabilei, puteți utiliza opțiunea nolabel.

browse, nolabel

Aceasta vă va arăta valorile numerice pentru variabile. De asemenea, puteți găsi aceste valori dând dublu clic pe ele în browserul de date.

.

Lasă un răspuns

Adresa ta de email nu va fi publicată.