Descriptieve Statistieken
Voor deze tutorial gaan we gebruik maken van de auto
dataset die met Stata wordt meegeleverd. Om deze dataset te laden
sysuse auto, clear
De auto dataset heeft de volgende variabelen.
describe
Voorstel dat we enkele samenvattende statistieken voor de prijs willen verkrijgen, zoals het gemiddelde, de standaardafwijking, en het bereik. We gebruiken daarvoor het commando summarize
.
summarize price
Nu voegen we de optie detail
toe aan summarize
. Dit geeft ons veel meer informatie, waaronder de mediaan en andere percentielen.
summarize price, detail
Meerdere variabelen tegelijk
Om beschrijvingen voor meerdere variabelen tegelijk te krijgen, voegt u de variabelenamen toe na summarize
.
summarize price mpg
Door de optie detail
toe te voegen.
summarize price mpg, detail
Gebruik door verwerking
Voor stel dat we de beschrijvende statistieken voor de prijs per autotype (buitenlands vs binnenlands) willen krijgen. We kunnen gebruik maken van wat wordt genoemd by
verwerking.
by foreign: summarize price
Wanneer we het commando by gebruiken, moet de variabele van belang in de gegevensreeks worden gesorteerd. In het vorige voorbeeld is de variabele “buitenland” bijvoorbeeld al gesorteerd binnen onze gegevensreeks. Indien we de prijs per liter brandstof willen onderzoeken, moeten we het aantal kilometer per liter sorteren. Een manier om gegevens te sorteren is met behulp van een eenvoudig sort commando gevolgd door de variabele naam. Stata sorteert de gegevens standaard in oplopende volgorde.
sort mpg
Nadat we de gegevens hebben gesorteerd, kunnen we vervolgens de standaard opdracht by mpg: gebruiken. In by
-bewerking kunnen we de gegevens ook sorteren en tegelijkertijd de by
-opdracht uitvoeren met de bysort
-opdracht:
bysort mpg: summarize price
De by
-opdracht kan ook worden gebruikt in andere opdrachten, zoals het maken van grafieken. Als we bijvoorbeeld histogrammen van het aantal km/u per automerk willen onderzoeken, zouden we het by
-commando als optie gebruiken. Het merk van de auto hoeft voor deze opdracht niet te worden gesorteerd.
histogram(mpg), by(foreign)
Gebruik van if
Het by
-commando geeft ons beschrijvingen voor alle niveaus van de by
-variabele (d.w.z. zowel buitenlands als binnenlands). Stel dat we alleen de beschrijvingen voor één niveau van de variabele by
willen. Daarvoor kunnen we het if
-commando gebruiken. Voor buitenlandse auto’s (d.w.z., foreign == 1
):
summarize price if foreign == 1
Voor binnenlandse auto’s (d.w.z., foreign == 0
)
summarize price if foreign == 0
Deze tabel is bedoeld als hulp bij het bepalen van de niveaus van de variabele die u wilt gebruiken.
Symbool |
Betekenis |
== | is of is gelijk aan |
!= of ~= | is niet of is niet gelijk aan |
> | is groter dan |
>= | is groter dan of gelijk aan |
< | is kleiner dan |
<= | is kleiner dan of gelijk aan |
*Van pg. 74 van A Gentle Introduction to Stata door Alan Acock |
Gebruik in
De qualifier in
specificeert een bepaalde subset van gevallen op basis van hun volgorde in de dataset. Als we bijvoorbeeld het brandstofverbruik van de 10 minst dure auto’s willen onderzoeken, gebruiken we het in
-commando.
sort pricesummarize mpg in 1/10
Als een handige hint voor elk van deze processen, als uw variabelen zijn gelabeld (met het label in plaats van de numerieke waarde) en u de numerieke waarden moet vinden om de niveaus van de variabele te onderzoeken, kunt u de optie nolabel
gebruiken.
browse, nolabel
Dit toont u de numerieke waarden voor variabelen. U kunt deze waarden ook vinden door erop te dubbelklikken in de gegevensbrowser.