Beskrivande statistik
För den här handledningen kommer vi att använda datasetet auto
som levereras med Stata. För att ladda denna datatyp
sysuse auto, clear
Dataset auto har följande variabler:
describe
Förutsatt att vi vill få fram några sammanfattade statistiska uppgifter för pris, till exempel medelvärde, standardavvikelse och intervall. Vi använder kommandot summarize
.
summarize price
Nu lägger vi till alternativet detail
till summarize
. Detta ger oss mycket mer information, inklusive medianen och andra percentiler.
summarize price, detail
Flera variabler på en gång
För att få beskrivningar för flera variabler på en gång lägger du bara till variabelnamnen efter summarize
.
summarize price mpg
Lägg till alternativet detail
.
summarize price mpg, detail
Användning genom bearbetning
Antag att vi vill få fram den beskrivande statistiken för pris per biltyp (utländsk vs inhemsk). Vi kan använda det som kallas by
behandling.
by foreign: summarize price
När vi använder by-kommandot måste den intressanta variabeln sorteras i datamängden. I det föregående exemplet är till exempel variabeln ”foreign” redan sorterad i vår datamängd. Om vi skulle vilja undersöka priset efter miles per gallon skulle vi behöva sortera miles per gallon. Ett sätt att sortera data är att använda ett enkelt sorteringskommando följt av variabelnamnet. Stata kommer som standard att sortera data i stigande ordning.
sort mpg
När vi har sorterat data kan vi sedan använda standardkommandot by mpg:. Vid by
-bearbetning kan vi också sortera data och utföra by
-kommandot samtidigt med hjälp av bysort
-kommandot:
bysort mpg: summarize price
by
-kommandot kan också användas i andra kommandon, till exempel för att skapa grafik. Om vi till exempel vill undersöka histogram av mpg efter bilmärke skulle vi använda kommandot by
som ett alternativ. Bilmärket behöver inte sorteras för detta kommando.
histogram(mpg), by(foreign)
Användning av if
Den by
-angivelsen ger oss beskrivningar för alla nivåer av variabeln by
(dvs. både utländska och inhemska). Anta att vi bara vill ha beskrivningarna för en nivå av variabeln by
. Vi kan använda if
-angivelsen för det. För utländska bilar (dvs. foreign == 1
):
summarize price if foreign == 1
För inhemska bilar (dvs, foreign == 0
)
summarize price if foreign == 0
Denna tabell är till hjälp för att fastställa hur man ska ange vilka nivåer av variabeln man vill använda.
Symbol |
Betydelse |
== | är eller är lika med |
!= eller ~= | är inte eller är inte lika med |
> | är större än |
>= | är större än eller lika med |
< | är mindre än |
<= | är mindre än eller lika med |
*Från pg. 74 i A Gentle Introduction to Stata av Alan Acock |
Användning i
Den kvalificerande variabeln in
specificerar en viss delmängd av fall baserat på deras ordning i datasetet. Om vi t.ex. vill undersöka mpg i de 10 billigaste bilarna skulle vi använda kommandot in
.
sort pricesummarize mpg in 1/10
Som en hjälpande ledtråd för någon av dessa processer, om dina variabler är märkta (visar etiketten i stället för det numeriska värdet) och du behöver hitta de numeriska värdena för att undersöka nivåerna för variabeln, kan du använda alternativet nolabel
.
browse, nolabel
Detta visar dig de numeriska värdena för variabler. Du kan också hitta dessa värden genom att dubbelklicka på dem i databläsaren.