Beskrivande statistik

För den här handledningen kommer vi att använda datasetet auto som levereras med Stata. För att ladda denna datatyp

sysuse auto, clear

Dataset auto har följande variabler:

describe

Förutsatt att vi vill få fram några sammanfattade statistiska uppgifter för pris, till exempel medelvärde, standardavvikelse och intervall. Vi använder kommandot summarize.

summarize price

Nu lägger vi till alternativet detail till summarize. Detta ger oss mycket mer information, inklusive medianen och andra percentiler.

summarize price, detail

Flera variabler på en gång

För att få beskrivningar för flera variabler på en gång lägger du bara till variabelnamnen efter summarize.

summarize price mpg

Lägg till alternativet detail.

summarize price mpg, detail

Användning genom bearbetning

Antag att vi vill få fram den beskrivande statistiken för pris per biltyp (utländsk vs inhemsk). Vi kan använda det som kallas bybehandling.

by foreign: summarize price

När vi använder by-kommandot måste den intressanta variabeln sorteras i datamängden. I det föregående exemplet är till exempel variabeln ”foreign” redan sorterad i vår datamängd. Om vi skulle vilja undersöka priset efter miles per gallon skulle vi behöva sortera miles per gallon. Ett sätt att sortera data är att använda ett enkelt sorteringskommando följt av variabelnamnet. Stata kommer som standard att sortera data i stigande ordning.

sort mpg

När vi har sorterat data kan vi sedan använda standardkommandot by mpg:. Vid by-bearbetning kan vi också sortera data och utföra by-kommandot samtidigt med hjälp av bysort-kommandot:

bysort mpg: summarize price

by-kommandot kan också användas i andra kommandon, till exempel för att skapa grafik. Om vi till exempel vill undersöka histogram av mpg efter bilmärke skulle vi använda kommandot by som ett alternativ. Bilmärket behöver inte sorteras för detta kommando.

histogram(mpg), by(foreign)

Användning av if

Den by-angivelsen ger oss beskrivningar för alla nivåer av variabeln by (dvs. både utländska och inhemska). Anta att vi bara vill ha beskrivningarna för en nivå av variabeln by. Vi kan använda if-angivelsen för det. För utländska bilar (dvs. foreign == 1):

summarize price if foreign == 1

För inhemska bilar (dvs, foreign == 0)

summarize price if foreign == 0

Denna tabell är till hjälp för att fastställa hur man ska ange vilka nivåer av variabeln man vill använda.

Symbol

Betydelse

== är eller är lika med
!= eller ~= är inte eller är inte lika med
> är större än
>= är större än eller lika med
< är mindre än
<= är mindre än eller lika med
*Från pg. 74 i A Gentle Introduction to Stata av Alan Acock

Användning i

Den kvalificerande variabeln in specificerar en viss delmängd av fall baserat på deras ordning i datasetet. Om vi t.ex. vill undersöka mpg i de 10 billigaste bilarna skulle vi använda kommandot in.

sort pricesummarize mpg in 1/10

Som en hjälpande ledtråd för någon av dessa processer, om dina variabler är märkta (visar etiketten i stället för det numeriska värdet) och du behöver hitta de numeriska värdena för att undersöka nivåerna för variabeln, kan du använda alternativet nolabel.

browse, nolabel

Detta visar dig de numeriska värdena för variabler. Du kan också hitta dessa värden genom att dubbelklicka på dem i databläsaren.

Lämna ett svar

Din e-postadress kommer inte publiceras.