Descriptive Statistics

This tutorial for we are gonna use the auto dataset with comes with Stata.

describe

例えば、平均、標準偏差、範囲などの価格の要約統計量を取得したいとします。

summarize price

ここで、summarizeにオプションdetailを追加してみましょう。 これで中央値やその他のパーセンタイルなど、多くの情報が得られます。

summarize price, detail

複数の変数を同時に

複数の変数の説明文を一度に得るには、変数名をsummarizeに追加するだけです。

summarize price mpg

detailオプションを追加します。

summarize price mpg, detail

処理による使用

車の種類(外国車と国内車)による価格について説明統計を取得すると仮定します。

by foreign: summarize price

byコマンドを使用する場合、データセット内で目的の変数をソートしておく必要があります。 例えば、前の例では、変数「foreign」はすでにデータセット内でソートされています。 もし、mpgによる価格を調べたい場合は、miles per gallonをソートする必要があります。 データをソートする1つの方法は、単純なソートコマンドの後に変数名を付けることです。

sort mpg

データをソートした後、標準のby mpg:コマンドを使用することができます。 by処理では、bysortコマンドを使用して、データのソートとbyコマンドの実行を同時に行うこともできます。

bysort mpg: summarize price

byコマンドは、グラフィックを作成するなど、他のコマンドでも使用することが可能です。 例えば、車のメーカー別のmpgのヒストグラムを調べたい場合、byコマンドをオプションとして使用します。

histogram(mpg), by(foreign)

Using if

byステートメントは、by変数のすべてのレベル(すなわち、外国と国内の両方)について記述子を与えてくれます。 もし、by変数の1つのレベルの記述だけが必要だとします。 その場合は、ifステートメントを使用することができます。 外国車(つまりforeign == 1)の場合:

summarize price if foreign == 1

国産車の場合(つまり。 foreign == 0)

summarize price if foreign == 0

この表は、どのレベルの変数をどう指定するかを決めるための参考とするものです。

Symbol

Meaning

== is or is equal to
!=または~= is not or is equal to
> is greater than
>= is greater than or is equal to
< is less than
<= is less or equal to
*PGから引用しています。 74 of A Gentle Introduction to Stata by Alan Acock

Using in

in修飾子は、データセット内の順序に基づいてケースの特定のサブセットを指定するものである。 例えば、最も安価な車10台のmpgを調べたい場合は、inコマンドを使用することになります。

sort pricesummarize mpg in 1/10

これらの処理の役に立つヒントとして、変数がラベル付き(数値の代わりにラベルを表示)で、変数のレベルを調べるために数値を見つける必要がある場合、nolabelオプションを使用することができます.

browse, nolabel

これは変数の数値値を示しています。 また、データブラウザでそれらの値をダブルクリックすることによっても見つけることができます.

コメントを残す

メールアドレスが公開されることはありません。