Descriptive Statistics
This tutorial for we are gonna use the auto
dataset with comes with Stata.
describe
例えば、平均、標準偏差、範囲などの価格の要約統計量を取得したいとします。
summarize price
ここで、summarize
にオプションdetail
を追加してみましょう。 これで中央値やその他のパーセンタイルなど、多くの情報が得られます。
summarize price, detail
複数の変数を同時に
複数の変数の説明文を一度に得るには、変数名をsummarize
に追加するだけです。
summarize price mpg
detail
オプションを追加します。
summarize price mpg, detail
処理による使用
車の種類(外国車と国内車)による価格について説明統計を取得すると仮定します。
by foreign: summarize price
byコマンドを使用する場合、データセット内で目的の変数をソートしておく必要があります。 例えば、前の例では、変数「foreign」はすでにデータセット内でソートされています。 もし、mpgによる価格を調べたい場合は、miles per gallonをソートする必要があります。 データをソートする1つの方法は、単純なソートコマンドの後に変数名を付けることです。
sort mpg
データをソートした後、標準のby mpg:コマンドを使用することができます。 by
処理では、bysort
コマンドを使用して、データのソートとby
コマンドの実行を同時に行うこともできます。
bysort mpg: summarize price
by
コマンドは、グラフィックを作成するなど、他のコマンドでも使用することが可能です。 例えば、車のメーカー別のmpgのヒストグラムを調べたい場合、by
コマンドをオプションとして使用します。
histogram(mpg), by(foreign)
Using if
by
ステートメントは、by
変数のすべてのレベル(すなわち、外国と国内の両方)について記述子を与えてくれます。 もし、by
変数の1つのレベルの記述だけが必要だとします。 その場合は、if
ステートメントを使用することができます。 外国車(つまりforeign == 1
)の場合:
summarize price if foreign == 1
国産車の場合(つまり。 foreign == 0
)
summarize price if foreign == 0
この表は、どのレベルの変数をどう指定するかを決めるための参考とするものです。
Symbol |
Meaning |
== | is or is equal to |
!=または~= | is not or is equal to |
> | is greater than |
>= | is greater than or is equal to |
< | is less than |
<= | is less or equal to |
*PGから引用しています。 74 of A Gentle Introduction to Stata by Alan Acock |
Using in
in
修飾子は、データセット内の順序に基づいてケースの特定のサブセットを指定するものである。 例えば、最も安価な車10台のmpgを調べたい場合は、in
コマンドを使用することになります。
sort pricesummarize mpg in 1/10
これらの処理の役に立つヒントとして、変数がラベル付き(数値の代わりにラベルを表示)で、変数のレベルを調べるために数値を見つける必要がある場合、nolabel
オプションを使用することができます.
browse, nolabel
これは変数の数値値を示しています。 また、データブラウザでそれらの値をダブルクリックすることによっても見つけることができます.
。