Descriptive Statistics

Para este tutorial vamos usar o conjunto de dados auto que vem com Stata. Para carregar este conjunto de dados tipo

sysuse auto, clear

O conjunto de dados automático tem as seguintes variáveis.

describe

Suponhamos que queremos obter algumas estatísticas resumidas de preços como a média, desvio padrão e intervalo. Vamos usar o comando summarize

summarize price

Agora vamos adicionar a opção detail a summarize. Isto nos dará muitas mais informações, incluindo a mediana e outros percentis.

summarize price, detail

Variáveis múltiplas de uma vez

Para obter descritivos de múltiplas variáveis de uma vez basta adicionar os nomes das variáveis após summarize.

summarize price mpg

Adicionando a opção detail.

summarize price mpg, detail

Usando por processamento

Só queremos obter a estatística descritiva do preço por tipo de carro (estrangeiro vs doméstico). Podemos usar o que é chamado de by processamento.

by foreign: summarize price

Quando se usa o por comando, a variável de interesse precisa ser ordenada no conjunto de dados. Por exemplo, no exemplo anterior a variável “estrangeira” já está ordenada dentro do nosso conjunto de dados. Se quiséssemos examinar o preço por mpg, precisaríamos ordenar milhas por galão. Uma maneira de ordenar os dados é usando um simples comando de ordenação seguido pelo nome da variável. Stata irá ordenar os dados em ordem crescente por padrão.

sort mpg

Após ordenarmos os dados, podemos então usar o padrão pelo comando mpg:. Em by processamento, também podemos ordenar os dados e executar o comando by ao mesmo tempo usando o comando bysort comando:

bysort mpg: summarize price

O comando by também pode ser usado em outros comandos, tais como a criação de gráficos. Por exemplo, se quiséssemos examinar histogramas de mpg pela marca do carro, usaríamos o comando by como uma opção. A marca do carro não precisa ser ordenada para este comando.

histogram(mpg), by(foreign)

Usando if

A instrução by nos dará descritivos para todos os níveis da variável by (ou seja, tanto estrangeira quanto doméstica). Suponha que queremos apenas a descrição para um nível da variável by. Podemos usar a instrução if para isso. Para carros estrangeiros (isto é, foreign == 1):

summarize price if foreign == 1

Para carros domésticos (isto é, by), foreign == 0)

summarize price if foreign == 0

> Esta tabela é para ajudar a determinar como especificar quais os níveis da variável que quer usar.

>

Símbolo

Medição

=== é ou é igual a
!= ou ~= não é ou não é igual a
> é maior que
>= é maior que ou igual a
< é inferior a
<== é inferior ou igual a
*De pg. 74 de A Gentle Introduction to Stata de Alan Acock

Using in

>The in qualifier especifica um subconjunto particular de casos com base na sua ordem no conjunto de dados. Por exemplo, se quisermos examinar o mpg nos 10 carros menos caros, usaríamos o comando in.

sort pricesummarize mpg in 1/10

Como uma dica útil para qualquer um destes processos, se as suas variáveis são rotuladas (mostrando a etiqueta em vez do valor numérico) e você precisa encontrar os valores numéricos para examinar os níveis da variável, você pode usar o comando nolabel option.

browse, nolabel

Isto irá mostrar-lhe os valores numéricos para as variáveis. Você também pode encontrar esses valores clicando duas vezes sobre eles no navegador de dados.

Deixe uma resposta

O seu endereço de email não será publicado.