Descriptive Statistics
Para este tutorial vamos usar o conjunto de dados auto
que vem com Stata. Para carregar este conjunto de dados tipo
sysuse auto, clear
O conjunto de dados automático tem as seguintes variáveis.
describe
Suponhamos que queremos obter algumas estatísticas resumidas de preços como a média, desvio padrão e intervalo. Vamos usar o comando summarize
summarize price
Agora vamos adicionar a opção detail
a summarize
. Isto nos dará muitas mais informações, incluindo a mediana e outros percentis.
summarize price, detail
Variáveis múltiplas de uma vez
Para obter descritivos de múltiplas variáveis de uma vez basta adicionar os nomes das variáveis após summarize
.
summarize price mpg
Adicionando a opção detail
.
summarize price mpg, detail
Usando por processamento
Só queremos obter a estatística descritiva do preço por tipo de carro (estrangeiro vs doméstico). Podemos usar o que é chamado de by
processamento.
by foreign: summarize price
Quando se usa o por comando, a variável de interesse precisa ser ordenada no conjunto de dados. Por exemplo, no exemplo anterior a variável “estrangeira” já está ordenada dentro do nosso conjunto de dados. Se quiséssemos examinar o preço por mpg, precisaríamos ordenar milhas por galão. Uma maneira de ordenar os dados é usando um simples comando de ordenação seguido pelo nome da variável. Stata irá ordenar os dados em ordem crescente por padrão.
sort mpg
Após ordenarmos os dados, podemos então usar o padrão pelo comando mpg:. Em by
processamento, também podemos ordenar os dados e executar o comando by
ao mesmo tempo usando o comando bysort
comando:
bysort mpg: summarize price
O comando by
também pode ser usado em outros comandos, tais como a criação de gráficos. Por exemplo, se quiséssemos examinar histogramas de mpg pela marca do carro, usaríamos o comando by
como uma opção. A marca do carro não precisa ser ordenada para este comando.
histogram(mpg), by(foreign)
Usando if
A instrução by
nos dará descritivos para todos os níveis da variável by
(ou seja, tanto estrangeira quanto doméstica). Suponha que queremos apenas a descrição para um nível da variável by
. Podemos usar a instrução if
para isso. Para carros estrangeiros (isto é, foreign == 1
):
summarize price if foreign == 1
Para carros domésticos (isto é, by
), foreign == 0
)
summarize price if foreign == 0
> Esta tabela é para ajudar a determinar como especificar quais os níveis da variável que quer usar.
Símbolo |
Medição |
=== | é ou é igual a |
!= ou ~= | não é ou não é igual a |
> | é maior que |
>= | é maior que ou igual a |
< | é inferior a |
<== | é inferior ou igual a |
*De pg. 74 de A Gentle Introduction to Stata de Alan Acock |
Using in
>The in
qualifier especifica um subconjunto particular de casos com base na sua ordem no conjunto de dados. Por exemplo, se quisermos examinar o mpg nos 10 carros menos caros, usaríamos o comando in
.
sort pricesummarize mpg in 1/10
Como uma dica útil para qualquer um destes processos, se as suas variáveis são rotuladas (mostrando a etiqueta em vez do valor numérico) e você precisa encontrar os valores numéricos para examinar os níveis da variável, você pode usar o comando nolabel
option.
browse, nolabel
Isto irá mostrar-lhe os valores numéricos para as variáveis. Você também pode encontrar esses valores clicando duas vezes sobre eles no navegador de dados.