AVISO: O grupo de consultoria estatística IDRE estará migrando o site para o WordPress CMS em fevereiro para facilitar a manutenção e criação de novos conteúdos. Algumas de nossas páginas antigas serão removidas ou arquivadas de modo que elas não serão mais mantidas. Vamos tentar manter os redirecionamentos para que os URLs antigos continuem a funcionar da melhor maneira possível. Bem-vindo ao Instituto de Pesquisas Digitais e Educação Ajude o Grupo de Consultoria Estatal, dando um presente Notas da Classe Stata Contagem de n para N Introdução A Stata possui duas variáveis incorporadas chamadas n e N. N é a notação Stata para o número de observação atual. N é 1 na primeira observação, 2 no segundo, 3 no terceiro e assim por diante. N é a notação de Stata para o número total de observações. Vamos ver como n e N funcionam. Como você pode ver, o ID da variável contém o número de observação que corre de 1 a 7 e nt é o número total de observações, que é 7. Contar com o uso de n e N em conjunto com o comando pode produzir alguns resultados muito úteis. É claro que, para usar o comando por nós, primeiro devemos classificar nossos dados na variável por. Agora n1 é o número de observação dentro de cada grupo e n2 é o número total de observações para cada grupo. Para listar a pontuação mais baixa para cada grupo, use o seguinte: Para listar a pontuação mais alta para cada grupo, use o seguinte: Outro uso de n Permite usar n para descobrir se existem números de identificação duplicados nos seguintes dados: As observações 6 e 7 têm os mesmos números de identificação e valores de pontuação diferentes. Encontrando Duplicados Agora, use N para encontrar observações duplicadas. Neste exemplo, classificamos as observações por todas as variáveis. Em seguida, usamos toda a variável na instrução by e configuramos set n igual ao número total de observações que são idênticas. Finalmente, listamos as observações para as quais N é maior que 1, identificando as observações duplicadas. Se você tem muitas variáveis no conjunto de dados, pode demorar muito tempo para digitá-las duas vezes. Podemos fazer uso do curinga para indicar que desejamos usar todas as variáveis. Além disso, nas versões mais recentes do Stata, podemos combinar classificar e em uma única declaração. Abaixo está uma versão simplificada do código que renderá exatamente os mesmos resultados acima. O conteúdo deste site não deve ser interpretado como um endosso de qualquer site, livro ou produto de software específico da Universidade da Califórnia. Para perguntas rápidas, envie um email para dataprinceton. edu. Não há appts. Necessário durante horas walk-in. Nota: o laboratório DSS está aberto enquanto o Firestone estiver aberto, sem compromissos necessários para usar os computadores do laboratório para sua própria análise. Usando Variáveis Dummy Eu uso dados automáticos neste exemplo. No prompt de comando, digite In this data, foreign é uma variável dummy, que contém resultados binários. A variável tem um valor de 1 para modelo estrangeiro e 0 para modelo doméstico. Eu tenho outra variável categórica, classificação de reparo, que eu estou interessado em ver o efeito no mpg. A classificação de reparo, chamada rep78, varia de 1 a 5, 1 sendo mais reparos e 5 sendo menos reparos. Aqui, a classificação de reparo pode ser tratada como um valor contínuo, mas uma vez que tem apenas cinco valores e considero isso como uma variável categórica, farei de cada valor uma variável falsa. Este tipo de situação é mais comum com variáveis como etnia ou ocupação, onde a atribuição de número é bastante arbitrária ea quantidade não tem significado. Uma maneira fácil de criar uma variável dummy a partir de uma variável de categoria múltipla como esta rep78 é usar o comando tabulate. Cria cinco manequins, um por cada valor de rep78. Você pode ver as novas variáveis criadas pela Stata, deslocando a janela da variável para a parte inferior. Observe que a tabulação mostra o total como 69, quando o número total de registros é 74. Resulta que cinco carros têm suas avaliações de reparação faltando. Stata cai casos com valores faltantes completamente ao executar regressões. Assim, no próximo modelo, você pode ver que o caso total usado na análise é 69. Das cinco categorias, eu posso incluir quatro categorias, menos uma, do que o número total de categorias, no modelo, como um deles será Uma categoria de referência. Os coeficientes serão interpretados em referência à categoria excluída. Previsto MPG 27.36 - 6.36REPAIR1 - 8.24REPAIR2 - 7.93REPAIR3 - 5.70REPAIR4 Os coeficientes de reparação estão em referência à classificação de reparo 5. Assim, os carros com classificação de reparo 1 produzem cerca de 6,36 menos mpg do que os carros com classificação de reparação 5, classificação de reparo 2 Custa cerca de 8,23 mpg menos do que classificação de reparo 5, e assim por diante. Faz sentido que os carros com melhor classificação de reparo usem menos gás: devem ser construídos para serem mais eficientes. Cada manequim é 0 ou 1, então, para calcular o mpg previsto, você pode conectar 1 à classificação para a qual deseja obter uma estimativa e 0 para outros. Quando um carro tem uma classificação de reparação 5, o mpg previsto é 27,36. Quando um carro tem uma classificação de reparação 1, o mpg previsto é 27.36-6.36 21. Algumas pessoas estão confusas quando eu lhes digo para excluir uma categoria para torná-lo em um grupo de referência. Se você tem apenas um conjunto de manequins e quer incluir todos eles, você pode ajustar um modelo com todos os manequins, mas diga ao Stata que já existe uma constante. Eu não recomendo usar isso se você tiver vários conjuntos de variáveis dummy, como estado civil (único, casado, divorciado, etc.) E etnia (branco, preto, hispânico, asiático, etc.), porque a interpretação da intercepção Torna-se confuso. Desta vez, os coeficientes são previstos mpg para cada classificação de reparo em vez de diferença em referência à categoria excluída. Observe que o coeficiente de reparação5 é 27.36, que calculamos a partir do acima. O coeficiente de reparo1 é 21, novamente, o mesmo que na computação que obtivemos do modelo acima. Então, os resultados são os mesmos de qualquer maneira. Mais informações sobre o uso de variáveis dummy em uma regressão, consulte Regressão linear e Tutorial do Stata. Copie 2007 The Truestees of Princeton University. Todos os direitos reservados. Dataprinceton. edu Esta página foi atualizada pela última vez em 28 de agosto de 2008
No comments:
Post a Comment