Bem-vindo ao Instituto de Pesquisas Digitais e Educação Módulo de Aprendizagem Stata Inserindo seus dados no Stata Este módulo mostrará como inserir seus dados no Stata. Isso abrange a entrada de dados com delimitados por vírgulas, delimitados por tabelas, delimitados em espaço e dados de coluna fixa. Nota . Todos os arquivos de entrada de amostra para esta página foram criados por nós e não estão incluídos no Stata. Você pode criá-los você mesmo para experimentar este código, copiando e colando os dados em um arquivo de texto. 1. Digitando dados no editor Stata Um dos métodos mais fáceis para obter dados no Stata está usando o editor de dados Stata, que se assemelha a uma planilha do Excel. É útil quando seus dados estão em papel e precisam ser digitados, ou se seus dados já foram digitados em uma planilha do Excel. Para saber mais sobre o editor de dados Stata, veja o módulo de edição. 2. Arquivo separado de Commatab com nomes de variáveis na linha 1 Dois formatos de arquivo comuns para dados brutos são arquivos separados por vírgulas e arquivos separados por tabulações. Esses arquivos geralmente são feitos a partir de programas de planilhas como o Excel. Considere o arquivo delimitado por vírgulas mostrado abaixo. Este arquivo possui duas características: - A primeira linha possui os nomes das variáveis separadas por vírgulas, - As seguintes linhas possuem valores para as variáveis, também separados por vírgulas. Esse tipo de arquivo pode ser lido usando o comando da planilha, conforme mostrado abaixo. Podemos verificar se o dado veio diretamente usando o comando de lista. Como você provavelmente terá mais observações, você pode usar para listar apenas um subconjunto de observações. Abaixo, listamos as observações 1 a 3. Agora que o arquivo foi lido no Stata, você pode salvá-lo com o comando save (ignoraremos esse passo). O mesmo comando de planilha poderia ser usado para ler um arquivo delimitado por tabulação. O comando da planilha é inteligente porque pode descobrir se você possui um arquivo delimitado por vírgulas ou delimitado por tabulações e depois lê-lo. (No entanto, a planilha não pode lidar com um arquivo que usa uma mistura de vírgulas e guias como delimitadores.) Antes de iniciar a próxima seção, limpe os dados existentes na memória. 3. Arquivo separado do Commatab (sem nomes de variáveis no arquivo) Considere um arquivo idêntico ao que examinamos na seção anterior, mas não possui os nomes das variáveis na linha 1. Este arquivo pode ser lido usando o comando da planilha, como mostrado abaixo. Mas, onde Stata obteve os nomes das variáveis, se a Stata não possuir nomes para as variáveis, elas as nomeam v1. V2. V3 etc., como você pode ver abaixo. Limpe os dados na memória e tente ler os dados novamente. Agora, vamos tentar ler os dados e contar a Stata os nomes das variáveis no comando da planilha. Como o comando da lista mostra, o Stata usou os nomes das variáveis fornecidos no comando da planilha. O comando da planilha funciona igualmente bem nos arquivos que usam guias como separadores. Stata examina o arquivo e determina se vírgulas ou abas estão sendo usadas como separadores e lê o arquivo adequadamente. Agora que o arquivo foi lido no Stata, você pode salvá-lo com o comando save (nós ignoraremos esse passo). Limpe os dados na memória antes de ir para a próxima seção. 4. Arquivo separado no espaço Considere um arquivo onde as variáveis são separadas por espaços como o mostrado abaixo. Observe que a marca do carro está contida entre aspas. Isso é necessário porque os nomes contêm espaços dentro deles. Sem as citações, Stata pensaria que a AMC é a marca e a Concord é o mpg. Se a marca não tivesse espaços incorporados dentro delas, aspas não seriam necessárias. Este arquivo pode ser lido com o comando infile como mostrado abaixo. Você pode estar perguntando a si mesmo, de onde veio o str13. Uma vez que a marca é uma variável de personagem, precisamos dizer à Stata que é uma variável de personagem e quanto tempo ela pode ser. O str13 diz a Stata que é uma variável stritch e que pode ter até 13 caracteres de largura. O comando da lista confirma que os dados foram lidos corretamente. Agora que o arquivo foi lido no Stata, você pode salvá-lo com o comando save (nós ignoraremos esse passo). Limpe os dados na memória antes de passar para a próxima seção. 5. Arquivo de formato fixo Considere um arquivo usando dados de coluna fixa como o mostrado abaixo. Observe que as variáveis são claramente definidas por qual coluna (s) elas estão localizadas. Além disso, note que a marca do carro não está contida entre aspas. As citações não são necessárias porque as colunas definem onde a marca começa e termina, e os espaços incorporados já não criam confusão. Este arquivo pode ser lido com o comando infix como mostrado abaixo. Aqui novamente, precisamos dizer a Stata que faz é uma variável de strings, fazendo preceder com str. Não precisamos indicar o comprimento, uma vez que a Stata pode inferir que a marca pode ter até 13 caracteres de largura com base nas localizações das colunas. O comando da lista confirma que os dados foram lidos corretamente. Agora que o arquivo foi lido no Stata, você pode salvá-lo com o comando save (nós ignoraremos esse passo). Limpe os dados na memória antes de passar para a próxima seção. 6. Outros métodos para obter dados no Stata Isso não abrange todos os métodos possíveis para obter dados brutos no Stata, mas cobre muitas situações comuns. Consulte o Guia do Usuário do Stata para obter informações mais abrangentes sobre a leitura de dados brutos no Stata. Outro método que deve ser mencionado é o uso de programas de conversão de dados. Esses programas podem converter dados de um formato de arquivo para outro formato de arquivo. Por exemplo, eles poderiam criar diretamente um arquivo Stata a partir de uma planilha do Excel, uma planilha do Lotus, um banco de dados Access, um banco de dados Dbase, um arquivo de dados SAS, um arquivo do sistema SPSS, etc. Dois desses exemplos são Stat Transfer e DBMS Copy. Ambos os produtos estão disponíveis em PCs SSC e a cópia DBMS está disponível em Nicco e Aristóteles. Finalmente, se você estiver usando o Nicco, o Aristotle ou o RS6000 Cluster, existe um comando específico para converter dados do SAS em Stata chamado sas2stata. Se você tiver dados SAS que deseja converter para o Stata, esta pode ser uma maneira útil de obter seus dados SAS no Stata. 7. Resumo Traga o editor de dados Stata para digitar dados. Leia no arquivo delimitado por vírgulas ou tabulações chamado auto2.raw, levando os nomes das variáveis da primeira linha de dados. Leia no arquivo delimitado por vírgulas ou tabulações chamado auto3.raw nomeando as variáveis mpg peso e preço. Leia no arquivo separado do espaço chamado auto4.raw. A variável make é cercada por aspas porque tem espaços em branco embutidos. Leia no arquivo de formato fixo chamado auto5.raw. Outros métodos DBMSCopy, Stat Transfer, sas2stata e Stata Guia do Usuário. O conteúdo deste site não deve ser interpretado como um endosso de qualquer site, livro ou produto de software específico da Universidade da Califórnia. Bem-vindo ao Instituto de Pesquisa e Educação Digital Módulo de Aprendizado Stata Usando datas em Stata Este módulo irá mostrar Como usar variáveis de data, funções de data e formatos de exibição de data em Stata. Conversão de datas de dados brutos usando a função quotdate () Quot O truque para inserir datas em Stata é esquecer que são datas e tratá-las como seqüências de caracteres e depois convertê-las em uma variável de data Stata. Você pode ter os seguintes dados de data em seu arquivo de dados brutos. Você pode ler esses dados digitando: Usando o comando de lista, você pode ver que a informação da data foi lida corretamente no bday. Uma vez que bday é uma variável de string, você não pode fazer qualquer tipo de cálculo de data com ela até que você faça uma variável de data dela. Você pode gerar uma versão de data de bday usando a função date (). O exemplo abaixo cria uma variável de data chamada aniversário a partir da variável de personagem bday. A sintaxe é ligeiramente diferente dependendo da versão do Stata que você está usando. A diferença está na forma como o padrão é especificado. Em Stata 9, deve ser minúscula (por exemplo, quotdmyquot) e no Stata 10, deve ser maiúscula para o dia, o mês e o ano (por exemplo, quotDMYquot), mas caso seja necessário, especifique horas, minutos ou segundos (por exemplo, quotDMYhmsquot) . Nossos dados estão no dia da ordem, mês, ano, então usamos quotDMYquot (ou quotdmyquot se você estiver usando Stata 9) dentro do comando date (). (Salvo indicação em contrário, todos os outros comandos da Stata nesta página são os mesmos para as versões 9 e 10.) Na versão do Stata 9: na versão 10 do Stata: Dê uma olhada em bday e aniversário. Os valores para aniversário podem parecer confusos. O valor de aniversário para John é 0 eo valor de aniversário para Mark é -207. As datas são realmente armazenadas como o número de dias a partir de 1 de janeiro de 1960, o que é conveniente para o computador armazenando e executando cálculos de data, mas é difícil para você e para eu ler. Podemos dizer a Stata que o aniversário deve ser exibido usando o formato d para facilitar a leitura dos humanos. A função date () é muito flexível e pode manusear as datas escritas em quase qualquer maneira. Por exemplo, considere o arquivo datas2.raw. Estas datas são confusas, mas são consistentes. Mesmo que os formatos pareçam diferentes, é sempre um mês de ano do dia separado por um delimitador (por exemplo, ponto de barra espacial ou traço). Podemos tentar usar a sintaxe acima para ler nossas novas datas. Observe que, como discutido acima, para a versão 10 do Stata, a ordem da data é declarada em letras maiúsculas (ou seja, quotMDYquot) enquanto que para a versão 9 é declarada em todas as minúsculas (ou seja, quotmdyquot). A Stata conseguiu ler essas datas sem problemas. Vamos tentar um conjunto de datas ainda mais difícil. Por exemplo, considere as datas em datas3.raw. Vamos tentar ler essas datas e ver como a Stata as lida. Mais uma vez, lembre-se de que, para as datas da versão 14 da Stata, são declaradas quotMDYquot, enquanto que para a versão 9 são declaradas quotmdyquot. Como você pode ver, a Stata conseguiu lidar com quase todos esses formatos de data louca. Foi capaz de lidar com Abr 12,1990, embora não existisse um delimitador entre o mês eo dia (Stata conseguiu descobrir que o mês era um personagem e o dia era um número). A única data que não funcionou foi abril de 1991 e isso ocorre porque não havia delimitador entre o dia eo ano. Como você pode ver, a função data () pode lidar com qualquer data, desde que existam delimitadores que separam o mês dia e ano. Em certos casos, a Stata pode ler todas as datas numéricas inseridas sem delimitadores, veja as datas de ajuda para obter mais informações. Conversão de datas de dados brutos usando a função mdy () Em alguns casos, você pode ter o mês, dia e ano armazenados como variáveis numéricas em um conjunto de dados. Por exemplo, você pode ter os seguintes dados para datas de nascimento de datas4.raw. Você pode ler esses dados usando a seguinte sintaxe para criar uma variável separada por mês, dia e ano. Uma variável de data Stata pode ser criada usando a função mdy () como mostrado abaixo. Permite formatar o aniversário usando o formato d para que ele seja melhor. Considere os dados em datas5raw. Que é o mesmo que datas4.raw, exceto que apenas dois dígitos são usados para significar o ano. Vamos tentar ler essas datas exatamente como lemos datas4.raw. Como você pode ver, todos os valores para aniversários estão faltando. Isso porque Stata assume que os anos foram literalmente 48, 60, 70 e 71 (não assume que são 1948, 1960, 1970 e 1971). Você pode forçar Stata a assumir que a parcela do século é 1900, adicionando 1900 ao ano conforme mostrado abaixo (note que usamos substituir em vez de gerar desde que a variável aniversário já existe). Cálculos com datas decorridas As variáveis de data fazem cálculos envolvendo datas muito convenientes. Por exemplo, para calcular a idade de todos em 1 de janeiro de 2000, use simplesmente a seguinte conversão. Por favor, note que esta fórmula para a idade não funciona bem em períodos muito curtos. Por exemplo, a idade para uma criança em seu aniversário será menor do que uma devido ao uso de 365,25. Existem fórmulas mais exatas, mas também muito mais complexas. Aqui está um exemplo de cortesia de Dan Blanchette. Outras funções de data Dada uma variável de data, um pode ter o mês, dia e ano retornados separadamente se desejado, usando o mês (). Funções dia () e ano (), respectivamente. Se você gostaria de retornar o dia da semana para uma variável de data, use a função dow () (onde 0Sunday, 1Monday, etc.). A função date () converte strings contendo datas para variáveis de data. A sintaxe varia ligeiramente pela versão. Na versão do Stata 9: no Stata versão 10: a função mdy () leva três argumentos numéricos (mês, dia, ano) e converte-os em uma variável de data. Você pode exibir os tempos decorridos como datas reais com formatos de exibição, como o formato d. Outras funções de data incluem o mês (). dia() . Ano (). E dow () funções. Para obter ajuda on-line com datas, digite as datas de ajuda na linha de comando. Para obter explicações mais detalhadas sobre como o Stata lida com datas e funções de data, consulte o Guia do Usuário do Stata. O conteúdo deste site não deve ser interpretado como um endosso de qualquer site, livro ou produto de software específico da Universidade da Califórnia.
No comments:
Post a Comment