Bem-vindo ao Instituto de Pesquisa e Educação Digital Stata Web Books Regressão com Stata Capítulo 2 - Diagnóstico de Regressão Resumo do Capítulo 2.0 Diagnóstico de Regressão 2.1 Dados incomuns e influentes 2.2 Verificação da Normalidade de Residuais 2.3 Verificação da Homoscedasticidade 2.4 Verificação da Multicollinearidade 2.5 Verificar Linearidade 2.6 Especificação do Modelo 2.7 Problemas Da Independência 2.8 Resumo 2.9 Auto-avaliação 2.10 Para mais informações 2.0 Diagnósticos de regressão No capítulo anterior, aprendemos a fazer regressão linear ordinária com a Stata, concluindo com métodos para examinar a distribuição de nossas variáveis. Sem verificar se seus dados atendem aos pressupostos subjacentes à regressão OLS, seus resultados podem ser enganadores. Este capítulo irá explorar como você pode usar o Stata para verificar a forma como seus dados atendem aos pressupostos da regressão OLS. Em particular, consideraremos os seguintes pressupostos. Linearidade - as relações entre os preditores e a variável de resultado devem ser linear Normalidade - os erros devem ser normalmente distribuídos - tecnicamente, a normalidade é necessária somente para que os testes de hipóteses sejam válidos, a estimativa dos coeficientes requer apenas que os erros sejam distribuídos de forma idêntica e independente Homogeneidade De variância (homoscedasticidade) - a variação do erro deve ser constante Independência - os erros associados a uma observação não estão correlacionados com os erros de qualquer outra observação. Erros nas variáveis - as variáveis preditoras são medidas sem erro (abordaremos isso no Capítulo 4) Modelo Especificação - o modelo deve ser devidamente especificado (incluindo todas as variáveis relevantes e excluindo variáveis irrelevantes) Além disso, existem problemas que podem surgir durante a análise que, embora estritamente falando não são pressupostos de regressão, são, no entanto, de grande preocupação para Analistas de dados. Influência - observações individuais que exercem uma influência indevida sobre os coeficientes. Os pesquisadores de colinearidade - altamente prediais que são altamente colineares, ou seja, relacionados linearmente, podem causar problemas na estimativa dos coeficientes de regressão. Muitos métodos gráficos e testes numéricos foram desenvolvidos ao longo dos anos para diagnósticos de regressão. A Stata tem muitos desses métodos incorporados, e outros estão disponíveis, que podem ser baixados pela internet. Em particular, Nicholas J. Cox (Universidade de Durham) produziu uma coleção de comandos de conveniência que podem ser baixados do SSC (ssc install commandname). Esses comandos incluem indexação. Rvfplot2. Rdplot. Qfrplot e ovfplot. Neste capítulo, exploraremos esses métodos e mostraremos como verificar os pressupostos de regressão e detectar potenciais problemas usando o Stata. 2.1 Dados incomuns e influentes Uma observação única que é substancialmente diferente de todas as outras observações pode fazer uma grande diferença nos resultados de sua análise de regressão. Se uma única observação (ou pequeno grupo de observações) muda substancialmente seus resultados, você gostaria de saber sobre isso e investigar mais. Existem três maneiras pelas quais uma observação pode ser incomum. Outliers. Na regressão linear, um outlier é uma observação com grande residual. Em outras palavras, é uma observação cujo valor de variável dependente é incomum, dado seus valores nas variáveis preditoras. Um outlier pode indicar uma peculiaridade da amostra ou pode indicar um erro de entrada de dados ou outro problema. Alavancagem. Uma observação com um valor extremo em uma variável preditora é chamada de ponto com alavanca alta. A vantagem é uma medida de quão longe uma observação se desvia da média dessa variável. Esses pontos de alavancagem podem ter um efeito sobre a estimativa dos coeficientes de regressão. Influência. Observa-se que uma observação é influente se a remoção da observação altera substancialmente a estimativa dos coeficientes. A influência pode ser considerada como o produto da alavancagem e outlierness. Como podemos identificar esses três tipos de observações Vamos ver um exemplo de conjunto de dados chamado crime. Este conjunto de dados aparece em Métodos Estatísticos para Ciências Sociais, Terceira Edição de Alan Agresti e Barbara Finlay (Prentice Hall, 1997). As variáveis são ID de estado (sid), nome do estado (estado), crimes violentos por 100.000 pessoas (crime), assassinatos por 1.000.000 (assassinato), a porcentagem da população que vive em áreas metropolitanas (pctmetro), a porcentagem da população que É branco (pctwhite), porcentagem de população com educação secundária ou superior (pcths), porcentagem de população vivendo abaixo da linha de pobreza (pobreza) e porcentagem de população que é mãe solteira (única). Digamos que queremos prever o crime pelo pctmetro. Pobreza. E solteiro. Ou seja, queremos construir um modelo de regressão linear entre o crime variável de resposta e as variáveis independentes pctmetro. Pobreza e solteira. Em primeiro lugar, analisaremos as dispersões de crimes contra cada uma das variáveis preditoras antes da análise de regressão, então teremos algumas idéias sobre problemas potenciais. Podemos criar uma matriz de dispersão dessas variáveis como mostrado abaixo. Os gráficos do crime com outras variáveis mostram alguns problemas potenciais. Em cada gráfico, vemos um ponto de dados que está longe do resto dos pontos de dados. Permite criar gráficos individuais de crime com pctmetro e pobreza e solteiros para que possamos ter uma visão melhor desses pontos de dispersão. Vamos adicionar a opção mlabel (estado) para rotular cada marcador com o nome do estado para identificar estados periféricos. Todas as parcelas de dispersão sugerem que a observação para o estado dc é um ponto que requer atenção extra, uma vez que se destaca de todos os outros pontos. Nós teremos isso em mente quando fizermos nossa análise de regressão. Agora, vamos tentar o comando de regressão que prevê o crime da pctmetro pobreza e solteiro. Iremos passo a passo para identificar todos os pontos potencialmente incomuns ou influentes depois. Examinamos os resíduos estudados como um primeiro meio para identificar outliers. Abaixo, usamos o comando predizer com a opção rstudent para gerar resíduos estudados e nós denominamos os resíduos r. Podemos escolher qualquer nome que desejamos, desde que seja um nome de variável legal da Stata. Os resíduos estudados são um tipo de resíduo padronizado que pode ser usado para identificar outliers. Vamos examinar os resíduos com uma parcela de caule e folha. Vemos três resíduos que ficam para fora, -3,57, 2,62 e 3,77. A exibição de haste e folha nos ajuda a ver alguns outliers potenciais, mas não podemos ver qual estado (quais observações) são possíveis outliers. Permite classificar os dados sobre os resíduos e mostrar os 10 maiores e 10 menores resíduos, juntamente com o ID do estado e o nome do estado. Observe que no comando da segunda lista o -10l o último valor é a letra quotlquot, NÃO o número um. Devemos prestar atenção aos resíduos estudados que excedem 2 ou -2 e ficar ainda mais preocupados com os resíduos que excedem 2,5 ou -2,5 e ainda mais preocupados com os resíduos que excedem 3 ou -3. Estes resultados mostram que DC e MS são as observações mais preocupantes seguidas por FL. Outra maneira de obter esse tipo de saída é com um comando chamado hilo. Você pode fazer o download do hilo dentro do Stata, digitando findit hilo (consulte Como eu usei o comando findit para procurar programas e obter ajuda adicional para obter mais informações sobre o uso do findit). Uma vez instalado, você pode digitar o seguinte e obter uma saída semelhante à acima, digitando apenas um comando. Mostra todas as variáveis em nossa regressão, onde o residencial estudado excede 2 ou -2, ou seja, onde o valor absoluto do residual excede 2. Nós vemos os dados para os três outliers potenciais que identificamos, a saber, Florida, Mississippi e Washington DC Looking Com cuidado nessas três observações, não conseguimos encontrar nenhum erro de entrada de dados, embora possamos querer fazer outra análise de regressão com o ponto extremo, como DC excluído. Voltaremos a esta questão mais tarde. Agora, procuremos as alavancas para identificar observações que terão uma grande influência nas estimativas de coeficientes de regressão. Usamos o show (5) opções altas no comando hilo para mostrar apenas as 5 maiores observações (a opção alta pode ser abreviada como h). Vemos que a DC tem a maior alavancagem. Geralmente, um ponto com alavancagem superior a (2k2) n deve ser cuidadosamente examinado. Aqui k é o número de preditores e n é o número de observações. No nosso exemplo, podemos fazer o seguinte. Como vimos, a DC é uma observação de que ambos possuem grande alavanca residual e grande. Tais pontos são potencialmente os mais influentes. Podemos fazer uma trama que mostra a alavancagem pelo quadrado residual e procurar observações que sejam conjuntamente elevadas em ambas as medidas. Podemos fazer isso usando o comando lvr2plot. Lvr2plot significa alavancagem versus parcela quadrada residual. Usando o quadrado residual em vez do próprio resíduo, o gráfico é restrito ao primeiro quadrante e as posições relativas dos pontos de dados são preservadas. Esta é uma maneira rápida de verificar possíveis observações influentes e outliers ao mesmo tempo. Ambos os tipos de pontos são de grande preocupação para nós. As duas linhas de referência são o meio de alavancagem, horizontal e para o restante normalizado ao quadrado, vertical. Os pontos que chamam nossa atenção imediatamente são DC (com a maior alavancagem) e MS (com o maior quadrado residual). Bem, olhe essas observações com mais cuidado listando-as. Agora vamos avançar para medidas gerais de influência, especificamente vamos olhar Cooks D e DFITS. Essas medidas combinam informações sobre o residual e alavancagem. Cozinheiros D e DFITS são muito semelhantes, exceto que eles variam de forma diferente, mas nos dão respostas semelhantes. O valor mais baixo que Cooks D pode assumir é zero, e quanto maior for o Cooks D, mais influente será o ponto. O ponto de corte da convenção é 4n. Podemos listar qualquer observação acima do ponto de corte, fazendo o seguinte. Verificamos que o Cooks D para DC é, de longe, o maior. Agora vamos dar uma olhada no DFITS. O ponto de corte para DFITS é 2sqrt (kn). DFITS pode ser positivo ou negativo, com números próximos de zero correspondentes aos pontos com influência pequena ou zero. Como vemos, dfit também indica que DC é, de longe, a observação mais influente. As medidas acima são medidas gerais de influência. Você também pode considerar medidas de influência mais específicas que avaliam como cada coeficiente é alterado pela exclusão da observação. Esta medida é chamada DFBETA e é criada para cada um dos preditores. Aparentemente, isso é mais intensivo em computação do que estatísticas resumidas, como Cooks D, pois quanto mais preditores um modelo tem, mais computação pode envolver. Podemos restringir nossa atenção apenas aos preditores com os quais nos preocupamos com a percepção de como eles são bem predisformados. Em Stata, o comando dfbeta produzirá os DFBETAs para cada um dos preditores. Os nomes das novas variáveis criadas são escolhidos pela Stata automaticamente e começam pelas letras DF. Isso criou três variáveis, DFpctmetro. DFpoverty e DFsingle. Vamos ver os primeiros 5 valores. O valor para DFsingle para o Alasca é de .14, o que significa que, ao ser incluído na análise (em comparação com a exclusão), o Alaska aumenta o coeficiente de solteiro em 0,14 erros padrão, ou seja, 14 vezes o erro padrão para BSingle ou por 0,14 15.5). Uma vez que a inclusão de uma observação pode contribuir para um aumento ou diminuição de um coeficiente de regressão, os DFBETA podem ser positivos ou negativos. Um valor DFBETA acima de 2sqrt (n) merece mais investigação. Neste exemplo, estaríamos preocupados com valores absolutos superiores a 2sqrt (51) ou .28. Podemos traçar todos os três valores DFBETA contra o ID do estado em um gráfico mostrado abaixo. Nós adicionamos uma linha em .28 e -28 para nos ajudar a ver observações potencialmente problemáticas. Nós vemos que o maior valor é cerca de 3.0 para DFsingle. Podemos repetir este gráfico com a opção mlabel () no comando do gráfico para rotular os pontos. Com o gráfico acima, podemos identificar qual DFBeta é um problema e, com o gráfico abaixo, podemos associar essa observação ao estado de origem. Agora, vamos listar essas observações com DFsingle maior do que o valor de corte. A tabela a seguir resume as regras gerais que usamos para essas medidas para identificar observações dignas de investigação posterior (onde k é o número de preditores e n é o número de observações). Usamos o comando predito para criar uma série de variáveis associadas à análise de regressão e ao diagnóstico de regressão. O comando de regressão de ajuda não só fornece ajuda no comando de regressão, mas também lista todas as estatísticas que podem ser geradas através do comando de previsão. Abaixo mostramos um fragmento do arquivo de ajuda do Stata ilustrando as várias estatísticas que podem ser computadas através do comando de previsão. Nós exploramos uma série de estatísticas que podemos obter após o comando de regressão. Existem também vários gráficos que podem ser usados para pesquisar observações incomuns e influentes. O comando Avplot grafica um gráfico de variáveis adicionadas. Também é chamado de gráfico de regressão parcial e é muito útil na identificação de pontos influentes. Por exemplo, no avplot para um único mostrado abaixo, o gráfico mostra o crime por solteira, após o crime e o single terem sido ajustados para todos os outros preditores no modelo. A linha traçada tem a mesma inclinação que o coeficiente para uma única. Esta trama mostra como a observação para DC influencia o coeficiente. Você pode ver como a linha de regressão é puxada para cima tentando se encaixar no valor extremo de DC. O Alasca e a Virgínia Ocidental também podem exercer influência substancial sobre o coeficiente de solteiro. A Stata também possui o comando avplots que cria um gráfico variável adicionado para todas as variáveis, o que pode ser muito útil quando você possui muitas variáveis. Ele produz pequenos gráficos, mas esses gráficos podem revelar rapidamente se você tem observações problemáticas com base nas parcelas variáveis adicionadas. DC apareceu como um outlier, bem como um ponto influente em cada análise. Como a DC não é realmente um estado, podemos usar isso para justificar a omissão da análise dizendo que realmente queremos apenas analisar os estados. Primeiro, vamos repetir a nossa análise, incluindo a DC, apenas digitando regredir. Agora, vamos executar a análise omitindo DC, incluindo se o quotdcquot do estado no comando regress (aqui significa quotnot igual aqual, mas você também pode usar para significar a mesma coisa). Como esperamos, a exclusão de DC fez uma grande alteração no coeficiente para solteiro. O coeficiente para solteiro caiu de 132,4 para 89,4. Depois de ter excluído DC, repetimos o processo que ilustramos nesta seção para pesquisar quaisquer outras observações periféricas e influentes. Finalmente, mostramos que o comando avplot pode ser usado para procurar valores abertos entre as variáveis existentes em seu modelo, mas devemos notar que o comando avplot não funciona apenas para as variáveis no modelo, também funciona para variáveis que não estão no Modelo, e é por isso que ele se chama parcela variável adicionada. Permite usar a regressão que inclui DC, pois queremos continuar a ver o mal comportamento causado pela DC como demonstração para fazer diagnósticos de regressão. Podemos fazer um avplot no variável pctwhite. No topo da trama, temos quotcoef-3.509quot. É o coeficiente de pctwhite se foi colocado no modelo. Podemos verificar isso fazendo uma regressão como abaixo. Nesta seção, exploramos uma série de métodos para identificar pontos aberrantes e pontos influentes. Em uma análise típica, você provavelmente usaria apenas alguns desses métodos. De um modo geral, existem dois tipos de métodos para avaliação de outliers: estatísticas como resíduos, alavancagem, Cooks D e DFITS, que avaliam o impacto geral de uma observação sobre os resultados de regressão e estatísticas como DFBETA que avaliam o impacto específico de um Observação sobre os coeficientes de regressão. No nosso exemplo, descobrimos que a DC era um ponto de maior preocupação. Realizamos uma regressão com ela e sem ela e as equações de regressão eram muito diferentes. Podemos justificar removê-lo de nossa análise argumentando que nosso modelo é prever a taxa de criminalidade para os estados, não para as áreas metropolitanas. 2.2 Verificar a normalidade dos resíduos Muitos pesquisadores acreditam que a regressão múltipla exige normalidade. Este não é o caso. A normalidade dos resíduos é necessária somente para testes de hipóteses válidos, ou seja, a suposição de normalidade assegura que os valores de p para os testes t e F-test serão válidos. A normalidade não é necessária para obter estimativas imparciais dos coeficientes de regressão. A regressão OLS exige apenas que os resíduos (erros) sejam distribuídos de forma idêntica e independente. Além disso, não há suposição ou requisito de que as variáveis preditoras sejam normalmente distribuídas. Se esse fosse o caso, não poderíamos usar variáveis codificadas falsas em nossos modelos. Depois de executar uma análise de regressão, podemos usar o comando predizer para criar resíduos e depois usar comandos como kdensity. Qnorm e Pnorm para verificar a normalidade dos resíduos. Permite usar o arquivo de dados elemapi2 que vimos no Capítulo 1 para essas análises. Prever o desempenho acadêmico (api00) de porcentagem recebendo refeições gratuitas (refeições), porcentagem de aprendentes de língua inglesa (ell) e porcentagem de professores com credenciais de emergência (emer). Em seguida, usamos o comando predizer para gerar resíduos. Abaixo, usamos o comando kdensity para produzir um gráfico de densidade de kernel com a opção normal, solicitando que uma densidade normal seja sobreposta no gráfico. Kdensity significa estimativa de densidade de kernel. Pode ser pensado como um histograma com caixas estreitas e média móvel. O comando pnorm grafica uma trama de probabilidade normal padronizada (P-P) enquanto qnorm traça os quantiles de uma variável contra os quantiles de uma distribuição normal. Pnorm é sensível à não-normalidade no intervalo médio de dados e qnorm é sensível à não-normalidade perto da cauda. Como você vê abaixo, os resultados do pnorm não mostram indicações de não-normalidade, enquanto o comando qnorm mostra um ligeiro desvio do normal na parte superior da cauda, como pode ser visto na kdensidade acima. No entanto, isso parece ser um desvio menor e trivial da normalidade. Podemos aceitar que os resíduos estão próximos de uma distribuição normal. Também há testes numéricos para testar a normalidade. Um dos testes é o teste escrito por Lawrence C. Hamilton, Departamento de Sociologia, Univ. De New Hampshire, chamado iqr. Você pode obter este programa da Stata digitando findit iqr (veja Como eu usei o comando findit para procurar programas e obter ajuda adicional para obter mais informações sobre o uso do findit). Iqr significa intervalo inter-quartil e assume a simetria da distribuição. Os outliers graves consistem nos pontos que são 3 intervalos entre quartil abaixo do primeiro quartil ou 3 intervalos entre quartil acima do terceiro quartil. A presença de outliers severos deve ser evidência suficiente para rejeitar a normalidade em um nível de significância de 5. Os outliers leves são comuns em amostras de qualquer tamanho. No nosso caso, não temos crises aberrantes severas e a distribuição parece bastante simétrica. Os resíduos têm uma distribuição aproximadamente normal. Outro teste disponível é o teste swilk que executa o teste Shapiro-Wilk W para a normalidade. O valor p é baseado no pressuposto de que a distribuição é normal. No nosso exemplo, é muito grande (.51), indicando que não podemos rejeitar que r normalmente é distribuído. 2.3 Verificação da Homoscedasticidade dos Residuais Um dos principais pressupostos para a regressão dos mínimos quadrados ordinários é a homogeneidade da variância dos resíduos. Se o modelo estiver bem equipado, não deve haver padrão para os resíduos plotados em relação aos valores ajustados. Se a variância dos resíduos não for constante, então a variância residual é citada como quoteteroscedástica. Existem métodos gráficos e não-gráficos para detectar a heteroscedasticidade. Um método gráfico comumente usado é traçar os valores de resíduos versus valores ajustados (previstos). Fazemos isso emitindo o comando rvfplot. Abaixo, usamos o comando rvfplot com a opção yline (0) para colocar uma linha de referência em y0. Vemos que o padrão dos pontos de dados está ficando um pouco mais estreito para o lado direito, o que é uma indicação de heterocedasticidade. Agora, olhemos para alguns comandos que testam a heteroscedasticidade. O primeiro teste sobre heterocedasticidade dado por imest é o teste dos brancos e o segundo dado por Hettest é o teste Breusch-Pagan. Ambos testam a hipótese nula de que a variância dos resíduos é homogênea. Portanto, se o valor p for muito pequeno, teremos que rejeitar a hipótese e aceitar a hipótese alternativa de que a variância não é homogênea. Portanto, neste caso, a evidência é contra a hipótese nula de que a variância é homogênea. Esses testes são muito sensíveis aos pressupostos do modelo, como o pressuposto de normalidade. Portanto, é uma prática comum combinar os testes com parcelas diagnósticas para julgar a gravidade da heteroscedasticidade e decidir se é necessária alguma correção para a heteroscedasticidade. No nosso caso, o gráfico acima não mostra evidências muito fortes. Então, não vamos entrar em detalhes sobre como corrigir a heteroscedasticidade, embora haja métodos disponíveis. 2.4 Verificar a multicanalinidade Quando existe uma relação linear perfeita entre os preditores, as estimativas para um modelo de regressão não podem ser calculadas de forma exclusiva. O termo colinearidade implica que duas variáveis são quase perfeitas combinações lineares entre si. Quando mais de duas variáveis estão envolvidas, muitas vezes é chamada de multicolinearidade, embora os dois termos sejam freqüentemente usados indistintamente. A principal preocupação é que, à medida que o grau de multicolinearidade aumenta, as estimativas do modelo de regressão dos coeficientes tornam-se instáveis e os erros padrão para os coeficientes podem ficar inflado. Nesta seção, exploraremos alguns comandos da Stata que ajudam a detectar a multicolinearidade. Podemos usar o comando vif após a regressão para verificar a multicolinearidade. Vif significa fator de inflação variância. Como regra geral, uma variável cujos valores de VIF são maiores do que 10 pode merecer mais investigação. A tolerância, definida como 1VIF, é usada por muitos pesquisadores para verificar o grau de colinearidade. Um valor de tolerância inferior a 0,1 é comparável a um VIF de 10. Isso significa que a variável pode ser considerada como uma combinação linear de outras variáveis independentes. Vamos primeiro olhar para a regressão que fizemos na última seção, o modelo de regressão que prevê api00 de refeições, ell e emer e, em seguida, emitir o comando vif. Os VIFs ficam bem aqui. Aqui está um exemplo em que os VIFs são mais preocupantes. Neste exemplo, os valores de VIF e tolerância (1VIF) para gradsch e colgrad avançados são preocupantes. Todas essas variáveis medem a educação dos pais e os valores VIF muito altos indicam que essas variáveis são possivelmente redundantes. Por exemplo, depois de conhecer o gradsch e o colgrad. Você provavelmente pode prever avged muito bem. Neste exemplo, a multicolinealidade surge porque colocamos muitas variáveis que medem a mesma coisa, a educação dos pais. Deixar omitir uma das variáveis de educação dos pais, avental. Observe que os valores de VIF na análise abaixo aparecem muito melhores. Além disso, observe como os erros padrão são reduzidos para as variáveis de educação dos pais, gradsch e colgrad. Isso ocorre porque o alto grau de colinearidade causou a inflação dos erros padrão. Com a multicolinearidade eliminada, o coeficiente para gradsch. Que não era significativo, agora é significativo. Posicione outro comando sobre colinearidade. O comando collins mostra várias medidas diferentes de colinearidade. Por exemplo, podemos testar a colinearidade entre as variáveis que usamos nos dois exemplos acima. Observe que o comando collin não precisa ser executado em conexão com um comando de regressão, ao contrário do comando vif que segue um comando de regressão. Observe também que apenas as variáveis preditoras (independentes) são usadas com o comando collin. Você pode baixar o collin dentro do Stata digitando findit collin (consulte Como eu usei o comando findit para procurar programas e obter ajuda adicional para obter mais informações sobre o uso do findit). Agora removemos avged e veremos os diagnósticos de colinearidade melhorar consideravelmente. O número da condição é um índice comummente utilizado da instabilidade global dos coeficientes de regressão - um grande número de condição, 10 ou mais, é uma indicação de instabilidade. 2.5 Verificar Linearidade Quando fazemos regressão linear, assumimos que a relação entre a variável de resposta e os preditores é linear. Esta é a hipótese de linearidade. Se essa suposição for violada, a regressão linear tentará ajustar uma linha direta aos dados que não seguem uma linha reta. Verificando a hipótese linear no caso da regressão simples é direta, já que temos apenas um preditor. Tudo o que temos a fazer é um gráfico de dispersão entre a variável de resposta eo preditor para ver se a não-linearidade está presente, como uma banda curvada ou uma grande curva em forma de onda. Por exemplo, lembre-se que fizemos uma regressão linear simples no Capítulo 1 usando o conjunto de dados elemapi2. Abaixo, usamos o comando de dispersão para mostrar um diagrama de dispersão que prevê que o api00 se inscreva e use o lfit para mostrar um ajuste linear e, em seguida, baixinho para mostrar uma predisposição mais suave e predatória para se inscrever. Verificamos claramente algum grau de não-linearidade. Verificar o pressuposto de linearidade não é tão direto no caso de regressão múltipla. Vamos tentar ilustrar algumas das técnicas que você pode usar. A coisa mais direta a fazer é traçar os resíduos padronizados contra cada uma das variáveis preditoras no modelo de regressão. Se houver um padrão não linear linear claro, existe um problema de não-linearidade. Caso contrário, devemos ver por cada uma das parcelas apenas uma dispersão aleatória de pontos. Vamos continuar usando o conjunto de dados elemapi2 aqui. Permite usar um modelo diferente. Os dois gráficos variáveis residuais versus preditores acima não indicam fortemente uma clara saída da linearidade. Outro comando para detectar não-linearidade é acprplot. Gráficos de ação um gráfico aumentado de componente-plus-residual, a. k.a. parcela residual parcial aumentada. Ele pode ser usado para identificar não-linearidades nos dados. Permite usar o comando acprplot para refeições e somecol e use as opções lowess lsopts (bwidth (1)) para solicitar o suavizado lowess com uma largura de banda de 1. No primeiro gráfico abaixo da linha suavizada está muito perto da linha de regressão normal e Todo o padrão parece bastante uniforme. A segunda parcela parece mais problemática no lado direito. Isso pode vir de alguns pontos influentes potenciais. No geral, eles não parecem muito ruins e não devemos estar muito preocupados com as não linearidades nos dados. Vimos como usar o acprplot para detectar a não-linearidade. No entanto, nosso último exemplo não mostrou muita não-linearidade. Vamos ver um exemplo mais interessante. Este exemplo é tirado de quotStatistics com Stata 5quot de Lawrence C. Hamilton (1997, Duxbery Press). O conjunto de dados que usaremos é chamado nations. dta. Podemos obter o conjunto de dados da Internet. Vamos construir um modelo que prevê a taxa de natalidade (nascimento), do produto nacional bruto per capita (gnpcap) e da população urbana (urbana). Se fosse uma análise de regressão completa, começaríamos por examinar as variáveis, mas com a finalidade de ilustrar a não-linearidade, iremos diretamente para a regressão. Agora, vamos fazer o teste em nossos preditores. O gráfico de acprplot para gnpcap mostra desvio claro da linearidade e o do urbano não mostra quase tanto desvio quanto a linearidade. Agora, olhemos mais detalhadamente essas variáveis. Observamos que a relação entre a taxa de natalidade eo produto nacional bruto per capita é claramente não linear e a relação entre a taxa de natalidade e a população urbana não está muito longe de ser linear. Então, vamos nos focar em gnpcap variável. Primeiro, olhemos para a distribuição do gnpcap. Suspeitamos que o gnpcap pode estar muito distorcido. Isso pode afetar a aparência do acprplot. Na verdade, é muito distorcido. Isso nos sugere que alguma transformação da variável pode ser necessária. Uma das transformações comumente usadas é a transformação do log. Vamos tentar aqui. A transformação parece ajudar a corrigir a nebulosidade grandemente. Em seguida, vamos fazer a regressão novamente substituindo gnpcap por lggnp. O gráfico acima mostra menos desvio da não-linearidade do que antes, embora o problema da não-linearidade ainda não tenha sido completamente resolvido. 2.6 Especificação do modelo Um erro de especificação do modelo pode ocorrer quando uma ou mais variáveis relevantes são omitidas do modelo ou uma ou mais variáveis irrelevantes estão incluídas no modelo. Se as variáveis relevantes forem omitidas do modelo, a variância comum que eles compartilham com as variáveis incluídas pode ser incorretamente atribuída a essas variáveis e o termo de erro está inflado. Por outro lado, se as variáveis irrelevantes estão incluídas no modelo, a variância comum que compartilham com as variáveis incluídas pode ser atribuída erroneamente a elas. Os erros de especificação do modelo podem afetar substancialmente a estimativa dos coeficientes de regressão. Considere o modelo abaixo. Esta regressão sugere que à medida que o tamanho das aulas aumenta, o desempenho acadêmico aumenta. Antes de publicarmos os resultados dizendo que o aumento do tamanho da turma está associado ao maior desempenho acadêmico, verificamos a especificação do modelo. Há alguns métodos para detectar erros de especificação. O comando linktest executa um teste de link de especificação modelo para modelos de equação única. O linktest baseia-se na ideia de que, se uma regressão for devidamente especificada, não é possível encontrar variáveis independentes adicionais que sejam significativas, exceto por acaso. Linktest cria duas novas variáveis, a variável de predição, hat. E a variável de previsão quadrada, hatsq. O modelo é então reposicionar usando estas duas variáveis como preditores. O chapéu deve ser significativo, pois é o valor previsto. Por outro lado, hatsq não deve, porque se o nosso modelo for especificado corretamente, as previsões ao quadrado não devem ter muito poder explicativo. Isso é que não esperamos que os chapéus sejam um preditor significativo se nosso modelo for especificado corretamente. Então, estaremos olhando o p-value para hatsq. Do linktest acima. O teste de hatsq não é significativo. Isto significa que o linktest não rejeitou a suposição de que o modelo está especificado corretamente. Portanto, parece-nos que não temos um erro de especificação. Mas agora, olhemos para outro teste antes de avançarmos para a conclusão. O comando ovtest realiza outro teste de especificação do modelo de regressão. Executa um teste de erro de especificação de regressão (RESET) para variáveis omitidas. A idéia por trás do ovtest é muito parecida com o linktest. Ele também cria novas variáveis com base nos preditores e repara o modelo usando essas novas variáveis para ver se qualquer delas seria significativa. Vamos tentar o ovtest em nosso modelo. O comando ovtest indica que existem variáveis omitidas. So we have tried both the linktest and ovtest . and one of them ( ovtest ) tells us that we have a specification error. We therefore have to reconsider our model. Lets try adding the variable full to the model. Now, both the linktest and ovtest are significant, indicating we have a specification error. Lets try adding one more variable, meals . to the above model. The linktest is once again non-significant while the p-value for ovtest is slightly greater than .05. Note that after including meals and full . the coefficient for class size is no longer significant. While acsk3 does have a positive relationship with api00 when no other variables are in the model, when we include, and hence control for, other important variables, acsk3 is no longer significantly related to api00 and its relationship to api00 is no longer positive . linktest and ovtest are tools available in Stata for checking specification errors, though linktest can actually do more than check omitted variables as we used here, e. g. checking the correctness of link function specification. For more details on those tests, please refer to Stata manual. 2.7 Issues of Independence The statement of this assumption that the errors associated with one observation are not correlated with the errors of any other observation cover several different situations. Consider the case of collecting data from students in eight different elementary schools. It is likely that the students within each school will tend to be more like one another than students from different schools, that is, their errors are not independent. We will deal with this type of situation in Chapter 4 when we demonstrate the regress command with cluster option. Another way in which the assumption of independence can be broken is when data are collected on the same variables over time. Lets say that we collect truancy data every semester for 12 years. In this situation it is likely that the errors for observation between adjacent semesters will be more highly correlated than for observations more separated in time. This is known as autocorrelation. When you have data that can be considered to be time-series you should use the dwstat command that performs a Durbin-Watson test for correlated residuals. We dont have any time-series data, so we will use the elemapi2 dataset and pretend that snum indicates the time at which the data were collected. We will also need to use the tsset command to let Stata know which variable is the time variable. The Durbin-Watson statistic has a range from 0 to 4 with a midpoint of 2. The observed value in our example is very small, close to zero, which is not surprising since our data are not truly time-series. A simple visual check would be to plot the residuals versus the time variable. In this chapter, we have used a number of tools in Stata for determining whether our data meets the regression assumptions. Below, we list the major commands we demonstrated organized according to the assumption the command was shown to test. Detecting Unusual and Influential Data predict -- used to create predicted values, residuals, and measures of influence. rvpplot --- graphs a residual-versus-predictor plot. rvfplot -- graphs residual-versus-fitted plot. lvr2plot -- graphs a leverage-versus-squared-residual plot. dfbeta -- calculates DFBETAs for all the independent variables in the linear model. avplot -- graphs an added-variable plot, a. k.a. partial regression plot. Tests for Normality of Residuals kdensity -- produces kernel density plot with normal distribution overlayed. pnorm -- graphs a standardized normal probability (P-P) plot. qnorm --- plots the quantiles of varname against the quantiles of a normal distribution. iqr -- resistant normality check and outlier identification. swilk -- performs the Shapiro-Wilk W test for normality. Tests for Heteroscedasticity rvfplot -- graphs residual-versus-fitted plot. hettest -- performs Cook and Weisberg test for heteroscedasticity. whitetst -- computes the White general test for Heteroscedasticity. Tests for Multicollinearity vif -- calculates the variance inflation factor for the independent variables in the linear model. collin -- calculates the variance inflation factor and other multicollinearity diagnostics Tests for Non-Linearity acprplot -- graphs an augmented component-plus-residual plot. cprplot --- graphs component-plus-residual plot, a. k.a. residual plot. Tests for Model Specification linktest -- performs a link test for model specification. ovtest -- performs regression specification error test (RESET) for omitted variables. See the Stata Topics: Regression page for more information and resources on regression diagnostics in Stata. 2.9 Self Assessment 1 . The following data set consists of measured weight, measured height, reported weight and reported height of some 200 people. You can get it from within Stata by typing use ats. ucla. edustatstatawebbooksregdavis We tried to build a model to predict measured weight by reported weight, reported height and measured height. We did an lvr2plot after the regression and here is what we have. Explain what you see in the graph and try to use other STATA commands to identify the problematic observation(s). What do you think the problem is and what is your solution 2 . Using the data from the last exercise, what measure would you use if you want to know how much change an observation would make on a coefficient for a predictor For example, show how much change would it be for the coefficient of predictor reptht if we omit observation 12 from our regression analysis What are the other measures that you would use to assess the influence of an observation on regression What are the cut-off values for them 3 . The following data file is called bbwt. dta and it is from Weisbergs Applied Regression Analysis. You can obtain it from within Stata by typing use ats. ucla. edustatstatawebbooksregbbwt It consists of the body weights and brain weights of some 60 animals. We want to predict the brain weight by body weight, that is, a simple linear regression of brain weight against body weight. Show what you have to do to verify the linearity assumption. If you think that it violates the linearity assumption, show some possible remedies that you would consider. 4. We did a regression analysis using the data file elemapi2 in chapter 2. Continuing with the analysis we did, we did an avplot here. Explain what an avplot is and what type of information you would get from the plot. If variable full were put in the model, would it be a significant predictor 5 . The data set wage. dta is from a national sample of 6000 households with a male head earning less than 15,000 annually in 1966. You can get this data file by typing use ats. ucla. edustatstatawebbooksregwage from within Stata . The data were classified into 39 demographic groups for analysis. We tried to predict the average hours worked by average age of respondent and average yearly non-earned income. Both predictors are significant. Now if we add ASSET to our predictors list, neither NEIN nor ASSET is significant. Can you explain why 6. Continue to use the previous data set. This time we want to predict the average hourly wage by average percent of white respondents. Carry out the regression analysis and list the STATA commands that you can use to check for heteroscedasticity. Explain the result of your test(s). Now we want to build another model to predict the average percent of white respondents by the average hours worked. Repeat the analysis you performed on the previous regression model. Explain your results. 7 . We have a data set that consists of volume, diameter and height of some objects. Someone did a regression of volume on diameter and height. Explain what tests you can use to detect model specification errors and if there is any, your solution to correct it. Click here for our answers to these self assessment questions. 2.10 For more information2.9 Regression Diagnostics All of the diagnostic measures discussed in the lecture notes can be calculated in Stata, some in more than one way. In particular, you may want to read about the command predict after regress in the Stata manual. In this section we will be working with the additive analysis of covariance model of the previous section. To save typing the model each time we need it, we can define a local macro Now we can fit our model using the following command Let us start with the residuals. The easiest way to get them is as options of the predict command. Specify the option res for the raw residuals, rstand for the standardized residuals, and rstud for the studentized (or jackknifed) residuals. Let us obtain all three: To get the diagonal elements of the hat matrix and Cooks distance we use two more options of predict. hat and cook. We are now ready to print Table 2.29 in the notes Here is an easy way to find the cases highlighted in Table 2.29, those with standardized or jackknifed residuals greater than 2 in magnitude: We will use a scalar to calculate the maximum acceptable leverage, which is 2pn in general, and then list the cases exceeding that value (if any). We find that Haiti has a lot of leverage, but very little actual influence. Let us list the six most influential countries. I will do this by sorting the data in descending order of influence and then listing the first six. Statas regular sort command sorts only in ascending order, but gsort can do descending if you specify - di. Turns out that the D. R. Cuba, and Ecuador are fairly influential observations. Try refitting the model without the D. R. to verify what I say on page 57 of the lecture notes. Residual Plots On to plots Here is the standard residual plot in Figure 2.6, produced using the following commands: Now for that lovely Q-Q-plot in Figure 2.7 of the notes: Wasnt that easy Statas qnorm evaluates the inverse normal cdf at i(n1) rather than at (i-38)(n14) or some of the other approximations discussed in the notes. Of course you can use any approximation you want, at the expense of doing a bit more work. I will illustrate the general idea by calculating Fillibens approximation to the expected order statistics or rankits, using Statas built-in system variables n for the observation number and N for the number of cases. Fortunately the Filliben correlation agrees with the value in the notes: 0 .9655. I will skip the graph because it looks almost identical to the one produced by qnorm. Copie 2017 Germaacuten Rodriacuteguez, Universidade de Princeton
No comments:
Post a Comment