12.7 Modelo de regressão linear sob erros Normais
Embora o método dos mínimos quadrados forneça estimativas para \(a\) e \(b\), ele não nos diz nada sobre a incerteza dessas estimativas.
Não podemos fazer inferências estatísticas tais como construir intervalos de confiança ou realizar testes de hipóteses, a menos que façamos suposições adicionais sobre os erros do modelo.
Para realizar inferências estatísticas, introduzimos um modelo de regressão linear com erro normal, que assume:
- os erros ( \(\varepsilon_{i}\)) são variáveis aleatórias Normalmente distribuídas com média zero e variância constante (\(\sigma^{2}\)): \(\varepsilon_i \sim N(0, \sigma^2)\)
- os erros são independentes entre si
- a relação entre \(Y_i\) e \(X_i\) é linear, descrita pela equação \(Y_{i} = \alpha + \beta X_{i} + \varepsilon_{i}\)
12.7.1 Propriedades dos Estimadores sob Erro Normal
Demonstra-se que, para um modelo \(Y_{i}=\alpha+\beta\cdot X_{i}+\varepsilon_{i}\) que:
- \(b\) é um estimador não tendencioso do parâmetro \(\beta\) com:
\[ E\left(b\right)=\beta \\ \text{e} \\ Var\left(b\right)=\frac{{\sigma }^{2}}{{S}_{xx}} \]
- \(a\) é um estimador não tendencioso do parâmetro \(\alpha\) com:
\[ E\left(a\right)=\alpha\\ \text{e} \\ Var\left(a\right)={\sigma }^{2}\cdot \left(\frac{1}{n}+\frac{{\stackrel{-}{X}}^{2}}{{S}_{xx}}\right) \]
- \(\hat{\sigma^{2}}\) é um estimador não tendencioso de \(\sigma^{2}\):
\[ \hat{\sigma^{2}} = \text{QMR} = \frac{S_{yy} -b \cdot S{xy}}{n-2} \]
Assim as variâncias dos estimadores \(a\) e \(b\) serão,
\[ s_{b} = \sqrt{\frac{{\hat{\sigma}}^{2}}{{S}_{xx}}} = \sqrt{\frac{\text{QMRES}}{S_{xx}}} \]
\[ s_{a} = \sqrt{{\hat{\sigma} }^{2}\cdot \left(\frac{1}{n}+\frac{{\stackrel{-}{x}}^{2}}{{S}_{xx}}\right)} = \sqrt{\text{QMRES} \cdot \left(\frac{1}{n}+\frac{{\stackrel{-}{x}}^{2}}{{S}_{xx}}\right)} \]
lembrando que:
\[ S_{yy} = \sum (Y_i - \bar{Y})^2 \\ S_{xy} = \sum (X_i - \bar{X})(Y_i - \bar{Y}), \]
e \(n - 2\) representa os graus de liberdade, já que dois parâmetros (\(\alpha\) e \(\beta\)) são estimados.
12.7.2 Implicações da Normalidade
A normalidade dos resíduos \(\varepsilon_i\) garante que os estimadores \(a\) e \(b\) também sejam Normalmente distribuídos, o que é fundamental para realizar testes de hipóteses e construir intervalos de confiança nos modelos de regressão linear.
Isso permite o uso de distribuições de referência, como as distribuições \(t\) e \(F\), especialmente em amostras pequenas, onde a variância dos estimadores não pode ser assumida como conhecida com precisão.
Na estimação de um modelo de regressão linear simples com erro Normal (na forma \(Y=\beta_{0}+\beta_{1}X+ \varepsilon\)) muitas premissas preliminarmente como válidas deverão ser efetivamente verificadas a posteriori, na chamada etapa de diagnóstico do modelo, de modo a que a condução de inferências com esse modelo sejam dotada de razoável segurança.
Essas premissas podem ser classificadas em quatro categorias:
- linearidade da relação entre a variável preditora \(X\) e a variável resposta \(Y\): o valor esperado da variável resposta é uma função linear da variável preditora
- Normalidade: \(\varepsilon_{i} \sim N (0,\sigma_{i}^{2})\)
- independência estatística dos resíduos: \(Cov(\varepsilon_{i},\varepsilon_{j})=E(\varepsilon_{i},\varepsilon_{j})=0, i \neq j\) e, em particular, nenhuma correlação entre erros de observações sucessivas no caso de dados provenientes de uma série; e,
- homogeneidade da variância dos resíduos (homocedasticidade): \(Var(\varepsilon_{i})=E(\varepsilon{i}^{2})=\sigma_{i}^{2}\) quando analisada frente aos valores estimados pelo modelo (\(\hat{Y}\)), a variável peditora (\(X\)) ou o tempo de coleta nos casos de dados provenientes de uma série
Se qualquer uma dessas premissas for violada então uma conclusão científica baseada em resultados advindos desse modelo de regressão poderá estar seriamente comprometida. As violações desses pressupostos não podem ser detectadas pelas estatísticas de resumo do modelo que usualmente se dipõe logo após sua estimação: estatísticas \(t\), \(F\) dos testes de significância ou então o coeficiente de determinação \(R^{2}\).
Assim, é sobretudo fundamental examinar mais aprofundadamente o modelo de modo a se assegurar com razoável confiança de sua adequação aos dados antes de se avançar com seu uso. A esse exame denominamos diagnóstico do modelo.
12.7.3 Linearidade na relação entre a variável preditora \(X\) e a variável resposta \(Y\):
A violação da linearidade é extremamente graves pois um modelo ajustado a dados não lineares leva a previsões equivocadas não somente para valores situados além das fronteiras amostrais (como se usualmente observa) mas também para valores próximos ao seu centro.
Uma técnica gráfica para se verificar a linearidade da relação é através de dois gráficos:
- valores observados em relação aos valores estimados; ou/e,
- resíduos contra valores estimados (ou valores observados).
Os padrões desejados nos gráficos acima deve assemelhar-se a:
- pontos dispersos de modo aproximadamente simétrico em torno de uma linha diagonal; e,
- pontos dispersos de modo aproximadamente simétrico em torno de uma linha horizontal, com uma variância aproximadamente homogênea.
Relações não lineares devem ser tratadas por meio da aplicação de uma transformação não linear adequada ao padrão da relação na variável resposta ou no variável preditora.
Para dados estritamente positivos com uma relação não linear a transformação com a função logaritmo pode ser uma opção. Se uma a transformação com o uso da função logaritmo é aplicada apenas à variável resposta isso equivalente a assumir que ela cresce (ou decai) exponencialmente como uma função da variável preditora.
Outra possibilidade a considerar é adicionar outra variável preditora na forma de uma função não linear como, por exepmplo, nos padrões de dispersão que mostrem uma curva parabólica onde pode fazer sentido regredir \(Y\) em função de \(X\) e \(X^{2}\).
Finalmente, a relação não linear observada pode decorrer da omissão de outra(s) variáveis importantes que explicam ou corrigem o padrão não linear quando então modelos de regressão linear múltipla devem ser estudados.
12.7.4 Homogeneidade da variância de \(\varepsilon\) (homocedasticidade):
A violação da homogeneidade de variância dos resíduos (heterocedasticidade) resulta numa estimação imprecisa do verdadeiro desvio padrão dos erros das estimativas e acarreta em intervalos de confiança irreais: são mais amplos ou mais estreitos do que deveriam ser, e resultam em elevada imprecisão nas inferências feitas com estatísticas baseadas na variância (\(t\), \(F\)).
Com variância constante (homocedasticidade) temos que \(Var(\varepsilon|X_{i})=\sigma^{2}\); todavia o que se observa em muitas situações é que a variância está relacionada de algum modo funcional com a média (\(\sigma^{2}=\mathcal{f}(X)\)) e, assim:
\[ \begin{aligned} Var(\varepsilon_{i}|X_{i})=\sigma^{2}_{i} \\ E(\varepsilon_{i}^{2})=\sigma^{2}_{i} \end{aligned} \]
Na presença de heterocedasticidade nos resíduos, os estimadores de mínimos quadrados continuam sendo não viesados e consistentes, mas perdem eficiência. Equivale a dizer que haverá um outro estimador para os parâmetros do modelo que terá uma variância menor e menos tendencioso:
\[ \begin{aligned} Var(b^{*}) < Var(b) \end{aligned} \]
Uma técnica gráfica para se verificar a homocedasticidade dos resíduos é através dos gráficos:
- resíduos contra valores estimados; ou,
- resíduos contra a variável preditora
Os padrões desejados nos gráficos acima deve assemelhar-se a pontos dispersos de modo aproximadamente simétrico em torno de um eixo horizontal e que não exibam, sistematicamente, nenhum padrão de crescimento ou decaimento na amplitude visual de sua dispersão como nas imagens abaixo:
A heterocedasticidade pode ser um subproduto de uma violação significativa das premissas de linearidade e/ou independência, caso em que todas essas violações podem ser conjuntamente corrigidas com a aplicação de uma transformação de potência na variável dependente que terá como objetivos:
- linearizar o ajuste tanto quanto possível; e/ou,
- estabilizar a variância dos resíduos.
Algum cuidado e discernimento é requerido pois esses dois objetivos podem conflitar entre si. Geralmente opta-se em estabilizar a variância dos resíduos primeiramente para, só então analisar linearização das relações.
As transformações sugeridas pela família Box-Cox (1964) em função dos valor que maximizam a verissimilhança perfilada são:
- se \(\lambda\)=-2 \(\rightarrow\) \(\frac{1}{Y^{2}}\)
- se \(\lambda\)=-1 \(\rightarrow\) \(\frac{1}{Y}\)
- se \(\lambda\)=-0,5 \(\rightarrow\) \(\frac{1}{\sqrt{Y}}\)
- se \(\lambda\)=0 \(\rightarrow\) log(Y)
- se \(\lambda\)=0,50 \(\rightarrow\) \(\sqrt{Y}\)
- se \(\lambda\)=1 \(\rightarrow\) Y
- se \(\lambda\)=2 \(\rightarrow\) \(Y^{2}\)
Gráficos dos valores absolutos dos resíduos (ou do quadrado dos resíduos pois os sinais dos resíduos não são significativos para o propósito desse exame) contra a variável preditora \(X\) ou em relação aos valores ajustados também são úteis para o diagnóstico da heterocedasticidade da variância dos resíduos.
Esses gráficos são recomendados quando não há muitas observações no conjunto de dados pois a plotagem dos resíduos absolutos ou seus quadrados coloca as informações sobre a alteração das suas magnitudes acima da linha horizontal do zero o que facilita a inspeção visual de possíveis alterações de sua magnitude em relação a outra variável adotada no gráfico.
12.7.5 Inconsistência de observações (outliers)
Outliers são observações extremas afastadas das demais observações que formam a amostra e sua identificação deve ser feita já na análise descritiva que antecede todo estudo estatístico.
Essas observações podem ser resultado dos mais variados erros de medição (observadores diferentes, equipamentos descalibrados, instrumentos de medição diversos) quando então, nessa hipótese e confirmado o erro de registro, devem ser descartados com discernimento.
Todavia na maior parte dos experimentos a identificação desse tipo de erro na etapa descritiva não é possível e, nessas situações, a análise dos residuos gerados pelo modelo na estimação de cada observação é a principal ferramenta.
A principal razão para sua identificação é que esses pontos extremos podem ter grande repercussão e exercer grande influência nas estimativas do modelo. Uma observação é influente se uma uma pequena modificação em seu valor ou sua exclusão do modelo produz alterações significativas nas estimativas dos parâmetros.
Uma técnica gráfica para se verificar a presença observações outliers é através dos gráficos:
- resíduos contra valores estimados; e/ou,
- resíduos contra a variável preditora
A plotagem de resíduos estudentizados é particularmente útil para distinguir as observações cujos resíduos distem muitos desvios padrão da média zero.
Os padrões desejados nos gráficos acima deve assemelhar-se a pontos dispersos de modo aproximadamente simétrico em torno do eixo horizontal zero, que não exibam, sistematicamente, nenhum padrão de crescimento ou decaimento na amplitude visual de sua dispersão. Uma regra comum para amostras grandes (n>30) é considerar resíduos estudentizados com afstamentos em valor absoluto de quatro ou mais desvios padrão serem outliers.
12.7.6 Pontos influentes com capacidade de alavanca (leverage):
Os elementos \(h_{ii}\) da diagonal da matriz de projeção (H) tem importante papel no diagnóstico de pontos influentes. Há diferentes opiniões sobre os valores críticos para essa medida:
- \(h_{ii}>2\frac{p}{n}\) (Hoaglin, D. C. and Welsch, R. E, 1978. The hat matrix in regression and ANOVA)
- \(h_{ii}> 3\frac{p}{n}\) onde p é o número de parâmetros estimados no modelo (\(\hat{\beta_{0}}\) e \(\hat{\beta_{1}}\): 2 para uma regressão linear simples).
David Sam Jayakumar e A. Sulthan (Exact distribution of Hat Values and Identification of Leverage Points, 2014) propuseram a distribuição teóricas exata para os valores da diagonal da matriz de projeção link de acesso ao recurso.
12.7.6.1 DFBeta:
A estatística \(DFBeta\) indica o quanto cada coeficiente de regressão \(\hat{\beta_{j}}\) se altera em unidades de desvio padrão quando a i-ésima observação for removida:
\[ DFBeta_{(j,i)}=\frac{\hat{\beta_{j}}-\hat{\beta_{j(i)}}}{ \sqrt{S_{i}^{2}C_{(jj)}}} \]
onde \(C_{(jj)}\) é o j-ésimo elemento da diagonal da matriz \((X^{t}X)^{-1}\) e:
\[ S_{i}^{2}=\frac{(n-p-1)QMRes - \hat{\varepsilon_{i}} (1-h_{ii}) }{(n-p)} \]
Valores superiores a \(|DFBeta_{(ji)}|> \frac{2}{\sqrt{n}}\) requerem exame mais detalhado.
12.7.6.2 DFFits:
A estatística \(DFFits\) indica a influência da i-ésima observação medindo o quanto os valores preditos se modificam, em unidades de desvio padrão, se aquela observação for removida:
\[ DFFits= \frac{\hat{Y}-\hat{Y_{i}} }{\sqrt{S_{i}^{2} h_{ii}}} \]
Valores superiores a \(|DFFits|> 2\sqrt{\frac{p}{n}}\) requerem exame mais detalhado.
12.7.6.3 Distância de Cook:
A estatítica proposta por Denis R. Cook mede a influência de um determinado dado da amostra no que tange a quanto ele está afetando a linha de regressão, sendo medida pelo quanto a linha de regressão se alteraria caso esse dado fosse removido da da análise: ele exerce um destacado impacto da estimativa dos parâmetros do modelo. A influência na locação (afastamento de alguma observação da vizinhança do resto dos dados) pode ser investigada pelo gráfico feito das distâncias de Cook contra os valores ajustados.
Há vários critérios para se definir um valor limite para a estatística de Cook:
- \(D_{i}>1\): Cook e Weisberg, 1982 e Chatterjee, Hadi e Price, 2000;
- duas vezes a média das distâncias de Cook;
- \(\frac{4}{n}<D_{i}<1\): Bollen et al, 1990; e,
- o valor crítico do quantil da distribuição F para uma significância igual a 0.5 com df1=p e f2=n-p.
12.7.7 Independência
Quando as observações da amostra são independentes o que se espera é que seus resíduos apresentem-se aleatoriamente dispersos em torno da linha horizontal (zero) quando dispostos na sequência em que foram coletadas. O que se pretende aqui é verificar se há correlação serial entre as observações.
A autocorrelação pode ser definida como a correlação entre integrantes de séries de observações ordenadas no tempo (como as séries temporais) ou no espaço (como nos dados de corte transversal) quando então os resíduos de duas observações guardam correlação diferente de zero entre si:
\[ \begin{aligned} cov(\hat{\varepsilon_{i}}, \hat{\varepsilon_{j}}|x_{i}, x_{j}) \neq 0 \\ i \neq j \end{aligned} \]
A correlação serial pode decorrer:
- inércia: quando os efeitos na alteração da variável \(X\) demoram a se manifestar na variável \(Y\) (muito comum em dados econômicos);
- forma funcional do modelo incorreta;
- variáveis importantes foram omitidas.
A verificação da independência resíduos \(\hat{\varepsilon}\) pode ser verificada informalmente através de vários modos gráficos dentre os quais destacam-se:
- resíduos contra o tempo ou ordem no qual as observações foram realizadas; e,
- observações contra o tempo ou ordem no qual foram realizadas (um gráfico sequencial).
O que se espera é que nenhuma relação funcional seja percebida. Há ferramentas estatísticas apropriadas para se analisar dados provenientes de séries.
12.7.8 Normalidade
A Normalidade dos resíduos \(\hat{\varepsilon}\) pode ser verificada informalmente através de vários modos gráficos dentre os quais descam-se:
- pela comparação de suas frequências às frequências esperadas de uma distribuições Normal: 68%: \(\pm 1\) desvio padrão; 90%: \(\pm 1.65\) desvio padrão; 95%: \(\pm 1.96\) desvio padrão;
- gráficos de caixas;
- histogramas;
- gráficos dos quantis teóricos da distribuição Normal padronizada contra os quantis amostrais dos resíduos (QQ plot);
- gráfico com envoltória simulada dos resíduos (Brian David Ripley em Modelling Spatial Patterns, 1977).
Se os valores de uma amostra provêm de uma distribuição Normal, então os valores das estatísticas de ordem contruídas com os resíduos e os \(Z_{i}\) correspondentes obtidos da distribuição Normal padrão são linearmente relacionados e, assim, o gráfico dos valores deve ter o aspecto aproximado de uma reta.
Todavia observam-se que alguns aspectos desse gráfico diferentes de uma reta que sugerem ausência de Normalidade têm como provável causa:
- “S”: indica distribuições com caudas muito curtas, isto é, distribuições cujos valores estão muito próximos da média;
- “S invertido”: indica distribuições com caudas muito longas e, portanto, presença de muitos valores extremos; e,
- “J” e “J invertido”: indicam distribuições assimétricas, positivas e negativas, respectivamente.
A análise do modelo com respeito à Normalidade de seus resíduos é, em muitos aspectos, mais difícil do que para as outras verificações.
A menos que o tamanho da amostra seja muito grande (\(n \sim 300\)) a variação aleatória impõe sérias dificuldades para se estudar a natureza da distribuição de probabilidade da variável em estudo. Outros tipos de desvios podem também afetar a distribuição dos resíduos como quando a função é inadequada ou quando a variância não é constante. Assim, pequenos desvios dos resíduos em relação à distribuição Normal podem ser tolerados pois não causam problemas sérios na estimação do modelo.
12.7.8.1 Testes para Normalidade dos resíduos:
Para uma análise formal da Normalidade há vários testes definidos:
- \(K^{2}\) de D’agostino (Ralph D’agostino);
- Jarque-Bera (Carlos Jarque e Anil K. Bera);
- Anderson-Darling (Theodore Wilbur Anderson e Donald Alan Darling);
- Cramer-von Mises (H. Cramer e R.E. von Mises);
- Lilliefors (Hubert W. Lilliefors);
- Shapiro-Francia (Samuel Sandford Shapiro e S. Francia);
- \(X^{2}\) de Karl Pearson;
- Shapiro-Wilk (Samuel Sandford Shapiro e Martin Bradbury Wilk);
- Kolmogorov-Smirnov (Andrey Kolmogorov e Nikolai Smirnov); e,
- teste de correlação linear entre os resíduos padronizados ordenados e os quantis teóricos da distribuição Normal padronizada;
12.7.9 Variáveis omitidas do modelo
Caso os dados sob análise possuam mais variáveis preditoras é prudente plotar um gráfico dos resíduos contra cada uma delas para que eventuais efeitos na variável resposta sejam descartados.
O objetivo desta análise adicional é determinar se há quaisquer outras variáveis que possam contribuir na explicação da variável resposta e assim, o padrão visual dos resíduos não pode diferir do padrão apresentado quando se plotam os resíduos contra a variável incorporada no modelo, não só na aleatoridade de sua dispersão mas também nas frequências ou concentrações mostradas acima ou abaixo da linha base (zero).