12.6 Regressão linear simples
12.6.1 Introdução
Considerem a proposição de John Maynard Keynes para a relação entre o consumo e a renda, onde ele postulava haver uma relação positiva entre ambos: uma mudança em uma das variáveis iria alterar a outra. Seu modelo funcional para essa relação, com \(Y\) sendo as despesas de consumo e \(X\) a renda, é:
\[ Y = \alpha + \beta \cdot X \]
Esse modelo admite que a verdadeira relação entre \(Y\) e \(X\) seja uma linha reta e que a observação \(Y\) para cada nível de \(X\) seja uma variável aleatória. Assim, o valor esperado de \(Y\) para cada valor de \(X\) é:
\[ Y_i = E(Y | X_i) = \alpha + \beta \cdot X_i \]
Nesse modelo, \(\alpha\) e \(\beta\) são parâmetros desconhecidos da relação estabelecida entre as duas populações:
- \(\alpha\): intercepto (um consumo mínimo é observado mesmo nas situações em que a renda é nula, em razão de programas de assistência governamental).
- \(\beta\): inclinação (a propensão média do crescimento do consumo com o incremento da renda).
É um modelo puramente teórico, de limitada aplicabilidade prática, pois pretende exprimir por uma relação exata (determinística) o consumo e a renda, quando se sabe que grande parte das relações entre duas variáveis não são exatas.
Entretanto, ao se fixar um único valor para a variável explicativa, observa-se que há flutuações nos valores observados da variável explicada. Essa inexatidão, esse desvio do valor observado \(Y_i\) em relação ao seu valor esperado, pode ser expresso da seguinte maneira:
\[ \varepsilon_i = Y_i - E(Y | X_i) \]
em que \(E(Y | X_i)\) é denominado componente sistemático ou determinístico, representando o gasto médio de todas as famílias com um mesmo nível de renda, e \(\varepsilon_i\) é denominado termo de erro ou distúrbio estocástico. O termo de erro pode ser admitido como um substituto para todas as demais variáveis omitidas ou negligenciadas no modelo e que podem afetar \(Y\).
Um modelo de regressão pode ser linear nas variáveis ou nos parâmetros.
Uma função \(Y = f(X)\) é dita linear em \(X\) se \(X\) tiver um expoente igual a 1 e não estiver multiplicado ou dividido por outra variável.
- a função \(Y = \alpha + \beta \cdot X\) é dita linear em \(\beta\) se \(\beta\) tiver um expoente de 1 e não estiver multiplicado ou dividido por qualquer outro parâmetro.
A função \(E(Y | X) = \alpha + \beta \cdot X^2\) não é linear em \(X\), pois \(X\) está elevado ao quadrado.
- mas é linear nos parâmetros, pois, para \(X = 3\), temos \(E(Y | X = 3) = \alpha + 9 \cdot \beta\).
Das duas interpretações de linearidade, a linearidade nos parâmetros é a relevante para a formulação da teoria da regressão (a linearidade nas variáveis pode ou não ocorrer).
No contexto deste curso, o modelo será linear tanto nos parâmetros quanto na variável.
Admitindo-se que \(E(Y | X_i)\) seja linear em \(X_i\), podemos reescrever o modelo original na forma que incorpora o erro aleatório:
\[ Y_i = E(Y | X_i) = \alpha + \beta \cdot X_i \\ Y_i = E(Y | X_i) + \varepsilon_i \\ Y_i = \alpha + \beta \cdot X_i + \varepsilon_i \] em que \(\alpha\) é o intercepto da reta, representando o valor esperado da variável \(Y\) quando \(X = 0\), \(\beta\) é a inclinação da reta, representando a variação esperada de \(Y\) para um aumento unitário em \(X_i\), (\(\alpha + \beta \cdot X_i\)) é a parte explicada pelo modelo e \(\varepsilon_i\) é o termo de erro ou distúrbio estocástico.
Nessa função:
- \(Y\): variável dependente (também chamada de explicada, prevista, regressando, resposta, endógena, saída, controlada) — aqui, representando o consumo.
- \(X\): variável independente (também chamada de explicativa, previsora, regressor, estímulo, exógena, entrada, controle) — aqui, representando a renda.
Se o termo de erro \(\varepsilon_i\) representa todas aquelas variáveis omitidas no modelo (mas que, coletivamente, afetam \(Y\)), por que não formular um modelo de regressão com o máximo de variáveis possíveis?
- Embasamento teórico vago: A teoria existente suporta com certeza apenas algumas variáveis; o termo de erro \(\varepsilon_i\) serve como um substituto para todas as variáveis excluídas no modelo.
- Princípio da parcimônia: Um modelo mais simples que explique bem a relação é preferível.
- Forma funcional equivocada: Em gráficos de dispersão, é mais fácil inferir a relação entre duas variáveis do que com muitas.
- Limitação na quantidade de observações: Muitas variáveis exigem mais observações para garantir a precisão do modelo.
Sendo inviável, e muitas vezes impossível, construir um modelo populacional, focamos o estudo em uma parte dessa população: uma amostra.
Um modelo funcional estimado com base em uma amostra apresenta estimativas dos parâmetros da função que descreve a população de origem (os quais são desconhecidos). Por isso, adota-se uma notação diferente para a função de regressão amostral em sua forma estocástica:
\[ \hat{Y} = a + b \cdot X \]
em que \(\hat{Y}\) é um estimador de \(E(Y | X)\), \(a\) é uma estimativa do parâmetro \(\alpha\) e \(b\) é uma estimativa do parâmetro \(\beta\).
Para um determinado valor de \(X = x_i\), temos uma observação amostral \(Y = y_i\) que pode ser expressa pela função de regressão amostral como:
\[ y_i = \hat{y}_i + e_i \\ y_i = a + b \cdot x_i + e_i \]
em que \(\hat{y}_i\) é o valor estimado de \(Y_i\) para um determinado \(X_i\), \(e_i\) é o erro amostral, que representa a diferença entre o valor observado \(y_i\) e o valor estimado \(\hat{y}_i\).
Mas, como estimar \(a\) e \(b\)?
12.6.2 Método dos mínimos quadrados
Na literatura estatística há vários métodos de estimação dos parâmetros de um modelo de regressão linear, dentre os quais:
- Método dos momentos (creditado a Karl Pearson-1895, Ronald Aylmer Fisher-1925, Neyman e Egon Pearson-1928, publicado por Lars Peter Hansen-1982);
- Método da máxima verossimilhaça (creditado a Johann Carl Friedrich Gauss, Pierre-Simon Laplace, Thorvald N. Thiele e Francis Ysidro Edgeworth, popularizado por Ronald Aylmer Fisher, 1912-1922); e,
- Método dos mínimos quadrados (creditado a Johann Carl Friedrich Gauss-1795, publicado por Adrien-Marie Legendre-1805, Friedrich Robert Helmert-1872 ).
12.6.2.1 Contexto histórico
Desde tempos remotos as pessoas têm se interessado pelo problema de escolher o melhor valor único (médio) para resumir as informações fornecidas por várias observações, cada uma sujeita a erro.
O problema de se estimar as constantes na equação da linha reta que melhor se ajusta a três ou mais pontos não colineares no plano (x, y) cujas coordenadas são pares de valores associados de duas variáveis relacionadas: \(X\) e \(Y\) remonta a Galileu Galilei (1632).
Credita-se Johann Carl Friedrich Gauss como o desenvolvedor das bases fundamentais do Método dos mínimos quadrados, em 1795, quando Gauss tinha apenas dezoito anos.
Mas o Método dos mínimos quadrados foi publicado pela primeira vez por por Adrien-Marie Legendre (1752-1833) em 1805: Nouvelles méthodes pour la détermination des orbites des comètes.
Alguns demonstradores:
- Robert Adrain (1775-1843) em 1808: Research concerning the probabilities of the errors which happen in making observations
- Johann Carl Friedrich Gauss (1777-1855) em 1809: Theoria motus corporum coelestium
- Pierre-Simon Laplace (1749-1827) em 1810: Theorie analytique des Probabilite - Johann Carl Friedrich Gauss (1777-1855) em 1823: Theoria combinationis observationum erroribus obnoxiae
- James Ivory (1765-1842) em 1825: On the Method of the Least Squares.
Para o modelo \(y_{i}= a + b.x_{i}\) na simulação mostrada:
- problema: determinar as constantes \(a\) e \(b\) da equação de uma linha reta que melhor se ajusta a três ou mais pontos não colineares
- solução: minimizar a soma dos quadrados dos resíduos como mostrado na simulação.
\[ \sum _{i=1}^{n}{e}_{i}^{2} \rightarrow 0 \]
A grande vantagem do método dos mínimos quadrados é que ele é um método puramente geométrico, e não faz nenhuma suposição sobre a distribuição dos dados ou dos erros (resíduos).
Em outras palavras, ele é aplicado sem se preocupar com a natureza probabilística dos erros (resíduos). O objetivo é apenas ajustar a melhor reta possível para um conjunto de pontos de dados
(SIMULADOR 3)
Matematicamente, a partir da igualdade:
\[ \sum _{i=1}^{n} [ y_{i} - \hat{y} ]^{2} = \sum _{i=1}^{n}{\left[yi-\left(a{x}_{i}+b\right)\right]}^{2} \]
a solução passar por derivar-se em relação a: \(a|b \text{ fixo}\), e em relação b: \(b|a \text{ fixo}\), igualando-se a zero:
\[ \frac{\delta }{\delta a}\sum _{i=1}^{n}{\left[yi-\left(a{x}_{i}+b\right)\right]}^{2}= 2 \cdot \sum _{i=1}^{n}\left({y}_{i}-a{x}_{i}-b\right)\left(-{x}_{i}\right)=0 \\ \frac{\delta }{\delta b}\sum _{i=1}^{n}{\left[yi-\left(a{x}_{i}+b\right)\right]}^{2}= 2\cdot \sum _{i=1}^{n}\left({y}_{i}-a{x}_{i}-b\right)\left(-1\right)=0 \]
Após algumas manipulações algébricas obtemos as seguintes expressões para as estimativas: \(a\) e \(b\):
\[ b\cdot n+a\cdot \sum _{i=1}^{n}{x}_{i}=\sum _{i=1}^{n}{y}_{i} \]
\[ b\cdot \sum _{i=1}^{n}{x}_{i}+a\cdot \sum _{i=1}^{n}{x}_{i}^{2}=\sum _{i=1}^{n}{x}_{i}\cdot {y}_{i} \]
chegando-se ao estimador para a:
\[ a=\frac{n\cdot \left(\sum _{i=1}^{n}{x}_{i}{y}_{i}\right)-\sum _{i=1}^{n}{x}_{i}\sum _{i=1}^{n}{y}_{i}}{n\cdot \sum _{i=1}^{n}{x}_{i}^{2}-{\left(\sum _{i=1}^{n}{x}_{i}\right)}^{2}} \]
e ao estimador para b:
\[ b=\frac{\left(\sum _{i=1}^{n}{x}_{i}^{2}\right)\cdot \left(\sum _{i=1}^{n}{y}_{i}^{2}\right)-\left(\sum _{i=1}^{m}{x}_{i}{y}_{i}\right)\cdot \left(\sum _{i=1}^{n}{x}_{i}\right)}{n\cdot \left(\sum _{i=1}^{n}{x}_{\stackrel{.}{i}}^{2}\right)-{\left(\sum _{i=1}^{n}{x}_{i}\right)}^{2}} \]
Se definirmos \(S_{xy}\) e \(S_{xx}\) como sendo:
\[ S_{xy} = \sum _{i=1}^{n} x_{i}y_{i} - \frac{\sum _{i=1}^{n}x_{i}\cdot\sum _{i=1}^{n}y_{i}}{n} \]
e
\[ S_{xx} = \sum _{i=1}^{n} x_{i}^{2} - \frac{(\sum _{i=1}^{n} x_{i})^{2}}{n} \] então podemos escrever:
\[ b = \frac{S_{xy}}{S_ {xx}}\\ \text{e} \\ a = \stackrel{-}{y} - b\cdot\stackrel{-}{x} \]
Uma vez que
\[ \stackrel{-}{y}=\frac{\sum _{i=1}^{n}{y}_{i}}{n}\\ \text{e}\\ \stackrel{-}{x}=\frac{\sum _{i=1}^{n}{x}_{i}}{n} \]
o estimador \(a\) pode ser reescrito na forma:
\[ a = \frac{\sum _{i=1}^{n}{y}_{i} - b . \sum _{i=1}^{n}{x}_{i}}{n} \]
Exemplo 3: Um jornal deseja verificar a eficácia de seus anúncios na venda de carros usados e para isso realizou um levantamento de todos os seus anúncios e informações dos resultados obtidos pelas empresas que o contrataram e dele extraiu uma pequena amostra. A tabela abaixo mostra o número de anúncios e o correspondente número de veículos vendidos por 6 companhias que usaram apenas este jornal como veículo de propaganda. Obtenha a equação de regressão linear simples e estime o número de carros vendidos para um volume de 70 anúncios?
Companhia | Anúncios feitos (X) | Carros vendidos (Y) |
---|---|---|
A | 74 | 139 |
B | 45 | 108 |
C | 48 | 98 |
D | 36 | 76 |
E | 27 | 62 |
F | 16 | 57 |
Companhia | Anúncios (x) | Carros vendidos (y) | xi.yi | xi2 | yi2 |
---|---|---|---|---|---|
A | 74 | 139 | 10286 | 5476 | 19321 |
B | 45 | 108 | 4860 | 2025 | 11664 |
C | 48 | 98 | 4704 | 2304 | 9604 |
D | 36 | 76 | 2736 | 1296 | 5776 |
E | 27 | 62 | 1674 | 729 | 3844 |
F | 16 | 57 | 912 | 256 | 3249 |
Totais | 246 | 540 | 25172 | 12086 | 53458 |
Valor médio | 41 | 90 |
Sendo \(n= 6\), \(\stackrel{-}{y}= 90\) e \(\stackrel{-}{x} = 41\):
\[ S_{xy} = \sum _{i=1}^{n} x_{i}y_{i} - \frac{\sum _{i=1}^{n}x_{i}\cdot\sum _{i=1}^{n}y_{i}}{n} = 25172 - \frac{246 \cdot 540}{6} = 3032 \\ S_{xx} = \sum _{i=1}^{n} x_{i}^{2} - \frac{(\sum _{i=1}^{n} x_{i})^{2}}{n} = 12086 - \frac{246^2}{6} = 2000 \\ {S}_{yy} = \sum _{i=1}^{n}y_{i}^{2} - \frac{(\sum _{i=1}^{n} y_{i})^{2}}{n}= 53458 - \frac{540^2}{6} = 4858 \]
As estimativas dos parâmetros do modelo serão:
\[ b = \frac{S_{xy}}{S_ {xx}} = \frac{3032}{2000} = 1,5160 \]
e
\[ a = \stackrel{-}{y} - b\cdot\stackrel{-}{x} = 90 - 1,5160 \cdot 41 = 27,844 \]
e o modelo toma a seguinte forma \(\hat{y} = 27,844 + 1,5160 \cdot x\). Para um volume de anúncios de 70 veiculações teremos, em média, 134 carros vendidos.