12.8 Teste de significância (global) do modelo
O modelo \(\hat{Y} = a + b \cdot X\) pode ser decomposto em duas partes:
- variação explicada: \(a + b \cdot X\)
- variação residual: \(\hat{Y}-Y\), a diferença entre um valor estimado e o realmente observado.
Se a variação explicada for significativamente superior à variação residual, teremos um bom indicativo de existe regressão linear entre as variáveis \(X\) e \(Y\) e o modelo a está explicando razoavelmente bem.
Essa verificação é realizada pela análise de variância.
Fonte | Graus | Soma | Quadrados | Fcal | Ftab |
da variação | de liberdade | de quadrados | médios | ||
REGRESSÃO | k = 1 | b ⋅ Sxy | \(QMREG = \frac{b \cdot S_{xy}}{1}\) | \(F_{calc}= \frac{QMREG}{QMRES}\) | Ftab[1, (n − 2); α] |
RESÍDUOS | n-k-1 = n-2 | Syy − b ⋅ Sxy | \(QMRES = \frac{S_{yy} -b \cdot S_{xy}}{n-2}\) | - | - |
TOTAL | k+(n-k-1) = n-1 | Syy | - | - | - |
Sendo SQTOTAL = SQREG - SQRES, em que:
\[ SQRES = S_{yy} - b\cdot S_{xy}\\ S_{xy} = \sum _{i=1}^{n} x_{i}y_{i} - \frac{\sum _{i=1}^{n}x_{i}\cdot\sum _{i=1}^{n}y_{i}}{n}\\ {S}_{yy}=\sum _{i=1}^{n} y_{i}^{2} - \frac{(\sum _{i=1}^{n} y_{i})^{2}}{n} \]
A verificação da existência ou não de regressão linear na população é necessário testar o parâmetro \(\beta\) e, para tanto, propomos as seguintes hipóteses:
\[ \begin{cases} H_{0}: \beta = \beta_{0} \\ H_{1}: \beta \ne 0 \end{cases} \]
Usualmente \(\beta_{0}=0\), indicando não haver regressão na população.
A estatística calculada (\({F}_{calc}\)) será comparada a uma estatística \(F_{tab}\) tabelada da Distribuição “F” (Ronald Aylmer Fisher-George Waddel Snedecor).
\(F_{tab}\) é o quantil de ordem \(\alpha\) da Distribuição “F” (Ronald Aylmer Fisher-George Waddel Snedecor) com graus de liberdade \(1,(n-2)\) (numerador e denominador, respectivamente).
Rejeita-se a hipótese nula (\(H_{0}\)) se:
\[ F_{calc}= \frac{QMREG}{QMRES} \ge F_{tab[1,(n-2); \alpha]} \]
em um teste unilateral à direita: \((\alpha)\in \text{right tail}\).
Vejam nessa simulação o gráfico da função densidade de probabilidade “F” (Ronald Aylmer Fisher-George Waddel Snedecor) com graus de liberdade no numerador e denominador: \(1, (n-2)\) e nível de significância \((\alpha)\in \text{right tail}\).
SIMULADOR 4
Exemplo 4 Uma indústria farmacêutica vende um remédio para aliviar os sintomas do resfriado. Após dois anos de operação ela coletou as informações trimestrais de vendas desse produto e despesas com sua propaganda. Estime um modelo de regressão linear simples e teste a existência da regressão pela ANOVA a um nível de significância de 5%
Trimestre | Despesas (X) | Vendas (Y) |
---|---|---|
1 | 11 | 25 |
2 | 5 | 13 |
3 | 3 | 8 |
4 | 9 | 20 |
5 | 12 | 25 |
6 | 6 | 12 |
7 | 5 | 10 |
8 | 9 | 15 |
Trimestre | Despesas (X) | Vendas (Y) | X ⋅ Y | X2 | Y2 |
---|---|---|---|---|---|
1 | 11 | 25 | 275 | 121 | 625 |
2 | 5 | 13 | 65 | 25 | 169 |
3 | 3 | 8 | 24 | 9 | 64 |
4 | 9 | 20 | 180 | 81 | 400 |
5 | 12 | 25 | 300 | 144 | 625 |
6 | 6 | 12 | 72 | 36 | 144 |
7 | 5 | 10 | 50 | 25 | 100 |
8 | 9 | 15 | 135 | 81 | 225 |
Totais | 60 | 128 | 1101 | 522 | 2352 |
Valor médio | 7,50 | 16,00 | - | - | - |
Sendo \(n= 8\), \(\stackrel{-}{y}= 16\) e \(\stackrel{-}{x} = 7,50\), calculamos:
\[ S_{xy} = \sum _{i=1}^{n} x_{i}y_{i} - \frac{\sum _{i=1}^{n}x_{i}\cdot\sum _{i=1}^{n}y_{i}}{n} = 1101 - \frac{60 \cdot 128}{8} = 141 \\ S_{xx} = \sum _{i=1}^{n} x_{i}^{2} - \frac{(\sum _{i=1}^{n} x_{i})^{2}}{n} = 522 - \frac{60^2}{8} = 72\\ {S}_{yy} = \sum _{i=1}^{n}y_{i}^{2} - \frac{(\sum _{i=1}^{n} y_{i})^{2}}{n}= 2352 - \frac{128^2}{8} = 304 \]
As estimativas dos parâmetros do modelo serão:
\[ b = \frac{S_{xy}}{S_ {xx}} = \frac{141}{72} = 1,9583\\ a = \stackrel{-}{y} - b\cdot\stackrel{-}{x} = 16 - 1,9583 \cdot 7,50 = 1,3125 \]
O modelo toma a seguinte forma:
\[ \hat{y} = 1,3125 + 1,9583 \cdot x \]
Fonte da variação | Graus de liberdade | Soma de quadrados | Quadrados médios | Fcal | Ftab |
---|---|---|---|---|---|
REGRESSÃO | k = 1 | b.Sxy = 1, 9583.141 = 276, 12 | \(QMREG = \frac{b.S_{xy}}{1}=276,12\) | \(F_{calc} = \frac{QMREG}{QMRES} = 59,50\) | Ftab[1, (n − 2); α] = Ftab[1, 6; 5% = 5, 987 |
RESÍDUOS | n-k-1 = n-2 = 6 | Syy − b ⋅ Sxy = 304 − 1, 9583 ⋅ 141 = 27, 87 | \(QMRES = \frac{S_{yy} -b \cdot S_{xy}}{n-2} = 4,64\) | — | — |
TOTAL | k+(n-k-1) = n-1 = 7 | Syy = 304 | — | — | — |
Conclusão: frente ao resultado da análise dos dados rejeita-se a hipótese sob um nível de significância de 5%.
(SIMULADOR 4)