12.8 Teste de significância (global) do modelo


O modelo \(\hat{Y} = a + b \cdot X\) pode ser decomposto em duas partes:

  • variação explicada: \(a + b \cdot X\)
  • variação residual: \(\hat{Y}-Y\), a diferença entre um valor estimado e o realmente observado.

Se a variação explicada for significativamente superior à variação residual, teremos um bom indicativo de existe regressão linear entre as variáveis \(X\) e \(Y\) e o modelo a está explicando razoavelmente bem.

Essa verificação é realizada pela análise de variância.



Quadro para a Análise de variância do modelo
Fonte Graus Soma Quadrados Fcal Ftab
da variação de liberdade de quadrados médios
REGRESSÃO k = 1 b ⋅ Sxy \(QMREG = \frac{b \cdot S_{xy}}{1}\) \(F_{calc}= \frac{QMREG}{QMRES}\) Ftab[1, (n − 2); α]
RESÍDUOS n-k-1 = n-2 Syy − b ⋅ Sxy \(QMRES = \frac{S_{yy} -b \cdot S_{xy}}{n-2}\) - -
TOTAL k+(n-k-1) = n-1 Syy - - -

Sendo SQTOTAL = SQREG - SQRES, em que:


\[ SQRES = S_{yy} - b\cdot S_{xy}\\ S_{xy} = \sum _{i=1}^{n} x_{i}y_{i} - \frac{\sum _{i=1}^{n}x_{i}\cdot\sum _{i=1}^{n}y_{i}}{n}\\ {S}_{yy}=\sum _{i=1}^{n} y_{i}^{2} - \frac{(\sum _{i=1}^{n} y_{i})^{2}}{n} \]


A verificação da existência ou não de regressão linear na população é necessário testar o parâmetro \(\beta\) e, para tanto, propomos as seguintes hipóteses:

\[ \begin{cases} H_{0}: \beta = \beta_{0} \\ H_{1}: \beta \ne 0 \end{cases} \]

Usualmente \(\beta_{0}=0\), indicando não haver regressão na população.

A estatística calculada (\({F}_{calc}\)) será comparada a uma estatística \(F_{tab}\) tabelada da Distribuição “F” (Ronald Aylmer Fisher-George Waddel Snedecor).

\(F_{tab}\) é o quantil de ordem \(\alpha\) da Distribuição “F” (Ronald Aylmer Fisher-George Waddel Snedecor) com graus de liberdade \(1,(n-2)\) (numerador e denominador, respectivamente).

Rejeita-se a hipótese nula (\(H_{0}\)) se:

\[ F_{calc}= \frac{QMREG}{QMRES} \ge F_{tab[1,(n-2); \alpha]} \]

em um teste unilateral à direita: \((\alpha)\in \text{right tail}\).


Vejam nessa simulação o gráfico da função densidade de probabilidade “F” (Ronald Aylmer Fisher-George Waddel Snedecor) com graus de liberdade no numerador e denominador: \(1, (n-2)\) e nível de significância \((\alpha)\in \text{right tail}\).

SIMULADOR 4


Exemplo 4 Uma indústria farmacêutica vende um remédio para aliviar os sintomas do resfriado. Após dois anos de operação ela coletou as informações trimestrais de vendas desse produto e despesas com sua propaganda. Estime um modelo de regressão linear simples e teste a existência da regressão pela ANOVA a um nível de significância de 5%

Quadro de despesas de propaganda (X) e receitas de vendas (Y)
Trimestre Despesas (X) Vendas (Y)
1 11 25
2 5 13
3 3 8
4 9 20
5 12 25
6 6 12
7 5 10
8 9 15


Quadro para cálculo das estimativas dos parâmetros do modelo
Trimestre Despesas (X) Vendas (Y) X ⋅ Y X2 Y2
1 11 25 275 121 625
2 5 13 65 25 169
3 3 8 24 9 64
4 9 20 180 81 400
5 12 25 300 144 625
6 6 12 72 36 144
7 5 10 50 25 100
8 9 15 135 81 225
Totais 60 128 1101 522 2352
Valor médio 7,50 16,00 - - -

Sendo \(n= 8\), \(\stackrel{-}{y}= 16\) e \(\stackrel{-}{x} = 7,50\), calculamos:

\[ S_{xy} = \sum _{i=1}^{n} x_{i}y_{i} - \frac{\sum _{i=1}^{n}x_{i}\cdot\sum _{i=1}^{n}y_{i}}{n} = 1101 - \frac{60 \cdot 128}{8} = 141 \\ S_{xx} = \sum _{i=1}^{n} x_{i}^{2} - \frac{(\sum _{i=1}^{n} x_{i})^{2}}{n} = 522 - \frac{60^2}{8} = 72\\ {S}_{yy} = \sum _{i=1}^{n}y_{i}^{2} - \frac{(\sum _{i=1}^{n} y_{i})^{2}}{n}= 2352 - \frac{128^2}{8} = 304 \]


As estimativas dos parâmetros do modelo serão:

\[ b = \frac{S_{xy}}{S_ {xx}} = \frac{141}{72} = 1,9583\\ a = \stackrel{-}{y} - b\cdot\stackrel{-}{x} = 16 - 1,9583 \cdot 7,50 = 1,3125 \]


O modelo toma a seguinte forma:

\[ \hat{y} = 1,3125 + 1,9583 \cdot x \]



Quadro para análise de variância do modelo
Fonte da variação Graus de liberdade Soma de quadrados Quadrados médios Fcal Ftab
REGRESSÃO k = 1 b.Sxy = 1, 9583.141 = 276, 12 \(QMREG = \frac{b.S_{xy}}{1}=276,12\) \(F_{calc} = \frac{QMREG}{QMRES} = 59,50\) Ftab[1, (n − 2); α] = Ftab[1, 6; 5% = 5, 987
RESÍDUOS n-k-1 = n-2 = 6 Syy − b ⋅ Sxy = 304 − 1, 9583 ⋅ 141 = 27, 87 \(QMRES = \frac{S_{yy} -b \cdot S_{xy}}{n-2} = 4,64\)
TOTAL k+(n-k-1) = n-1 = 7 Syy = 304

Conclusão: frente ao resultado da análise dos dados rejeita-se a hipótese sob um nível de significância de 5%.

(SIMULADOR 4)