9.5 Distribuição das diferenças de médias amostrais dependentes e seus intervalos de confiança
Na prática temos algumas situações onde as populações não são independentes com, por exemplo, em situações onde as amostras são extraídas de uma mesma população em dois momentos distintos (antes e depois de algum fato), ou como numa situação de comparação inter laboratorial, onde dois laboratórios medem a mesma peça, as medidas entre os laboratórios não são independentes. Nestes casos diz-se que os dados são pareados.
Considere duas amostras dependentes \((X_{1}, \dots X_{n})\) e \((Y_{1}, \dots Y_{n})\). O pareamento das observações será considerado tomando-se \((X_{1}, Y_{1}), \dots, (X_{n}, Y_{n})\) e as diferenças serão tomadas a cada par \(D_{i}=X_{i} - Y_{i}\), para \(i=1, \dots, n\).
Assim obtemos uma amostra \((D_{1}, \dots, D_{n})\), resultante das diferenças entre os valores de cada par. A variável aleatória será admitida tal que
\[ D \sim N (\mu_{D}, \sigma^{2}_{D}) \]
O parâmetro da média dessa distribuição (\(\mu_{D}\)) será estimado a partir da própria amostra das diferenças, tal que:
\[ \mu_{D}=\stackrel{-}{D}=\sum_{i=1}^{n}D_{i} \]
e a variância populacional desconhecida será aproximada por:
\[ S^{2}_{D}=\sum_{i=1}^{n}\frac{(D{i}-\stackrel{-}{D})^{2}}{n-1} \]
Demonstra-se que a estatística \(T\) pode ser assim definida, bem como sua correspondente distribuição
\[ T = \frac{\stackrel{-}{D} -\mu_{D}}{\frac{S_{D}}{\sqrt{n}}} \sim t_{(n-1)} \]
Assim,
\[ IC(\mu_{D})_{(1-\alpha)} = [\stackrel{-}{D} \pm {t}_{c (n-1)} \cdot \sqrt{\frac{S_{D}^{2}}{n} } ] \]
Exemplo: Determinar o intervalo de confiança sob um nível de confiança de 95% para a diferença de médias do resultados dos testes de um grupo de 15 alunos submetidos a um vídeo instrutivo tais que a primeira amostra foi tomada antes de assistirem ao vídeo e a segunda depois, mediante a aplicação de um novo teste, similar ao primeiro.
Aluno | Primeira nota (X) | Segunda nota (Y) |
---|---|---|
1 | 74 | 80 |
2 | 64 | 74 |
3 | 79 | 83 |
4 | 90 | 92 |
5 | 89 | 96 |
6 | 94 | 98 |
7 | 55 | 59 |
8 | 75 | 77 |
9 | 88 | 93 |
10 | 66 | 78 |
11 | 70 | 75 |
12 | 60 | 59 |
13 | 59 | 61 |
14 | 67 | 70 |
15 | 69 | 74 |
\[
\stackrel{-}{D}=\sum_{i=1}^{n}D_{i}=-4,667
\]
\[\begin{align*} S^{2}_{D} & =\sum_{i=1}^{n}\frac{(D{i}-\stackrel{-}{D})^{2}}{n-1}=10,52354 \end{align*}\]
Sendo o valor crítico tabelado da estatística para um nível de significância \(\alpha=5\%\) e graus de liberdade \(gl=(n-1)=14\) igua a 1,761, o intervalo de confiança será:
\[\begin{align*} IC(\mu_{D})_{(1-\alpha)} & = [\stackrel{-}{D} \pm {t}_{c (n-1)} \cdot \sqrt{\frac{S_{D}^{2}}{n} } ]\\ IC(\mu_{D})_{(1-\alpha)} & = [-4,667 \pm 1,761 \cdot \sqrt{\frac{10,52354}{15} } ]\\ IC(\mu_{D})_{(1-\alpha)} & = [-5,396; -3,937] \end{align*}\]
Sendo negativos os valores desse intervalo de confinaça deduz-se que a primeira nota é menor que a segunda nota (\(X-Y < 0\)) e assim, o vídeo que os alunos assistiram melhorou sua compreensão do assunto e seu desempenho no segundo teste (similar ao primeiro). Caso o valor “zero” estivesse contemplado nesse intervalo, a interpretação seria de que não há diferença estatisticamente significativa nas notas dos alunos nos dois testes (o vídeo não os ajudou em coisa alguma).