12.12 Intervalos de confiança

Um intervalo de confiança (\(IC\)) pode ser entendido como uma faixa de valores bastante específica para uma estatística calculada dentro da qual, sob alguma confiança, podemos afirmar se localizar o valor do parâmetro estimado.

Essa faixa pode ser fechada ou aberta (delimitada apenas por dois ou apenas um valor, respectivamente):

  • intervalos de confiança bilaterais: intervalos delimitados por dois valores: mínimo e máximo, dentro do qual todos os valores possuem um mesmo nível de confiança de ocorrência;
  • intervalos de confiança unilaterais: intervalos delimitados apenas em um de seus lados, nos quais todos os valores possuem um mesmo nível de confiança (limitados à direita por um valor máximo ou limitados à esquerda por um valor mínimo).

A amplitude de um intervalo de confiança é uma função diretamente proporcional a um nível de confiança e à variabilidade da população amostrada (quanto maior a variabilidade e/ou o nível de confiança, maior sua amplitude) e inversamente proporcional ao tamanho amostral (quanto maior o tamanho da amostra, menor sua amplitude.

\[ amplitude=\text{estimativa amostral} \pm f(confiança, variabilidade, \frac{1}{n}) \]

Como raramente se dispõe de informação a respeito da variabilidade da carcaterística estudada na população, esse valor é considerado na expressão acima de modo estimado por uma amostra.

Um intervalo de confiança reflete uma estimativa objetiva da (im)precisão acarretada pelo tamanho da amostra e, assim, podemos considerá-lo como uma medida da qualidade da pesquisa.

O nível de confiança associado ao intervalo é designado pela quantidade \((1-\alpha)\), sendo \(\alpha\) denominado de nível de significância: uma medida da probabilidade de erro.

Dependendo do nível de confiança que escolhemos, os limites do intervalo mudam para uma mesma estimativa amostral. Os níveis de confiança mais utilizados na literatura são os de 90%, 95% e 99%.



Assim, \((1-\alpha)\) traduz o grau de confiança que se tem em que uma particular amostra de tamanho \(n\) da variável aleatória \(X\) dê origem a um intervalo de valores (o intervalo de confiança) que compreenda o verdadeiro valor do parâmetro sobre o qual se estima ou sobre o qual se infere.

Vejam a simulação onde contruímos um grande número de intervalos de confiança calculados sob as mesmas condições (mesma população amostrada, mesmo tamanho amostral (n) e nível de significância \(\alpha\)).

(SIMULADOR 5)


Nela podemos observar que uma determinada proporção desses intervalos (aproximadamente igual ao nível de confiança \(1-\alpha\)), conterá o parâmetro sobre o qual se estima e se deseja inferir.


12.12.1 Intervalos de confiança nos modelos de regressão linear simples


Intervalo de confiança para a resposta média do modelo (equivale a dizer a resposta fornecida pelo modelo ajustado para valores observados)

Intervalo de predição para novas observações (equivale a dizer a resposta fornecida pelo modelo ajustado para valores não observados)

Intervalo de confiança para as estimativas dos parâmetros do modelo (o modelo ajustado apresenta meras estimativas: a e b, dos parâmetros desconhecidos: \(\alpha\) e \(\beta\)).


12.12.1.1 Intervalo de confiança para a resposta média do modelo sob um nível de significância \(\alpha\)

\[ IC=\hat{y_0} \pm {t}_{tab\left[\frac{\alpha }{2};\left(n-2\right)\right]}\cdot \hat{\sigma}\cdot \sqrt{\frac{1}{n}+ \frac{{\left({x}_{0}-\stackrel{-}{x}\right)}^{2}}{S_{xx}}} \] em que:

\[ \hat{\sigma}=\sqrt{QMRES} = \sqrt{\frac{SQRES}{(n-2)}} = \sqrt{\frac{S_{yy}- b \cdot S_{xy}}{(n-2)}} \]

e \(\hat{y}_{0}\) é o valor médio estimado para um \(x_{0}\) pertencente à amostra e \(t_{tab}\) é o quantil associado na distribuição “t” de Student (William Sealy Gosset, 1876-1937) ao nível de significância pretendido com \((n-2)\) graus de liberdade. O número de graus de liberdade irá determinar qual curva da família dessa distribuição será utilizada, por essa razão, as tabelas apresentam-se individualizadas por nível de significância e graus de liberdade.

(SIMULADOR 2 COM t)


12.12.1.2 Intervalo de predição para novas observações sob um nível de significância \(\alpha\)

\[ IC=\hat{y_0} \pm {t}_{tab\left[\frac{\alpha }{2};\left(n-2\right)\right]}\cdot \hat{\sigma }\cdot \sqrt{1+\frac{1}{n}+\frac{{\left({x}_{0}-\stackrel{-}{x}\right)}^{2}}{S_{xx}}} \]

em que

\[ \hat{\sigma}=\sqrt{QMRES} = \sqrt{\frac{SQRES}{(n-2)}} = \sqrt{\frac{S_{yy}- b \cdot S_{xy}}{(n-2)}} \]

e \(\hat{y}_{0}\) é o valor predito para um \(x_{0}\) não pertencente à amostra e \(t_{tab}\) é o quantil associado na distribuição “t” de Student (William Sealy Gosset, 1876-1937) ao nível de significância pretendido com \((n-2)\) graus de liberdade. O número de graus de liberdade irá determinar qual curva da família dessa distribuição será utilizada, por essa razão, as tabelas apresentam-se individualizadas por nível de significância e graus de liberdade.

(SIMULADOR 2 COM t)


12.12.1.3 Intervalo confiança para a estimativa \(a\) do parâmetro \(\alpha\) sob um nível de significância \(\alpha\)

\[ a \pm {t}_{tab\left[\frac{\alpha }{2};\left(n-2\right)\right]}\cdot \hat{\sigma } \cdot \sqrt{ \left(\frac{1}{n}+\frac{\stackrel{-}{x}^{2}}{Sxx}\right)} \] em que

\[ \hat{\sigma}=\sqrt{QMRES} = \sqrt{\frac{SQRES}{(n-2)}} = \sqrt{\frac{S_{yy}- b \cdot S_{xy}}{(n-2)}} \]

e \(a\) é a estimativa do parâmetro \(\alpha\) e \(t_{tab}\) é o quantil associado na distribuição “t” de Student (William Sealy Gosset, 1876-1937) ao nível de significância pretendido com \((n-2)\) graus de liberdade. O número de graus de liberdade irá determinar qual curva da família dessa distribuição será utilizada, por essa razão, as tabelas apresentam-se individualizadas por nível de significância e graus de liberdade.

(SIMULADOR 2 COM t)


12.12.1.4 Intervalo confiança para a estimativa \(b\) do parâmetro \(\beta\) sob um nível de significância \(\alpha\)

\[ b \pm {t}_{tab\left[\frac{\alpha }{2},\left(n-2\right)\right]}\cdot \frac{\hat{\sigma}}{\sqrt{ {S_{xx}}}} \]

em que

\[ \hat{\sigma}=\sqrt{QMRES} = \sqrt{\frac{SQRES}{(n-2)}} = \sqrt{\frac{S_{yy}- b \cdot S_{xy}}{(n-2)}} \]

e \(b\) é a estimativa do parâmetro \(\beta\) e \(t_{tab}\) é o quantil associado na distribuição “t” de Student (William Sealy Gosset, 1876-1937) ao nível de significância pretendido com \((n-2)\) graus de liberdade. O número de graus de liberdade irá determinar qual curva da família dessa distribuição será utilizada, por essa razão, as tabelas apresentam-se individualizadas por nível de significância e graus de liberdade.

SIMULADOR 2


Exemplo 6: Um jornal deseja verificar a eficácia de seus anúncios na venda de carros usados e para isso realizou um levantamento de todos os seus anúncios e informações dos resultados obtidos pelas empresas que o contrataram e dele extraiu uma pequena amostra. A tabela abaixo mostra o número de anúncios e o correspondente número de veículos vendidos por 6 companhias que usaram apenas este jornal como veículo de propaganda. Obtenha a equação de regressão linear simples. Qual a estimativa de vendas do modelo para um volume de 36 anúncios? Qual a previsão do número de carros vendidos para um volume de 70 anúncios? Quais os intervalos (estimativa, predição e para os regressores do modelo) sob um nível de significância de 5

Quadro de dados da quantidade de carros vendidos por 6 empresas distintas pela quantidade de anúncios feitos
Companhia Anúncios feitos (X) Carros vendidos (Y)
A 74 139
B 45 108
C 48 98
D 36 76
E 27 62
F 16 57

Trazendo os resultados já calculados em exemplos anteriores:

com \(n= 6\), \(\stackrel{-}{y}= 90\) e \(\stackrel{-}{x} = 41\) calcula-se

\[ S_{xy} = \sum _{i=1}^{n} x_{i}y_{i} - \frac{\sum _{i=1}^{n}x_{i}\cdot\sum _{i=1}^{n}y_{i}}{n} = 25172 - \frac{246 \cdot 540}{6} = 3032 \\ S_{xx} = \sum _{i=1}^{n} x_{i}^{2} -\frac{(\sum _{i=1}^{n} x_{i})^{2}}{n} = 12086 - \frac{246^2}{6} = 2000 \\ {S}_{yy} = \sum _{i=1}^{n}y_{i}^{2} - \frac{(\sum _{i=1}^{n} y_{i})^{2}}{n}= 53458 - \frac{540^2}{6} = 4858 \]


As estimativas dos parâmetros do modelo serão:

\[ b = \frac{S_{xy}}{S_ {xx}} = \frac{3032}{2000} = 1,5160 \\ a = \stackrel{-}{y} - b\cdot\stackrel{-}{x} = 90 - 1,5160 \cdot 41 = 27,844 \] E o modelo toma a seguinte forma:

\[ \hat{y} = 27,844 + 1,5160 \cdot x \]


O valor médio estimado para um volume de anúncios de 36 veiculações é de 82 carros vendidos. O intervalo de confiança para a resposta média do modelo: \(IC[\mu(x_{0}=36)]\) sob um nível de significância \(\alpha\) será

\[ \hat{y_0} \pm {t}_{tab\left[\frac{\alpha }{2};\left(n-2\right)\right]}\cdot \hat{\sigma}\cdot \sqrt{\frac{1}{n}+ \frac{{\left({x}_{0}-\stackrel{-}{x}\right)}^{2}}{S_{xx}}} \]

em que

\[ \hat{\sigma}=\sqrt{QMRES} = \sqrt{\frac{SQRES}{(n-2)}} = \sqrt{\frac{S_{yy}- b \cdot S_{xy}}{(n-2)}} = 8,0853 \]

\(\hat{y_0}=82\) é o valor médio estimado para o valor observado \(x_{0} = 36\) (um dado pertencente à amostra) e \(t_{tab}\) é o quantil associado na distribuição ``t’’ de Student (William Sealy Gosset, 1876-1937) ao nível de significância pretendido (\(\alpha=5\%\)) com \((n-2)=4\) graus de liberdade (\(t_{tab} = 2,77\)).

Assim, \(IC[\mu(x=36)]_{(\alpha=5\%)} = (72,5201 ; 91,4799 )\)

(SIMULADOR 2 COM t)


O valor predito para um volume de anúncios de 70 veiculações é de 134 carros vendidos. O intervalo de predição para novas observações \(IP[Y({x_{0})}]\) com nível de significância \(\alpha\) será:

\[ \hat{y_0} \pm {t}_{tab\left[\frac{\alpha }{2};\left(n-2\right)\right]}\cdot \hat{\sigma }\cdot \sqrt{1+\frac{1}{n}+\frac{{\left({x}_{0}-\stackrel{-}{x}\right)}^{2}}{S_{xx}}} \]

em que

\[ \hat{\sigma}=\sqrt{QMRES} = \sqrt{\frac{SQRES}{(n-2)}} = \sqrt{\frac{S_{yy}- b \cdot S_{xy}}{(n-2)}} = 8,0853 \]

\(\hat{y}_{0}=134\) é o valor predito para um valor não observado \(x_{0} = 70\) e \(t_{tab}\) é o quantil associado na distribuição ``t’’ de Student (William Sealy Gosset, 1876-1937) ao nível de significância pretendido (\(\alpha=5\%\)) com \((n-2)=4\) graus de liberdade (\(t_{tab} = 2,77\)).

Assim, \(IP[Y({x_{0})}]_{(\alpha=5\%)} = (105,7845 ; 162,2155)\)