11.6 Efeito do limite central
Seja \(X_{1}, X_{2}, ...\) uma sequência de variáveis aleatórias independentes e identicamente distribuídas, cada uma com média finita \(\mu=E(X_{i})\).
A Lei forte dos grandes números (teorema) demonstra que
\[
\frac{X_{1} + X_{2} + \dots, X_{n}}{n} \to \mu
\]
quando \(n \to \infty\).
Isto é, \(P\{lim_{\to \infty}(\frac{X_{1} + X_{2} \dots + X_{n}}{n})=\mu\}=1\)
11.6.1 Erro global
O erro global (\(\varepsilon= X -\mu\)) é um agregado de componentes. Uma medida (observação) obtida em um ensaio experimental específico pode estar sujeita a erros:
- analíticos;
- de amostragem (física, química, biológica, …);
- processuais (produzido por falhas no cumprimento das configurações exatas das condições experimentais);
- erros devidos à variação de matérias-primas;
- medição (diferentes operadores de equipamentos ou equipamentos descalibrados).
Assim, \(\varepsilon\) será uma função linear de componentes \(\varepsilon_{1}\), \(\varepsilon_{2}, ...,\varepsilon_{n}\) de erros. Se cada erro individual for relativamente pequeno, será possível aproximar o erro global como uma função linear dos componentes de erros, onde \(a\) são constantes:
\[ \varepsilon = a_{1}\varepsilon_{1} + a_{2}\varepsilon_{2} + ... + a_{n}\varepsilon_{n} \]
O Teorema do limite central afirma que, sob condições quase sempre satisfeitas no mundo real da experimentação, a distribuição de tal função linear de erros tenderá à uma distribuição Normal quando o número de seus componentes torna-se grande, independentemente da distribuição original da população de onde suas amostras geradoras se originaram.
Seja \(X_{1},\dots,X_{n}\) uma sequência de variáveis aleatórias independentes e identicamente distribuídas, com média \(\mu\) e variância \(\sigma^{2}\).
A distribuição assumirá um perfil
\[ \frac{X_{1} + X_{2} \dots + X_{n} - n \mu}{\sigma \sqrt{n}} \sim \mathcal{N}(0,1) \]
quando \(n \to \infty\).
Assim, para \(-\infty < a < \infty\),
\[ P \{ \frac{X_{1} + X_{2} \dots + X_{n} - n \mu}{\sigma \sqrt{n}} \leq a\}\to \mathcal{N}(0,1) \]
quando \(n \to \infty\).
Denotando-se de um modo alternativo, podemos então definir a estatística Z e sua correspondente distribuição como
\[ Z = \frac{ \stackrel{-}{X} - \mu }{ \frac{\sigma}{\sqrt{n}} } = \frac{\sqrt{n}\left(\stackrel{-}{X}-\mu \right)}{\sigma } \sim \mathcal{N}(0,1) \]
Ou seja, \(Z\) é uma variável aleatória que segue a distribuição Normal com média zero e desvio-padrão unitário (Normal padronizada).
Em resumo: quando, como é habitual, um erro experimental é um agregado de vários erros de componentes, sua distribuição tende para a forma Normal, mesmo a distribuição dos componentes pode ser marcadamente não Normal;
A média da amostra tende a ser distribuída Normalmente, mesmo que as observações individuais em que se baseia não o sejam. Consequentemente, métodos estatísticos que dependam, não diretamente da distribuição das observações individuais, mas na distribuição das médias tendem a ser insensíveis ou robustos à não normalidade.
Procedimentos que comparam médias são geralmente robustos à não normalidade.