3.4 Padronizacao de dados (z-scores)


À conversão do valor assumido por uma variável em unidades de desvio padrão acima (ou abaixo) do valor médio de sua distribuição é dado o nome de padronização. Essa métrica permite comparações com outras, procedentes de outros fenômenos.


Para padronizar (achar o seu z-score Z) o valor de uma variável procede-se segundo a fórmula:


\[ Z=\frac{x_{i} - \stackrel{-}{x}}{s} \]


O valor \(Z\) expressa quantos desvios esse dado está acima (ou abaixo) da média da distribuição.


Pelo Teorema de Tchebichev pode-se estimar a probabilidade mínima dos dados situados a certa distância de \(k\) desvios da média dessa distribuição:


\[ P(|X-\mu|\ge k\sigma) \leq 1 - \frac{1}{k^{2}} \]


Assim, se \(k=2\) ao menos 75% das observações devem estar entre a média e dois desvios padrões acima ou abaixo da média.


med=round(mean(alturas),2)
desv= round(sd(alturas),2)


No exemplo das alturas dos estudantes temos a média de 1.69 m e um desvio padrão de 0.11 m. Assim, ao menos 75% das alturas deverão estar entre 1.47 m e 1.91 m.


sort(alturas)
##  [1] 1.41 1.44 1.47 1.54 1.55 1.56 1.56 1.56 1.57 1.58 1.58 1.61 1.62 1.62 1.63
## [16] 1.64 1.64 1.65 1.65 1.65 1.65 1.66 1.66 1.66 1.66 1.66 1.67 1.67 1.67 1.67
## [31] 1.68 1.68 1.68 1.69 1.71 1.71 1.72 1.72 1.73 1.73 1.73 1.73 1.73 1.74 1.75
## [46] 1.76 1.76 1.77 1.78 1.78 1.79 1.82 1.83 1.83 1.84 1.85 1.86 1.93 1.95 2.00
# Duas observações menores que 1,47m e trẽs maiores que 1,91m.
# Assim, 54 observações dentro do intervalo, equivalendo a 91,66% do total.