12.4 Coeficiente de correlação linear de Pearson

O mais importante aspecto da correlação linear é a medida de sua intensidade, expressa pelo coeficiente de correlação linear (ou coeficiente de correlação produto momento de Pearson).

Figure
A notação adotada para o coeficiente de correlação linear de Pearson depende dos dados analisados: se são dados amostrais ou populacionais: - população: pela letra grega \(\rho\) (“rô”) - amostra: pela letra latina r


Cálculo do coeficiente de correlação amostral \(r\):


\[r = \frac{\sum _{i=1}^{n}{x}_{i} \cdot {y}_{i} - \frac{\sum _{i=1}^{n}{x}_{i}\sum _{i=1}^{n}{y}_{i}}{n}}{\sqrt{\left(\sum _{i=1}^{n}{x}_{i}^{2}-\frac{{\left(\sum _{i=1}^{n}{x}_{i}\right)}^{2}}{n}\right)\cdot \left[\sum_{i=1}^{n}{y}_{i}^{2}-\frac{{\left(\sum _{i=1}^{n}{y}_{i}\right)}^{2}}{n}\right]}}\]


em que \(x_{i}\): é o iésimo valor observado da variável X, \(y_{i}\): é o iésimo valor observado da variável Y, \(n\) é o número de pares de valores observados.



Ou, simplificadamente:


\[ r = \frac{{s}_{xy}}{\sqrt{{s}_{xx}\cdot {s}_{yy}}} \]


em que \(S_{xy} = \sum _{i=1}^{n} x_{i}y_{i}\) - \(\frac{\sum _{i=1}^{n}x_{i}\cdot\sum _{i=1}^{n}y_{i}}{n}\), \(S_{xx} = \sum _{i=1}^{n} x_{i}^{2}\) - \(\frac{(\sum _{i=1}^{n} x_{i})^{2}}{n}\), \({S}_{yy}=\sum _{i=1}^{n}y_{i}^{2}\) - \(\frac{(\sum _{i=1}^{n} y_{i})^{2}}{n}\) e \(n\) é o número de pares de valores observados.



  • o coeficiente de correlação linear de Pearson tem uma faixa limitada de variação: \(-1 \le r \le 1\),

  • é simétrico; isto é, a correlação linear observada entre \(X\) e \(Y\) é a mesma que a medida entre as variáveis \(Y\) e \(X\),

  • é apenas uma medida da associação linear entre duas variáveis e, portanto, não tem sentido usá-lo na quantificação de relações que não o sejam,

  • a possibilidade de uma correlação linear negativa virá do resultado do numerador (\(S_{xy}\)), pois no denominador temos duas somas de quadrados,

  • o coeficiente de correlação mede apenas a intensidade das relações lineares entre \(x\) e \(y\) e não estabelece per si nenhuma relação de causação.







  • se \(r>0\) dizemos que há uma relação linear positiva entre as variáveis estudadas: para um incremento na primeira variável observa-se também um incremento na segunda;
  • se \(r<0\) a relação linear é negativa: um incremento em uma das variáveis é acompanhado por um decremento na outra; e,
  • se \(r=0\), então não há uma relação linear entre as variáveis consideradas.

O cálculo do coeficiente de correlação linear de Pearson assemelha-se a uma análise de variância

Figure

\[ y - \stackrel{-}{y} = (\hat{y} - \stackrel{-}{y}) + (y - \hat{y}) \]



Elevando-se ao quadrado ambos os termos, para todos os valores observados, teremos:

\[ \sum _{i=1}^{n} ({y_{i}} - \stackrel{-}{y_{i}})^{2} = \sum _{i=1}^{n} (\hat{y_{i}} - \stackrel{-}{y_{i}})^{2} + \sum _{i=1}^{n} (y_{i} - \hat{y_{i}})^{2} \]

A quantidade à esquerda mede a variação total dos y (Soma de quadrados total); à direita temos a Soma de quadrados da regressão e a Soma de quadrados dos resíduos e,

\[ r=\sqrt{\frac{\sum _{i=1}^{n} (\hat{y_{i}} - \stackrel{-}{y_{i}})^{2}}{\sum _{i=1}^{n} ({y_{i}} - \stackrel{-}{y_{i}})^{2}}} \]

A definição acima de \(r\) nos diz que \(100.r^{2}\) é a percentagem da variação total dos \(y\) que está sendo explicada por sua regressão linear com \(x\).


Exemplo 1: Um jornal deseja verificar a eficácia de seus anúncios na venda de carros usados e para isso realizou um levantamento de todos os seus anúncios e informações dos resultados obtidos pelas empresas que o contrataram e dele extraiu uma pequena amostra. A tabela a seguir mostra o número de anúncios e o correspondente número de veículos vendidos por 6 companhias que usaram apenas este jornal como veículo de propaganda. Existe alguma relação linear entre as variáveis? Construa o diagrama de dispersão e calcule o coeficiente de correlação linear.

Quadro de dados da quantidade de carros vendidos por 6 empresas distintas pela quantidade de anúncios feitos
Companhia Anúncios feitos (X) Carros vendidos (Y)
A 74 139
B 45 108
C 48 98
D 36 76
E 27 62
F 16 57


Figure


Quadro para cálculo do coeficiente de correlação linear (\(r\))
Companhia Anúncios (X) Carros vendidos (Y) xi * yi xi2 yi2
A 74 139 10286 5476 19321
B 45 108 4860 2025 11664
C 48 98 4704 2304 9604
D 36 76 2736 1296 5776
E 27 62 1674 729 3844
F 16 57 912 256 3249
Totais 246 540 25172 12086 53458

Sendo \(n= 6\) temos:

\[ S_{xy} = \sum _{i=1}^{n} x_{i}y_{i} - \frac{\sum _{i=1}^{n}x_{i}\cdot\sum _{i=1}^{n}y_{i}}{n} = 25172 - \frac{246 \cdot 540}{6} = 3032\\ S_{xx} = \sum _{i=1}^{n} x_{i}^{2} - \frac{(\sum _{i=1}^{n} x_{i})^{2}}{n} = 12086 - \frac{246^2}{6} = 2000\\ {S}_{yy} = \sum _{i=1}^{n}y_{i}^{2} - \frac{(\sum _{i=1}^{n} y_{i})^{2}}{n}= 53458 - \frac{540^2}{6} = 4858 \]

Portanto:

\[ r = \frac{{s}_{xy}}{\sqrt{{s}_{xx}\cdot {s}_{yy}}} = \frac{3032}{\sqrt{2000 \cdot 4858}} = 0,9727 \]