Coeficiente de correlação: fórmulas, cálculo, interpretação, exemplo - Ciência - 2023
science
Contente
- Como calcular o coeficiente de correlação?
- Covariância e variância
- Caso ilustrativo
- Covariância Sxy
- Desvio padrão Sx
- Desvio padrão Sy
- Coeficiente de correlação r
- Interpretação
- Regressão linear
- Exemplo
- Referências
o coeficiente de correlação em estatística é um indicador que mede a tendência de duas variáveis quantitativas X e Y terem uma relação linear ou proporcional entre si.
Geralmente, os pares de variáveis X e Y são duas características da mesma população. Por exemplo, X pode ser a altura de uma pessoa e Y seu peso.
Nesse caso, o coeficiente de correlação indicaria se há ou não tendência de relação proporcional entre altura e peso em uma determinada população.
O coeficiente de correlação linear de Pearson é denotado pela letra r letras minúsculas e seus valores mínimo e máximo são -1 e +1, respectivamente.
Um valor r = +1 indicaria que o conjunto de pares (X, Y) está perfeitamente alinhado e que quando X crescer, Y crescerá na mesma proporção. Por outro lado, se r = -1, o conjunto de pares também ficaria perfeitamente alinhado, mas neste caso quando X aumenta, Y diminui na mesma proporção.
Por outro lado, um valor r = 0 indicaria que não há correlação linear entre as variáveis X e Y. Enquanto um valor de r = +0,8 indicaria que os pares (X, Y) tendem a se agrupar em um lado e outro de uma certa linha.
A fórmula para calcular o coeficiente de correlação r é a seguinte:
Como calcular o coeficiente de correlação?
O coeficiente de correlação linear é uma quantidade estatística incluída em calculadoras científicas, na maioria das planilhas e em programas estatísticos.
Porém, é conveniente saber como se aplica a fórmula que a define, e para isso será mostrado um cálculo detalhado, realizado em um pequeno conjunto de dados.
E como afirmado na seção anterior, o coeficiente de correlação é a covariância Sxy dividida pelo produto do desvio padrão Sx para as variáveis X e Sy para a variável Y.
Covariância e variância
A covariância Sxy é:
Sxy = [Σ (Xi - Onde a soma vai de 1 a N pares de dados (Xi, Yi). Por sua vez, o desvio padrão da variável X é a raiz quadrada da variância do conjunto de dados Xi, com i de 1 a N: Sx = √ [Σ (Xi - Da mesma forma, o desvio padrão para a variável Y é a raiz quadrada da variância do conjunto de dados Yi, com i de 1 a N: Sy = √ [Σ (Yi - A fim de mostrar em detalhes como calcular o coeficiente de correlação, tomaremos o seguinte conjunto de quatro pares de dados (X, Y): {(1, 1); (2,3); (3, 6) e (4, 7)}. Primeiro, calculamos a média aritmética para X e Y, como segue: Em seguida, os parâmetros restantes são calculados: Sxy = [(1 - 2,5) (1 - 4,25) + (2 - 2,5) (3 - 4,25) + (3 - 2,5) (6 - 4,25) +…. …. (4 - 2,5) (7 - 4,25)] / (4-1) Sxy = [(-1,5) (- 3,25) + (-0,5) (- 1,25) + (0,5) (1,75) +…. ….(1.5)(2.75) ] / (3) = 10.5 / 3 = 3.5 Sx = √ [(-1,5)2 + (-0.5)2 + (0.5)2 + (1.5)2) / (4-1)] = √[5/3] = 1.29 Sx = √ [(-3,25)2 + (-1.25)2 + (1.75)2 + (2.75)2) / (4-1)] = √[22.75/3] = 2.75 r = 3,5 / (1,29 * 2,75) = 0.98 No conjunto de dados do caso anterior, observa-se uma forte correlação linear entre as variáveis X e Y, que se manifesta tanto no gráfico de dispersão (mostrado na figura 1) quanto no coeficiente de correlação, que gerou um valor bastante próximo da unidade. Na medida em que o coeficiente de correlação está mais próximo de 1 ou -1, mais sentido faz o ajuste dos dados a uma linha, o resultado da regressão linear. A linha de regressão linear é obtida a partir de Método dos mínimos quadrados.em que os parâmetros da reta de regressão são obtidos a partir da minimização da soma do quadrado da diferença entre o valor estimado de Y e o Yi dos N dados. Por sua vez, os parâmetros aeb da reta de regressão y = a + bx, obtidos pelo método dos mínimos quadrados, são: * b = Sxy / (Sx2) para a inclinação * a = Lembre-se de que Sxy é a covariância definida acima e Sx2 é a variância ou quadrado do desvio padrão definido acima. O coeficiente de correlação é usado para determinar se existe uma correlação linear entre duas variáveis. É aplicável quando as variáveis a serem estudadas são quantitativas e, além disso, assume-se que seguem uma distribuição do tipo normal. Temos um exemplo ilustrativo a seguir: uma medida do grau de obesidade é o índice de massa corporal, que é obtido dividindo o peso de uma pessoa em quilogramas pelo quadrado da altura da pessoa em unidades de metros ao quadrado. Você quer saber se existe uma forte correlação entre o índice de massa corporal e a concentração de colesterol HDL no sangue, medida em milimoles por litro. Para tanto, foi realizado um estudo com 533 pessoas, que se resume no gráfico a seguir, em que cada ponto representa os dados de uma pessoa. A observação cuidadosa do gráfico mostra que existe uma certa tendência linear (não muito acentuada) entre a concentração de colesterol HDL e o índice de massa corporal. A medida quantitativa dessa tendência é o coeficiente de correlação, que para esse caso acabou sendo r = -0,276.Caso ilustrativo
Covariância Sxy
Desvio padrão Sx
Desvio padrão Sy
Coeficiente de correlação r
Interpretação
Regressão linear
Exemplo
Referências