Coeficiente de determinação: fórmulas, cálculo, interpretação, exemplos - Ciência - 2023
science
Contente
- Como calcular o coeficiente de determinação?
- Caso ilustrativo
- Interpretação
- Exemplos
- - Exemplo 1
- Solução
- - Exemplo 2
- Solução
- - Exemplo 3
- Solução
- Comparação de ajuste
- Conclusões
- Referências
o coeficiente de determinação é um número entre 0 e 1 que representa a fração de pontos (X, Y) que segue a linha de regressão de ajuste de um conjunto de dados com duas variáveis.
Também é conhecido como qualidade de ajuste e é denotado por R2. Para calculá-lo, é considerado o quociente entre a variância dos dados estimatedi estimados pelo modelo de regressão e a variância dos dados Yi correspondentes a cada Xi dos dados.
R2 = Sŷ / Sy
Se 100% dos dados estiverem na linha da função de regressão, o coeficiente de determinação será 1.
Pelo contrário, se para um conjunto de dados e uma certa função de ajuste o coeficiente R2 acaba sendo igual a 0,5, então pode-se dizer que o ajuste é 50% satisfatório ou bom.
Da mesma forma, quando o modelo de regressão retorna valores de R2 menor que 0,5, indica que a função de ajuste escolhida não se adapta satisfatoriamente aos dados, portanto é necessário procurar outra função de ajuste.
E quando o covariância ou o coeficiente de correlação tende a zero, então as variáveis X e Y nos dados não estão relacionadas e, portanto, R2 ele também tenderá a zero.
Como calcular o coeficiente de determinação?
Na seção anterior, foi dito que o coeficiente de determinação é calculado encontrando o quociente entre as variâncias:
-Estimado pela função de regressão da variável Y
-A da variável Yi correspondente a cada uma das variáveis Xi dos N pares de dados.
Expresso matematicamente, é assim:
R2 = Sŷ / Sy
Desta fórmula segue que R2 representa a proporção da variância explicada pelo modelo de regressão. Alternativamente, R pode ser calculado2 utilizando a seguinte fórmula, totalmente equivalente à anterior:
R2 = 1 - (Sε / Sy)
Onde Sε representa a variância dos resíduos εi = Ŷi - Yi, enquanto Sy é a variância do conjunto de valores Yi dos dados. Para determinar Ŷi é aplicada a função de regressão, o que significa afirmar que Ŷi = f (Xi).
A variância do conjunto de dados Yi, com i de 1 a N é calculada desta forma:
Sy = [Σ (Yi - E então proceda de forma semelhante para Sŷ ou para Sε. A fim de mostrar o detalhe de como o cálculo do coeficiente de determinação Pegaremos o seguinte conjunto de quatro pares de dados: (X, Y): {(1, 1); (2,3); (3, 6) e (4, 7)}. Um ajuste de regressão linear é proposto para este conjunto de dados, que é obtido usando o método dos mínimos quadrados: f (x) = 2,1 x - 1 Aplicando esta função de ajuste, os torques são obtidos: (X, Ŷ): {(1, 1,1); (2, 3,2); (3, 5.3) e (4, 7.4)}. Em seguida, calculamos a média aritmética para X e Y: Variance Sy Sy = [(1 - 4,25)2 + (3 – 4.25)2 + (6 – 4.25)2 +…. ….(7 – 4.25)2] / (4-1)= = [(-3.25)2+ (-1.25)2 + (1.75)2 + (2.75)2) / (3)] = 7.583 Variância Sŷ Sŷ = [(1,1 - 4,25)2 + (3.2 – 4.25)2 + (5.3 – 4.25)2 +…. ….(7.4 – 4.25)2] / (4-1)= = [(-3.25)2 + (-1.25)2 + (1.75)2 + (2.75)2) / (3)] = 7.35 Coeficiente de determinação R2 R2 = Sŷ / Sy = 7,35 / 7,58 = 0,97 O coeficiente de determinação para o caso ilustrativo considerado no segmento anterior acabou sendo 0,98. Em outras palavras, o ajuste linear por meio da função: f (x) = 2,1x - 1 É 98% confiável para explicar os dados com os quais foi obtido pelo método dos mínimos quadrados. Além do coeficiente de determinação, existe o coeficiente de correlação linear ou também conhecido como coeficiente de Pearson. Este coeficiente, denotado comor, é calculado pela seguinte relação: r = Sxy / (Sx Sy) Aqui, o numerador representa a covariância entre as variáveis X e Y, enquanto o denominador é o produto do desvio padrão da variável X e do desvio padrão da variável Y. O coeficiente de Pearson pode assumir valores entre -1 e +1. Quando este coeficiente tende a +1, há uma correlação linear direta entre X e Y. Se, em vez disso, tende a -1, há uma correlação linear, mas quando X aumenta, Y diminui. Por fim, está próximo de 0, não há correlação entre as duas variáveis. Deve-se observar que o coeficiente de determinação coincide com o quadrado do coeficiente de Pearson, apenas quando o primeiro foi calculado com base em um ajuste linear, mas essa igualdade não é válida para outros ajustes não lineares. Um grupo de alunos do ensino médio decidiu determinar uma lei empírica para o período de um pêndulo em função de seu comprimento. Para atingir este objetivo, realizam uma série de medições em que medem o tempo de oscilação de um pêndulo para diferentes comprimentos obtendo os seguintes valores: É solicitado fazer um gráfico de dispersão dos dados e executar um ajuste linear por meio de regressão. Além disso, mostre a equação de regressão e seu coeficiente de determinação. Um coeficiente de determinação bastante alto (95%) pode ser observado, então pode-se pensar que o ajuste linear é ótimo. No entanto, se os pontos forem vistos juntos, parece que eles tendem a se curvar para baixo. Este detalhe não está contemplado no modelo linear. Para os mesmos dados do Exemplo 1, faça um gráfico de dispersão dos dados.Nesta ocasião, ao contrário do exemplo 1, um ajuste de regressão é solicitado usando uma função potencial. Mostre também a função de ajuste e seu coeficiente de determinação R2. A função potencial é da forma f (x) = AxB, onde A e B são constantes determinadas pelo método dos mínimos quadrados. A figura anterior mostra a função potencial e seus parâmetros, bem como o coeficiente de determinação com um valor muito alto de 99%. Observe que os dados seguem a curvatura da linha de tendência. Usando os mesmos dados do Exemplo 1 e Exemplo 2, execute um ajuste polinomial de segundo grau. Mostrar gráfico, polinômio de ajuste e coeficiente de determinação R2 correspondente. Com o ajuste polinomial de segundo grau, você pode ver uma linha de tendência que se ajusta bem à curvatura dos dados. Além disso, o coeficiente de determinação está acima do ajuste linear e abaixo do ajuste potencial. Dos três ajustes mostrados, aquele com o maior coeficiente de determinação é o ajuste potencial (exemplo 2). O ajuste potencial coincide com a teoria física do pêndulo, que, como se sabe, estabelece que o período de um pêndulo é proporcional à raiz quadrada de seu comprimento, sendo a constante de proporcionalidade 2π / √g onde g é a aceleração da gravidade. Esse tipo de ajuste de potencial não apenas possui o maior coeficiente de determinação, mas o expoente e a constante de proporcionalidade correspondem ao modelo físico. -O ajuste de regressão determina os parâmetros da função que visa explicar os dados usando o método dos mínimos quadrados. Este método consiste em minimizar a soma da diferença quadrática entre o valor Y de ajuste e o valor Yi dos dados para os valores Xi dos dados. Isso determina os parâmetros da função de ajuste. -Como vimos, a função de ajuste mais comum é a linha, mas não é a única, pois os ajustes também podem ser polinomiais, potenciais, exponenciais, logarítmicos e outros. - Em qualquer caso, o coeficiente de determinação depende dos dados e do tipo de ajuste e é uma indicação da bondade do ajuste aplicado. -Finalmente, o coeficiente de determinação indica a porcentagem da variabilidade total entre o valor Y dos dados em relação ao valor Ŷ do ajuste para o X dado.Caso ilustrativo
Interpretação
Exemplos
- Exemplo 1
Comprimento (m) Período (s) 0,1 0,6 0,4 1,31 0,7 1,78 1 1,93 1,3 2,19 1,6 2,66 1,9 2,77 3 3,62 Solução
- Exemplo 2
Solução
- Exemplo 3
Solução
Comparação de ajuste
Conclusões
Referências