Homocedasticidade: o que é, importância e exemplos - Ciência - 2023


science
Homocedasticidade: o que é, importância e exemplos - Ciência
Homocedasticidade: o que é, importância e exemplos - Ciência

Contente

ohomocedasticidade Em um modelo estatístico preditivo, ocorre se em todos os grupos de dados de uma ou mais observações, a variância do modelo em relação às variáveis ​​explicativas (ou independentes) permanece constante.

Um modelo de regressão pode ser homocedástico ou não, caso em que falamos de heterocedasticidade.

Um modelo de regressão estatística de várias variáveis ​​independentes é denominado homocedástico, apenas se a variância do erro da variável prevista (ou o desvio padrão da variável dependente) permanecer uniforme para diferentes grupos de valores das variáveis ​​explicativas ou independentes.

Nos cinco grupos de dados da Figura 1, foi calculada a variância em cada grupo, em relação ao valor estimado pela regressão, resultando em ser o mesmo em cada grupo. Além disso, é assumido que os dados seguem a distribuição normal.


No nível gráfico, significa que os pontos estão igualmente espalhados ou espalhados em torno do valor predito pelo ajuste de regressão, e que o modelo de regressão tem o mesmo erro e validade para o intervalo da variável explicativa.

Importância da homocedasticidade

Para ilustrar a importância da homocedasticidade nas estatísticas preditivas, é necessário contrastar com o fenômeno oposto, a heterocedasticidade.

Homocedasticidade versus heterocedasticidade

No caso da Figura 1, em que há homocedasticidade, é verdade que:

Var ((y1-Y1); X1) ≈ Var ((y2-Y2); X2) ≈ …… Var ((y4-Y4); X4)

Onde Var ((yi-Yi); Xi) representa a variância, o par (xi, yi) representa os dados do grupo i, enquanto Yi é o valor previsto pela regressão para o valor médio Xi do grupo. A variação dos n dados do grupo i é calculada da seguinte forma:

Var ((yi-Yi); Xi) = ∑j (yij - Yi) ^ 2 / n

Ao contrário, quando ocorre heterocedasticidade, o modelo de regressão pode não ser válido para toda a região em que foi calculado. A Figura 2 mostra um exemplo dessa situação.


A Figura 2 representa três grupos de dados e o ajuste do conjunto usando uma regressão linear. Deve-se notar que os dados do segundo e terceiro grupos são mais dispersos do que no primeiro grupo. O gráfico da figura 2 também mostra o valor médio de cada grupo e sua barra de erro ± σ, com o desvio padrão σ de cada grupo de dados. Deve ser lembrado que o desvio padrão σ é a raiz quadrada da variância.


É claro que no caso da heterocedasticidade, o erro de estimativa de regressão está mudando na faixa de valores da variável explicativa ou independente, e nos intervalos onde esse erro é muito grande, a previsão de regressão não é confiável ou não aplicável.

Em um modelo de regressão, os erros ou resíduos (e -Y) devem ser distribuídos com igual variância (σ ^ 2) ao longo do intervalo de valores da variável independente. É por esta razão que um bom modelo de regressão (linear ou não linear) deve passar no teste de homocedasticidade.


Testes de homocedasticidade

Os pontos apresentados na figura 3 correspondem aos dados de um estudo que busca uma relação entre os preços (em dólares) das casas em função do tamanho ou área em metros quadrados.

O primeiro modelo a ser testado é o de uma regressão linear. Em primeiro lugar, nota-se que o coeficiente de determinação R ^ 2 do ajuste é bastante elevado (91%), portanto pode-se pensar que o ajuste é satisfatório.


No entanto, duas regiões podem ser claramente distinguidas do gráfico de ajuste. Um deles, o da direita encerrado em oval, cumpre homocedasticidade, enquanto a região da esquerda não apresenta homocedasticidade.

Isso significa que a previsão do modelo de regressão é adequada e confiável na faixa de 1800 m ^ 2 a 4800 m ^ 2, mas muito inadequada fora desta região. Na zona heterocedástica, além de o erro ser muito grande, os dados parecem seguir uma tendência diferente daquela proposta pelo modelo de regressão linear.

O gráfico de dispersão dos dados é o teste mais simples e visual de sua homocedasticidade, porém, nas ocasiões em que não é tão óbvio como no exemplo mostrado na figura 3, é necessário recorrer a gráficos com variáveis ​​auxiliares.


Variáveis ​​padronizadas

Para separar as áreas onde a homocedasticidade é cumprida e onde não é, são introduzidas as variáveis ​​padronizadas ZRes e ZPred:

ZRes = Abs (y - Y) / σ

ZPred = Y / σ

Deve-se observar que essas variáveis ​​dependem do modelo de regressão aplicado, uma vez que Y é o valor da previsão da regressão. Abaixo está o gráfico de dispersão ZRes vs ZPred para o mesmo exemplo:

No gráfico da Figura 4 com as variáveis ​​padronizadas, a área onde o erro residual é pequeno e uniforme é claramente separada da área onde não é. Na primeira zona, a homocedasticidade é atendida, enquanto na região onde o erro residual é altamente variável e grande, a heterocedasticidade é atendida.

O ajuste de regressão é aplicado ao mesmo grupo de dados da figura 3, neste caso o ajuste é não linear, pois o modelo utilizado envolve uma função potencial. O resultado é mostrado na figura a seguir:

No gráfico da Figura 5, as áreas homocedásticas e heterocedásticas devem ser claramente observadas. Deve-se notar também que essas zonas foram trocadas em relação àquelas formadas no modelo de ajuste linear.

No gráfico da Figura 5 fica evidente que mesmo quando existe um coeficiente de determinação do ajuste bastante elevado (93,5%), o modelo não é adequado para todo o intervalo da variável explicativa, uma vez que os dados para valores maior que 2.000 m ^ 2 apresentam heterocedasticidade.

Testes não gráficos de homocedasticidade

Um dos testes não gráficos mais utilizados para verificar se a homocedasticidade é atendida ou não é o Teste Breusch-Pagan.

Nem todos os detalhes deste teste serão dados neste artigo, mas suas características fundamentais e as etapas do mesmo são amplamente descritas:

  1. O modelo de regressão é aplicado aos dados n e a variância dos mesmos é calculada em relação ao valor estimado pelo modelo σ ^ 2 = ∑j (yj - Y) ^ 2 / n.
  2. Uma nova variável é definida ε = ((yj - Y) ^ 2) / (σ ^ 2)
  3. O mesmo modelo de regressão é aplicado à nova variável e seus novos parâmetros de regressão são calculados.
  4. O valor crítico Chi quadrado (χ ^ 2) é determinado, sendo esta metade da soma dos quadrados novos resíduos na variável ε.
  5. A tabela de distribuição de qui quadrado é usada considerando o nível de significância (geralmente 5%) e o número de graus de liberdade (# de variáveis ​​de regressão menos a unidade) no eixo x da tabela, para obter o valor de A tabela.
  6. O valor crítico obtido no passo 3 é comparado com o valor encontrado na tabela (χ ^ 2).
  7. Se o valor crítico for inferior ao da tabela, temos a hipótese nula: há homocedasticidade
  8. Se o valor crítico estiver acima do da tabela, temos a hipótese alternativa: não há homocedasticidade.

A maioria dos pacotes de software estatístico como: SPSS, MiniTab, R, Python Pandas, SAS, StatGraphic e vários outros incorporam o teste de homocedasticidade de Breusch-Pagan. Outro teste para verificar a uniformidade de variância do Teste de Levene.

Referências

  1. Box, Hunter e Hunter. (1988) Estatísticas para pesquisadores. Eu inverti editores.
  2. Johnston, J (1989). Métodos econométricos, Vicens -Vives editores.
  3. Murillo e González (2000). Manual de Econometria. Universidade de Las Palmas de Gran Canaria. Recuperado de: ulpgc.es.
  4. Wikipedia. Homocedasticidade. Recuperado de: es.wikipedia.com
  5. Wikipedia. Homocedasticidade. Recuperado de: en.wikipedia.com