Homocedasticidade: o que é, importância e exemplos - Ciência - 2023
science
Contente
- Importância da homocedasticidade
- Homocedasticidade versus heterocedasticidade
- Testes de homocedasticidade
- Variáveis padronizadas
- Testes não gráficos de homocedasticidade
- Referências
ohomocedasticidade Em um modelo estatístico preditivo, ocorre se em todos os grupos de dados de uma ou mais observações, a variância do modelo em relação às variáveis explicativas (ou independentes) permanece constante.
Um modelo de regressão pode ser homocedástico ou não, caso em que falamos de heterocedasticidade.
Um modelo de regressão estatística de várias variáveis independentes é denominado homocedástico, apenas se a variância do erro da variável prevista (ou o desvio padrão da variável dependente) permanecer uniforme para diferentes grupos de valores das variáveis explicativas ou independentes.
Nos cinco grupos de dados da Figura 1, foi calculada a variância em cada grupo, em relação ao valor estimado pela regressão, resultando em ser o mesmo em cada grupo. Além disso, é assumido que os dados seguem a distribuição normal.
No nível gráfico, significa que os pontos estão igualmente espalhados ou espalhados em torno do valor predito pelo ajuste de regressão, e que o modelo de regressão tem o mesmo erro e validade para o intervalo da variável explicativa.
Importância da homocedasticidade
Para ilustrar a importância da homocedasticidade nas estatísticas preditivas, é necessário contrastar com o fenômeno oposto, a heterocedasticidade.
Homocedasticidade versus heterocedasticidade
No caso da Figura 1, em que há homocedasticidade, é verdade que:
Var ((y1-Y1); X1) ≈ Var ((y2-Y2); X2) ≈ …… Var ((y4-Y4); X4)
Onde Var ((yi-Yi); Xi) representa a variância, o par (xi, yi) representa os dados do grupo i, enquanto Yi é o valor previsto pela regressão para o valor médio Xi do grupo. A variação dos n dados do grupo i é calculada da seguinte forma:
Var ((yi-Yi); Xi) = ∑j (yij - Yi) ^ 2 / n
Ao contrário, quando ocorre heterocedasticidade, o modelo de regressão pode não ser válido para toda a região em que foi calculado. A Figura 2 mostra um exemplo dessa situação.
A Figura 2 representa três grupos de dados e o ajuste do conjunto usando uma regressão linear. Deve-se notar que os dados do segundo e terceiro grupos são mais dispersos do que no primeiro grupo. O gráfico da figura 2 também mostra o valor médio de cada grupo e sua barra de erro ± σ, com o desvio padrão σ de cada grupo de dados. Deve ser lembrado que o desvio padrão σ é a raiz quadrada da variância.
É claro que no caso da heterocedasticidade, o erro de estimativa de regressão está mudando na faixa de valores da variável explicativa ou independente, e nos intervalos onde esse erro é muito grande, a previsão de regressão não é confiável ou não aplicável.
Em um modelo de regressão, os erros ou resíduos (e -Y) devem ser distribuídos com igual variância (σ ^ 2) ao longo do intervalo de valores da variável independente. É por esta razão que um bom modelo de regressão (linear ou não linear) deve passar no teste de homocedasticidade.
Testes de homocedasticidade
Os pontos apresentados na figura 3 correspondem aos dados de um estudo que busca uma relação entre os preços (em dólares) das casas em função do tamanho ou área em metros quadrados.
O primeiro modelo a ser testado é o de uma regressão linear. Em primeiro lugar, nota-se que o coeficiente de determinação R ^ 2 do ajuste é bastante elevado (91%), portanto pode-se pensar que o ajuste é satisfatório.
No entanto, duas regiões podem ser claramente distinguidas do gráfico de ajuste. Um deles, o da direita encerrado em oval, cumpre homocedasticidade, enquanto a região da esquerda não apresenta homocedasticidade.
Isso significa que a previsão do modelo de regressão é adequada e confiável na faixa de 1800 m ^ 2 a 4800 m ^ 2, mas muito inadequada fora desta região. Na zona heterocedástica, além de o erro ser muito grande, os dados parecem seguir uma tendência diferente daquela proposta pelo modelo de regressão linear.
O gráfico de dispersão dos dados é o teste mais simples e visual de sua homocedasticidade, porém, nas ocasiões em que não é tão óbvio como no exemplo mostrado na figura 3, é necessário recorrer a gráficos com variáveis auxiliares.
Variáveis padronizadas
Para separar as áreas onde a homocedasticidade é cumprida e onde não é, são introduzidas as variáveis padronizadas ZRes e ZPred:
ZRes = Abs (y - Y) / σ
ZPred = Y / σ
Deve-se observar que essas variáveis dependem do modelo de regressão aplicado, uma vez que Y é o valor da previsão da regressão. Abaixo está o gráfico de dispersão ZRes vs ZPred para o mesmo exemplo:
No gráfico da Figura 4 com as variáveis padronizadas, a área onde o erro residual é pequeno e uniforme é claramente separada da área onde não é. Na primeira zona, a homocedasticidade é atendida, enquanto na região onde o erro residual é altamente variável e grande, a heterocedasticidade é atendida.
O ajuste de regressão é aplicado ao mesmo grupo de dados da figura 3, neste caso o ajuste é não linear, pois o modelo utilizado envolve uma função potencial. O resultado é mostrado na figura a seguir:
No gráfico da Figura 5, as áreas homocedásticas e heterocedásticas devem ser claramente observadas. Deve-se notar também que essas zonas foram trocadas em relação àquelas formadas no modelo de ajuste linear.
No gráfico da Figura 5 fica evidente que mesmo quando existe um coeficiente de determinação do ajuste bastante elevado (93,5%), o modelo não é adequado para todo o intervalo da variável explicativa, uma vez que os dados para valores maior que 2.000 m ^ 2 apresentam heterocedasticidade.
Testes não gráficos de homocedasticidade
Um dos testes não gráficos mais utilizados para verificar se a homocedasticidade é atendida ou não é o Teste Breusch-Pagan.
Nem todos os detalhes deste teste serão dados neste artigo, mas suas características fundamentais e as etapas do mesmo são amplamente descritas:
- O modelo de regressão é aplicado aos dados n e a variância dos mesmos é calculada em relação ao valor estimado pelo modelo σ ^ 2 = ∑j (yj - Y) ^ 2 / n.
- Uma nova variável é definida ε = ((yj - Y) ^ 2) / (σ ^ 2)
- O mesmo modelo de regressão é aplicado à nova variável e seus novos parâmetros de regressão são calculados.
- O valor crítico Chi quadrado (χ ^ 2) é determinado, sendo esta metade da soma dos quadrados novos resíduos na variável ε.
- A tabela de distribuição de qui quadrado é usada considerando o nível de significância (geralmente 5%) e o número de graus de liberdade (# de variáveis de regressão menos a unidade) no eixo x da tabela, para obter o valor de A tabela.
- O valor crítico obtido no passo 3 é comparado com o valor encontrado na tabela (χ ^ 2).
- Se o valor crítico for inferior ao da tabela, temos a hipótese nula: há homocedasticidade
- Se o valor crítico estiver acima do da tabela, temos a hipótese alternativa: não há homocedasticidade.
A maioria dos pacotes de software estatístico como: SPSS, MiniTab, R, Python Pandas, SAS, StatGraphic e vários outros incorporam o teste de homocedasticidade de Breusch-Pagan. Outro teste para verificar a uniformidade de variância do Teste de Levene.
Referências
- Box, Hunter e Hunter. (1988) Estatísticas para pesquisadores. Eu inverti editores.
- Johnston, J (1989). Métodos econométricos, Vicens -Vives editores.
- Murillo e González (2000). Manual de Econometria. Universidade de Las Palmas de Gran Canaria. Recuperado de: ulpgc.es.
- Wikipedia. Homocedasticidade. Recuperado de: es.wikipedia.com
- Wikipedia. Homocedasticidade. Recuperado de: en.wikipedia.com