Teste Mann - Whitney U: o que é e quando é aplicado, execução, exemplo - Ciência - 2023
science
Contente
- Declaração do problema no teste U de Mann-Whitney
- Variáveis qualitativas versus variáveis quantitativas
- Caso normal
- Caso com tendência não normal
- Amostras pareadas ou não pareadas
- Características do teste U de Mann Whitney
- Mann - fórmula de Whitney
- Passos para aplicar o teste
- Exemplo de aplicação prática
- - Passo 1
- - Passo 2
- Região A
- Região B
- etapa 3
- Passo 4
- Critérios de comparação
- Calculadoras online para o teste Mann - Whitney U
- Referências
o Teste U de Mann-Whitney É aplicado para comparação de duas amostras independentes quando possuem poucos dados ou não seguem uma distribuição normal. Desta forma, é considerado um teste não paramétrico,Ao contrário de sua contraparte, o Teste t de estudante, que é usado quando a amostra é grande o suficiente e segue a distribuição normal.
Frank Wilcoxon o propôs pela primeira vez em 1945, para amostras de tamanhos idênticos, mas dois anos depois foi estendido para o caso de amostras de tamanhos diferentes por Henry Mann e D. R. Whitney.
O teste é frequentemente aplicado para verificar se há uma relação entre uma variável qualitativa e uma quantitativa.
Um exemplo ilustrativo é pegar um conjunto de hipertensos e extrair dois grupos, dos quais os dados diários de pressão arterial são registrados durante um mês.
O tratamento A é aplicado a um grupo e o tratamento B. Aqui a pressão arterial é a variável quantitativa e o tipo de tratamento é o qualitativo.
Queremos saber se a mediana, e não a média, dos valores medidos é estatisticamente igual ou diferente, para estabelecer se há diferença entre os dois tratamentos. Para obter a resposta, aplica-se a estatística de Wilcoxon ou o teste U de Mann-Whitney.
Declaração do problema no teste U de Mann-Whitney
Outro exemplo em que o teste pode ser aplicado é o seguinte:
Suponha que você queira saber se o consumo de refrigerantes difere significativamente nas duas regiões do país.
Uma delas é chamada de região A e a outra região B. Um registro é mantido dos litros consumidos semanalmente em duas amostras: uma de 10 pessoas para a região A e outra de 5 pessoas para a região B.
Os dados são os seguintes:
-Região A: 16, 11, 14, 21, 18, 34, 22, 7, 12, 12
-Região B: 12,14, 11, 30, 10
Surge a seguinte questão:
O consumo de refrigerantes (Y) depende da região (X)?
Variáveis qualitativas versus variáveis quantitativas
- Variável qualitativa X: Região
- Variável quantitativa Y: Consumo de refrigerante
Se a quantidade de litros consumidos for igual nas duas regiões, a conclusão será que não há dependência entre as duas variáveis. A forma de descobrir é comparar a tendência média ou mediana das duas regiões.
Caso normal
Se os dados seguem uma distribuição normal, duas hipóteses são levantadas: a nula H0 e a alternativa H1 por meio da comparação entre as médias:
–H0: não há diferença entre a média das duas regiões.
–H1: as médias de ambas as regiões são diferentes.
Caso com tendência não normal
Ao contrário, se os dados não seguem uma distribuição normal ou a amostra é simplesmente muito pequena para saber, em vez de comparar a média, ela seria comparada mediana das duas regiões.
–H0: não há diferença entre a mediana das duas regiões.
–H1: as medianas de ambas as regiões são diferentes.
Se as medianas coincidirem, então a hipótese nula se cumpre: não há relação entre o consumo de refrigerantes e a região.
E se acontecer o contrário, a hipótese alternativa é verdadeira: existe uma relação entre consumo e região.
É para esses casos em que o teste U de Mann-Whitney é indicado.
Amostras pareadas ou não pareadas
A próxima questão importante ao decidir se deve aplicar o teste U de Mann Whitney é se o número de dados em ambas as amostras é idêntico, o que significa que eles estão no par.
Se as duas amostras forem emparelhadas, a versão Wilcoxon original se aplicaria. Mas se não, como é o caso no exemplo, então o teste de Wilcoxon modificado é aplicado, que é precisamente o teste U de Mann Whitney.
Características do teste U de Mann Whitney
O teste U de Mann-Whitney é um teste não paramétrico, aplicável a amostras que não seguem a distribuição normal ou com poucos dados. Possui as seguintes características:
1.- Compare as medianas
2.- Funciona em intervalos ordenados
3.- É menos potente, ou seja, potência é a probabilidade de rejeitar a hipótese nula quando ela é realmente falsa.
Levando essas características em consideração, o teste U de Mann-Whitney é aplicado quando:
-Os dados são independentes
-Eles não seguem a distribuição normal
-A hipótese nula H0 é aceita se as medianas das duas amostras coincidirem: Ma = Mb
-A hipótese alternativa H1 é aceita se as medianas das duas amostras forem diferentes: Ma ≠ Mb
Mann - fórmula de Whitney
A variável U é a estatística de contraste usada no teste de Mann-Whitney e é definida da seguinte forma:
U = min (Ua, Ub)
Isso significa que U é o menor dos valores entre Ua e Ub, aplicado a cada grupo. Em nosso exemplo, seria para cada região: A ou B.
As variáveis Ua e Ub são definidas e calculadas de acordo com a seguinte fórmula:
Ua = Na Nb + Na (Na +1) / 2 - Ra
Ub = Na Nb + Nb (Nb +1) / 2 - Rb
Aqui, os valores de Na e Nb são os tamanhos das amostras correspondentes às regiões A e B, respectivamente e, por sua vez, Ra e Rb são os somas de classificação que iremos definir abaixo.
Passos para aplicar o teste
1.- Ordene os valores das duas amostras.
2.- Atribua uma classificação de pedido a cada valor.
3.- Corrigir os empates existentes nos dados (valores repetidos).
4.- Calcule Ra = Soma das classificações da amostra A.
5.- Encontre Rb = Soma das classificações da amostra B.
6.- Determine o valor Ua e Ub, de acordo com as fórmulas dadas na seção anterior.
7.- Compare Ua e Ub, e o menor dos dois é atribuído à estatística U experimental (isto é, dos dados) que é comparada com a estatística U teórica ou normal.
Exemplo de aplicação prática
Agora aplicamos o acima mencionado ao problema dos refrigerantes levantado anteriormente:
Região A: 16, 11, 14, 21, 18, 34, 22, 7, 12, 12
Região B: 12,14, 11, 30, 10
Dependendo se as médias das duas amostras são estatisticamente iguais ou diferentes, a hipótese nula é aceita ou rejeitada: não há relação entre as variáveis Y e X, ou seja, o consumo de refrigerantes não depende da região:
H0: Ma = Mb
H1: Ma ≠ Mb
- Passo 1
Passamos a ordenar os dados em conjunto para as duas amostras, ordenando os valores do menor para o maior:
Observe que o valor 11 aparece 2 vezes (uma vez em cada amostra). Originalmente possui posições ou faixas 3 e 4, mas para não superestimar ou subestimar uma ou outra, o valor médio é escolhido como a faixa, ou seja, 3,5.
Da mesma forma, procedemos com o valor 12, que se repete três vezes nos intervalos 5, 6 e 7.
Bem, o valor 12 é atribuído ao intervalo médio de 6 = (5 + 6 + 7) / 3. E o mesmo para o valor 14, que possui ligadura (aparece nas duas amostras) nas posições 8 e 9, é atribuída a faixa média 8,5 = (8 + 9) / 2.
- Passo 2
Em seguida, os dados da Região A e B são separados novamente, mas agora seus intervalos correspondentes são atribuídos a eles em outra linha:
Região A
Região B
Os intervalos Ra e Rb são obtidos a partir da soma dos elementos da segunda linha para cada caso ou região.
etapa 3
Os respectivos valores Ua e Ub são calculados:
Ua = 10 × 5 + 10 (10 + 1) / 2 - 86 = 19
Ub = 10 × 5 + 5 (5 + 1) / 2 -34 = 31
Valor experimental U = min (19, 31) = 19
Passo 4
Supõe-se que o U teórico segue uma distribuição normal N com parâmetros dados exclusivamente pelo tamanho das amostras:
N ((na⋅nb) / 2, √ [na nb (na + nb +1) / 12])
Para comparar a variável U obtida experimentalmente, com o U teórico é necessário fazer uma mudança de variável. Passamos da variável experimental U ao seu valortipificado, que será chamado Z, para poder fazer a comparação com uma distribuição normal padronizada.
A mudança de variável é a seguinte:
Z = (U - na.nb / 2) / √ [na. nb (na + nb + 1) / 12]
Deve-se notar que para a mudança de variável foram utilizados os parâmetros da distribuição teórica de U. Em seguida, a nova variável Z, que é um híbrido entre o U teórico e o U experimental, é contrastada com uma distribuição normal tipificada N (0,1 )
Critérios de comparação
Se Z ≤ Zα ⇒ a hipótese nula H0 é aceita
Se Z> Zα ⇒ hipótese nula H0 é rejeitada
Os valores críticos padronizados de Zα dependem do nível de confiança exigido, por exemplo, para um nível de confiança α = 0,95 = 95%, que é o mais usual, obtém-se o valor crítico Zα = 1,96.
Para os dados mostrados aqui:
Z = (U - na nb / 2) / √ [na nb (na + nb + 1) / 12] = -0,73
Que está abaixo do valor crítico 1,96.
Portanto, a conclusão final é que a hipótese nula H0 é aceita:
Não há diferença no consumo de refrigerante entre as regiões A e B.
Calculadoras online para o teste Mann - Whitney U
Existem programas específicos para cálculos estatísticos, incluindo SPSS e MINITAB, mas esses programas são pagos e nem sempre seu uso é fácil. Isso se deve ao fato de oferecerem tantas opções que seu uso é praticamente reservado a especialistas em Estatística.
Felizmente, há vários programas online muito precisos, gratuitos e fáceis de usar que permitem executar o teste U de Mann-Whitney, entre outros.
Esses programas são:
-Social Science Statistics (socscistatistics.com), que tem o teste U de Mann-Whitney e o teste de Wilcoxon no caso de amostras balanceadas ou emparelhadas.
-AI Therapy Statistics (ai-therapy.com), que possui vários dos testes usuais de estatística descritiva.
-Estatística de uso (physics.csbsju.edu/stats), uma das mais antigas, portanto sua interface pode parecer desatualizada, embora seja um programa gratuito muito eficiente.
Referências
- Dietrichson. Métodos quantitativos: teste de classificação. Recuperado de: bookdown.org
- Guia Marín J P. SPSS: Análise e procedimentos em testes não paramétricos. Recuperado de: halweb.uc3m.es
- USAL MOOC. Testes não paramétricos: Mann - Whitney U. Recuperado de: youtube.com
- Wikipedia. Teste U de Mann-Whitney. Recuperado de: es.wikipedia.com
- XLSTAT. Centro de ajuda. Mann - Tutorial de teste de Whitney em Excel. Recuperado de: help.xlsat.com