Teste Mann - Whitney U: o que é e quando é aplicado, execução, exemplo - Ciência - 2023

Contente

o Teste U de Mann-Whitney É aplicado para comparação de duas amostras independentes quando possuem poucos dados ou não seguem uma distribuição normal. Desta forma, é considerado um teste não paramétrico,Ao contrário de sua contraparte, o Teste t de estudante, que é usado quando a amostra é grande o suficiente e segue a distribuição normal.

Frank Wilcoxon o propôs pela primeira vez em 1945, para amostras de tamanhos idênticos, mas dois anos depois foi estendido para o caso de amostras de tamanhos diferentes por Henry Mann e D. R. Whitney.

O teste é frequentemente aplicado para verificar se há uma relação entre uma variável qualitativa e uma quantitativa.

Um exemplo ilustrativo é pegar um conjunto de hipertensos e extrair dois grupos, dos quais os dados diários de pressão arterial são registrados durante um mês.

O tratamento A é aplicado a um grupo e o tratamento B. Aqui a pressão arterial é a variável quantitativa e o tipo de tratamento é o qualitativo.

Queremos saber se a mediana, e não a média, dos valores medidos é estatisticamente igual ou diferente, para estabelecer se há diferença entre os dois tratamentos. Para obter a resposta, aplica-se a estatística de Wilcoxon ou o teste U de Mann-Whitney.

Declaração do problema no teste U de Mann-Whitney

Outro exemplo em que o teste pode ser aplicado é o seguinte:

Suponha que você queira saber se o consumo de refrigerantes difere significativamente nas duas regiões do país.

Uma delas é chamada de região A e a outra região B. Um registro é mantido dos litros consumidos semanalmente em duas amostras: uma de 10 pessoas para a região A e outra de 5 pessoas para a região B.

Os dados são os seguintes:

-Região A: 16, 11, 14, 21, 18, 34, 22, 7, 12, 12

-Região B: 12,14, 11, 30, 10

Surge a seguinte questão:

O consumo de refrigerantes (Y) depende da região (X)?

Variáveis qualitativas versus variáveis quantitativas

- Variável qualitativa X: Região

- Variável quantitativa Y: Consumo de refrigerante

Se a quantidade de litros consumidos for igual nas duas regiões, a conclusão será que não há dependência entre as duas variáveis. A forma de descobrir é comparar a tendência média ou mediana das duas regiões.

Caso normal

Se os dados seguem uma distribuição normal, duas hipóteses são levantadas: a nula H0 e a alternativa H1 por meio da comparação entre as médias:

–H0: não há diferença entre a média das duas regiões.

–H1: as médias de ambas as regiões são diferentes.

Caso com tendência não normal

Ao contrário, se os dados não seguem uma distribuição normal ou a amostra é simplesmente muito pequena para saber, em vez de comparar a média, ela seria comparada mediana das duas regiões.

–H0: não há diferença entre a mediana das duas regiões.

–H1: as medianas de ambas as regiões são diferentes.

Se as medianas coincidirem, então a hipótese nula se cumpre: não há relação entre o consumo de refrigerantes e a região.

E se acontecer o contrário, a hipótese alternativa é verdadeira: existe uma relação entre consumo e região.

É para esses casos em que o teste U de Mann-Whitney é indicado.

Amostras pareadas ou não pareadas

A próxima questão importante ao decidir se deve aplicar o teste U de Mann Whitney é se o número de dados em ambas as amostras é idêntico, o que significa que eles estão no par.

Se as duas amostras forem emparelhadas, a versão Wilcoxon original se aplicaria. Mas se não, como é o caso no exemplo, então o teste de Wilcoxon modificado é aplicado, que é precisamente o teste U de Mann Whitney.

Características do teste U de Mann Whitney

O teste U de Mann-Whitney é um teste não paramétrico, aplicável a amostras que não seguem a distribuição normal ou com poucos dados. Possui as seguintes características:

1.- Compare as medianas

2.- Funciona em intervalos ordenados

3.- É menos potente, ou seja, potência é a probabilidade de rejeitar a hipótese nula quando ela é realmente falsa.

Levando essas características em consideração, o teste U de Mann-Whitney é aplicado quando:

-Os dados são independentes

-Eles não seguem a distribuição normal

-A hipótese nula H0 é aceita se as medianas das duas amostras coincidirem: Ma = Mb

-A hipótese alternativa H1 é aceita se as medianas das duas amostras forem diferentes: Ma ≠ Mb

Mann - fórmula de Whitney

A variável U é a estatística de contraste usada no teste de Mann-Whitney e é definida da seguinte forma:

U = min (Ua, Ub)

Isso significa que U é o menor dos valores entre Ua e Ub, aplicado a cada grupo. Em nosso exemplo, seria para cada região: A ou B.

As variáveis Ua e Ub são definidas e calculadas de acordo com a seguinte fórmula:

Ua = Na Nb + Na (Na +1) / 2 - Ra

Ub = Na Nb + Nb (Nb +1) / 2 - Rb

Aqui, os valores de Na e Nb são os tamanhos das amostras correspondentes às regiões A e B, respectivamente e, por sua vez, Ra e Rb são os somas de classificação que iremos definir abaixo.

Passos para aplicar o teste

1.- Ordene os valores das duas amostras.

2.- Atribua uma classificação de pedido a cada valor.

3.- Corrigir os empates existentes nos dados (valores repetidos).

4.- Calcule Ra = Soma das classificações da amostra A.

5.- Encontre Rb = Soma das classificações da amostra B.

6.- Determine o valor Ua e Ub, de acordo com as fórmulas dadas na seção anterior.

7.- Compare Ua e Ub, e o menor dos dois é atribuído à estatística U experimental (isto é, dos dados) que é comparada com a estatística U teórica ou normal.

Exemplo de aplicação prática

Agora aplicamos o acima mencionado ao problema dos refrigerantes levantado anteriormente:

Região A: 16, 11, 14, 21, 18, 34, 22, 7, 12, 12

Região B: 12,14, 11, 30, 10

Dependendo se as médias das duas amostras são estatisticamente iguais ou diferentes, a hipótese nula é aceita ou rejeitada: não há relação entre as variáveis Y e X, ou seja, o consumo de refrigerantes não depende da região:

H0: Ma = Mb

H1: Ma ≠ Mb

- Passo 1

Passamos a ordenar os dados em conjunto para as duas amostras, ordenando os valores do menor para o maior:

Observe que o valor 11 aparece 2 vezes (uma vez em cada amostra). Originalmente possui posições ou faixas 3 e 4, mas para não superestimar ou subestimar uma ou outra, o valor médio é escolhido como a faixa, ou seja, 3,5.

Da mesma forma, procedemos com o valor 12, que se repete três vezes nos intervalos 5, 6 e 7.

Bem, o valor 12 é atribuído ao intervalo médio de 6 = (5 + 6 + 7) / 3. E o mesmo para o valor 14, que possui ligadura (aparece nas duas amostras) nas posições 8 e 9, é atribuída a faixa média 8,5 = (8 + 9) / 2.

- Passo 2

Em seguida, os dados da Região A e B são separados novamente, mas agora seus intervalos correspondentes são atribuídos a eles em outra linha:

Região A

Região B

Os intervalos Ra e Rb são obtidos a partir da soma dos elementos da segunda linha para cada caso ou região.

etapa 3

Os respectivos valores Ua e Ub são calculados:

Ua = 10 × 5 + 10 (10 + 1) / 2 - 86 = 19

Ub = 10 × 5 + 5 (5 + 1) / 2 -34 = 31

Valor experimental U = min (19, 31) = 19

Passo 4

Supõe-se que o U teórico segue uma distribuição normal N com parâmetros dados exclusivamente pelo tamanho das amostras:

N ((na⋅nb) / 2, √ [na nb (na + nb +1) / 12])

Para comparar a variável U obtida experimentalmente, com o U teórico é necessário fazer uma mudança de variável. Passamos da variável experimental U ao seu valortipificado, que será chamado Z, para poder fazer a comparação com uma distribuição normal padronizada.

A mudança de variável é a seguinte:

Z = (U - na.nb / 2) / √ [na. nb (na + nb + 1) / 12]

Deve-se notar que para a mudança de variável foram utilizados os parâmetros da distribuição teórica de U. Em seguida, a nova variável Z, que é um híbrido entre o U teórico e o U experimental, é contrastada com uma distribuição normal tipificada N (0,1 )

Critérios de comparação

Se Z ≤ Zα ⇒ a hipótese nula H0 é aceita

Se Z> Zα ⇒ hipótese nula H0 é rejeitada

Os valores críticos padronizados de Zα dependem do nível de confiança exigido, por exemplo, para um nível de confiança α = 0,95 = 95%, que é o mais usual, obtém-se o valor crítico Zα = 1,96.

Para os dados mostrados aqui:

Z = (U - na nb / 2) / √ [na nb (na + nb + 1) / 12] = -0,73

Que está abaixo do valor crítico 1,96.

Portanto, a conclusão final é que a hipótese nula H0 é aceita:

Não há diferença no consumo de refrigerante entre as regiões A e B.

Calculadoras online para o teste Mann - Whitney U

Existem programas específicos para cálculos estatísticos, incluindo SPSS e MINITAB, mas esses programas são pagos e nem sempre seu uso é fácil. Isso se deve ao fato de oferecerem tantas opções que seu uso é praticamente reservado a especialistas em Estatística.

Felizmente, há vários programas online muito precisos, gratuitos e fáceis de usar que permitem executar o teste U de Mann-Whitney, entre outros.

Esses programas são:

-Social Science Statistics (socscistatistics.com), que tem o teste U de Mann-Whitney e o teste de Wilcoxon no caso de amostras balanceadas ou emparelhadas.

-AI Therapy Statistics (ai-therapy.com), que possui vários dos testes usuais de estatística descritiva.

-Estatística de uso (physics.csbsju.edu/stats), uma das mais antigas, portanto sua interface pode parecer desatualizada, embora seja um programa gratuito muito eficiente.

Referências

Dietrichson. Métodos quantitativos: teste de classificação. Recuperado de: bookdown.org
Guia Marín J P. SPSS: Análise e procedimentos em testes não paramétricos. Recuperado de: halweb.uc3m.es
USAL MOOC. Testes não paramétricos: Mann - Whitney U. Recuperado de: youtube.com
Wikipedia. Teste U de Mann-Whitney. Recuperado de: es.wikipedia.com
XLSTAT. Centro de ajuda. Mann - Tutorial de teste de Whitney em Excel. Recuperado de: help.xlsat.com