Distribuição hipergeométrica: fórmulas, equações, modelo - Ciência - 2023


science
Distribuição hipergeométrica: fórmulas, equações, modelo - Ciência
Distribuição hipergeométrica: fórmulas, equações, modelo - Ciência

Contente

o distribuição hipergeométrica é uma função estatística discreta, adequada para calcular a probabilidade em experimentos randomizados com dois resultados possíveis. A condição necessária para aplicá-lo é que sejam populações pequenas, nas quais os saques não sejam substituídos e as probabilidades não sejam constantes.

Portanto, quando um elemento da população é escolhido para saber o resultado (verdadeiro ou falso) de uma determinada característica, esse mesmo elemento não pode ser escolhido novamente.

Certamente, o próximo elemento escolhido é, portanto, mais provável de obter um resultado verdadeiro, se o elemento anterior teve um resultado negativo. Isso significa que a probabilidade varia conforme os elementos são removidos da amostra.

As principais aplicações da distribuição hipergeométrica são: controle de qualidade em processos com pouca população e cálculo de probabilidades em jogos de azar.


Já a função matemática que define a distribuição hipergeométrica é constituída por três parâmetros, que são:

- Número de elementos da população (N)

- Tamanho da amostra (m)

- Número de eventos em toda a população com resultado favorável (ou desfavorável) para a característica estudada (n).

Fórmulas e equações

A fórmula para a distribuição hipergeométrica dá a probabilidade P de que x Ocorrem casos favoráveis ​​de uma determinada característica. A maneira de escrever matematicamente, com base nos números combinatórios, é:

Na expressão acima N, n Y m são parâmetros e x a própria variável.

População total é N.


- Número de resultados positivos de uma certa característica binária em relação à população total é n.

-Quantidade de itens de amostra é m.

Neste caso,X é uma variável aleatória que assume o valor x YP (x) indica a probabilidade de ocorrência de x casos favoráveis ​​da característica estudada.

Variáveis ​​estatísticas importantes

Outras variáveis ​​estatísticas para a distribuição hipergeométrica são:

- Metade μ = m * n / N

- Variância σ ^ 2 = m * (n / N) * (1-n / N) * (N-m) / (N-1)

- Desvio típico σ que é a raiz quadrada da variância.

Modelo e propriedades

Para chegar ao modelo da distribuição hipergeométrica, partimos da probabilidade de obter x casos favoráveis ​​em um tamanho de amostra m.Esta amostra contém elementos que estão de acordo com a propriedade em estudo e elementos que não estão.

Lembre-se disso n representa o número de casos favoráveis ​​na população total de N elementos Então, a probabilidade seria calculada assim:


P (x) = (# de maneiras de obter x # de maneiras com falha) / (# total de maneiras de selecionar)

Expressando o acima na forma de números combinatórios, o seguinte modelo de distribuição de probabilidade é alcançado:

Principais propriedades da distribuição hipergeométrica

São as seguintes:

- A amostra deve ser sempre pequena, mesmo que a população seja grande.

- Os elementos da amostra são extraídos um a um, sem incorporá-los de volta à população.

- A propriedade a estudar é binária, ou seja, pode assumir apenas dois valores: 1 ou 0, o bem verdadeiro ou falso.

Em cada etapa de extração de elemento, a probabilidade muda dependendo dos resultados anteriores.

Aproximação usando a distribuição binomial

Outra propriedade da distribuição hipergeométrica é que ela pode ser aproximada pela distribuição binomial, denotada como Bicontanto que a população N é grande e pelo menos 10 vezes maior que a amostra m. Nesse caso, seria assim:

P (N, n, m; x) = Bi (m, n / N, x)          

Aplicável desde que N seja grande e N> 10m

Exemplos

Exemplo 1

Suponha uma máquina que produz parafusos e os dados acumulados indiquem que 1% apresenta defeitos. Então, em uma caixa de N = 500 parafusos, o número de defeituosos será:

n = 500 * 1/100 = 5

Probabilidades usando a distribuição hipergeométrica

Suponha que dessa caixa (ou seja, dessa população) tiremos uma amostra de m = 60 parafusos.

A probabilidade de nenhum parafuso (x = 0) na amostra apresentar defeito é de 52,63%. Este resultado é alcançado usando a função de distribuição hipergeométrica:

P (500, 5, 60, 0) = 0,5263

A probabilidade de que x = 3 parafusos na amostra sejam defeituosos é: P (500, 5, 60, 3) = 0,0129.

Por sua vez, a probabilidade de que x = 4 parafusos em sessenta da amostra sejam defeituosos é: P (500, 5, 60; 4) = 0,0008.

Finalmente, a probabilidade de que x = 5 parafusos nessa amostra sejam defeituosos é: P (500, 5, 60; 5) = 0.

Mas se você quiser saber a probabilidade de que nessa amostra haja mais de 3 parafusos com defeito, você deve obter a probabilidade cumulativa, adicionando:

P (3) + P (4) + P (5) = 0,0129 + 0,0008 + 0 = 0,0137.

Este exemplo é ilustrado na figura 2, obtido usando GeoGebra um software livre amplamente utilizado em escolas, institutos e universidades.

Exemplo 2

Um deck espanhol tem 40 cartas, das quais 10 são douradas e as 30 restantes não. Suponha que 7 cartas sejam tiradas aleatoriamente desse baralho, as quais não são reincorporadas ao baralho.

Se X for o número de ouros presentes nas 7 cartas sorteadas, então a probabilidade de haver x golds em uma retirada de 7 cartas é dada pela distribuição hipergeométrica P (40,10,7; x).

Vamos ver assim: para calcular a probabilidade de ter 4 ouros em um sorteio de 7 cartas, usamos a fórmula da distribuição hipergeométrica com os seguintes valores:

E o resultado é: 4,57% de probabilidade.

Mas se você quiser saber a probabilidade de obter mais de 4 cartas, você deve adicionar:

P (4) + P (5) + P (6) + P (7) = 5,20%

Exercícios resolvidos

O seguinte conjunto de exercícios tem como objetivo ilustrar e assimilar os conceitos apresentados neste artigo. É importante que o leitor tente resolvê-los sozinho, antes de olhar para a solução.

Exercício 1

Uma fábrica de preservativos descobriu que de cada 1000 preservativos produzidos por uma determinada máquina, 5 estão com defeito. Para controle de qualidade, são retirados 100 preservativos ao acaso e o lote é rejeitado caso haja pelo menos um ou mais com defeito. Resposta:

a) Qual é a possibilidade de que um lote de 100 seja descartado?

b) Este critério de controle de qualidade é eficiente?

Solução

Nesse caso, números combinatórios muito grandes aparecerão. O cálculo é difícil, a menos que você tenha um pacote de software adequado.

Mas por se tratar de uma grande população e a amostra ser dez vezes menor que a população total, a aproximação da distribuição hipergeométrica pode ser feita por meio da distribuição binomial:

P (1000,5,100; x) = Bi (100, 5/1000, x) = Bi (100, 0,005, x) = C (100, x) * 0,005 ^ x (1-0,005) ^ (100-x )

Na expressão acima C (100, x) é um número combinatório. Então, a probabilidade de ter mais de um defeito será calculada assim:

P (x> = 1) = 1 - Bi (0) = 1- 0,6058 = 0,3942

É uma excelente aproximação, se comparada com o valor obtido pela aplicação da distribuição hipergeométrica: 0,4102

Pode-se dizer que, com 40% de probabilidade, um lote de 100 profiláticos deve ser descartado, o que não é muito eficiente.

Porém, sendo um pouco menos exigente no processo de controle de qualidade e descartando o lote de 100 apenas se houver dois ou mais defeituosos, a probabilidade de descarte do lote cairia para apenas 8%.

Exercício 2

Uma máquina de fazer blocos de plástico funciona de forma que a cada 10 peças uma sai deformada. Em uma amostra de 5 peças, qual a probabilidade de apenas uma peça estar com defeito?

Solução

População: N = 10

Número n de defeituosos para cada N: n = 1

Tamanho da amostra: m = 5

P (10, 1, 5; 1) = C (1,1) * C (9,4) / C (10,5) = 1 * 126/252 = 0,5

Portanto, existe uma probabilidade de 50% de que em uma amostra de 5, um bloco seja deformado.

Exercício 3

Em uma reunião de jovens recém-formados, há 7 senhoras e 6 senhores. Entre as meninas, 4 estudam humanidades e 3 ciências. No grupo masculino, 1 estuda humanidades e 5 ciências. Calcule o seguinte:

a) Escolher três meninas ao acaso: qual a probabilidade de todas elas estudarem ciências humanas?

b) Se três participantes da reunião de amigos forem escolhidos ao acaso: Qual é a possibilidade de que três deles, independentemente do gênero, estudem ciências nos três, ou ciências humanas também nos três?

c) Agora selecione dois amigos aleatoriamente e ligue x à variável aleatória “número de pessoas que estudam humanidades”. Entre os dois escolhidos, determine a média ou valor esperado de x e a variância σ ^ 2.

Solução para 

População é o número total de meninas: N = 7. Quem estuda ciências humanas é n = 4, do total. A amostra aleatória de meninas será m = 3.

Neste caso, a probabilidade de que todos os três sejam estudantes de humanidades é dada pela função hipergeométrica:

P (N = 7, n = 4, m = 3, x = 3) = C (4, 3) C (3, 0) / C (7, 3) = 0,1143

Portanto, há uma probabilidade de 11,4% de que três garotas escolhidas ao acaso estudem ciências humanas.

Solução b

Os valores a serem usados ​​agora são:

-População: N = 14

-Quantidade que estuda letras é: n = 6 e o

-Tamanho da amostra: m = 3.

- Número de amigos estudando ciências humanas: x

De acordo com isso, x = 3 significa que todos os três estudam humanidades, mas x = 0 significa que nenhum estuda humanidades. A probabilidade de que todos os três estudem o mesmo é dada pela soma:

P (14, 6, 3, x = 0) + P (14, 6, 3, x = 3) = 0,0560 + 0,1539 = 0,2099

Então, temos uma probabilidade de 21% de que três participantes da reunião, escolhidos aleatoriamente, estudem a mesma coisa.

Solução c

Aqui temos os seguintes valores:

N = 14 população total de amigos, n = 6 número total na população estudando humanidades, o tamanho da amostra é m = 2.

A esperança é:

E (x) = m * (n / N) = 2 * (6/14) = 0,8572

E a variação:

σ (x) ^ 2 = m * (n / N) * (1-n / N) * (Nm) / (N-1) = 2 * (6/14) * (1-6 / 14) * (14 -2) / (14-1) =

= 2*(6/14)*(1-6/14)*(14-2)/(14-1) = 2*(3/7)*(1-3/7)*(12)/(13)  = 0.4521

Referências

  1. Distribuições discretas de probabilidade. Recuperado de: biplot.usal.es
  2. Estatística e probabilidade. Distribuição hipergeométrica. Recuperado de: projectdescartes.org
  3. CDPYE-UGR. Distribuição hipergeométrica. Recuperado de: ugr.es
  4. Geogebra. Geogebra clássica, cálculo de probabilidade. Recuperado de geogebra.org
  5. Tente com facilidade. Resolvidos problemas de distribuição hipergeométrica. Recuperado de: probafacil.com
  6. Minitab. Distribuição hipergeométrica. Recuperado de: support.minitab.com
  7. Universidade de Vigo. Principais distribuições discretas. Recuperado de: anapg.webs.uvigo.es
  8. Vitutor. Estatística e combinatória. Recuperado de: vitutor.net
  9. Weisstein, Eric W. Hypergeometric Distribution. Recuperado de: mathworld.wolfram.com
  10. Wikipedia. Distribuição hipergeométrica. Recuperado de: es.wikipedia.com