Distribuição hipergeométrica: fórmulas, equações, modelo - Ciência - 2023
science
Contente
- Fórmulas e equações
- Variáveis estatísticas importantes
- Modelo e propriedades
- Principais propriedades da distribuição hipergeométrica
- Aproximação usando a distribuição binomial
- Exemplos
- Exemplo 1
- Probabilidades usando a distribuição hipergeométrica
- Exemplo 2
- Exercícios resolvidos
- Exercício 1
- Solução
- Exercício 2
- Solução
- Exercício 3
- Solução para
- Solução b
- Solução c
- Referências
o distribuição hipergeométrica é uma função estatística discreta, adequada para calcular a probabilidade em experimentos randomizados com dois resultados possíveis. A condição necessária para aplicá-lo é que sejam populações pequenas, nas quais os saques não sejam substituídos e as probabilidades não sejam constantes.
Portanto, quando um elemento da população é escolhido para saber o resultado (verdadeiro ou falso) de uma determinada característica, esse mesmo elemento não pode ser escolhido novamente.
Certamente, o próximo elemento escolhido é, portanto, mais provável de obter um resultado verdadeiro, se o elemento anterior teve um resultado negativo. Isso significa que a probabilidade varia conforme os elementos são removidos da amostra.
As principais aplicações da distribuição hipergeométrica são: controle de qualidade em processos com pouca população e cálculo de probabilidades em jogos de azar.
Já a função matemática que define a distribuição hipergeométrica é constituída por três parâmetros, que são:
- Número de elementos da população (N)
- Tamanho da amostra (m)
- Número de eventos em toda a população com resultado favorável (ou desfavorável) para a característica estudada (n).
Fórmulas e equações
A fórmula para a distribuição hipergeométrica dá a probabilidade P de que x Ocorrem casos favoráveis de uma determinada característica. A maneira de escrever matematicamente, com base nos números combinatórios, é:
Na expressão acima N, n Y m são parâmetros e x a própria variável.
–População total é N.
- Número de resultados positivos de uma certa característica binária em relação à população total é n.
-Quantidade de itens de amostra é m.
Neste caso,X é uma variável aleatória que assume o valor x YP (x) indica a probabilidade de ocorrência de x casos favoráveis da característica estudada.
Variáveis estatísticas importantes
Outras variáveis estatísticas para a distribuição hipergeométrica são:
- Metade μ = m * n / N
- Variância σ ^ 2 = m * (n / N) * (1-n / N) * (N-m) / (N-1)
- Desvio típico σ que é a raiz quadrada da variância.
Modelo e propriedades
Para chegar ao modelo da distribuição hipergeométrica, partimos da probabilidade de obter x casos favoráveis em um tamanho de amostra m.Esta amostra contém elementos que estão de acordo com a propriedade em estudo e elementos que não estão.
Lembre-se disso n representa o número de casos favoráveis na população total de N elementos Então, a probabilidade seria calculada assim:
P (x) = (# de maneiras de obter x # de maneiras com falha) / (# total de maneiras de selecionar)
Expressando o acima na forma de números combinatórios, o seguinte modelo de distribuição de probabilidade é alcançado:
Principais propriedades da distribuição hipergeométrica
São as seguintes:
- A amostra deve ser sempre pequena, mesmo que a população seja grande.
- Os elementos da amostra são extraídos um a um, sem incorporá-los de volta à população.
- A propriedade a estudar é binária, ou seja, pode assumir apenas dois valores: 1 ou 0, o bem verdadeiro ou falso.
Em cada etapa de extração de elemento, a probabilidade muda dependendo dos resultados anteriores.
Aproximação usando a distribuição binomial
Outra propriedade da distribuição hipergeométrica é que ela pode ser aproximada pela distribuição binomial, denotada como Bicontanto que a população N é grande e pelo menos 10 vezes maior que a amostra m. Nesse caso, seria assim:
P (N, n, m; x) = Bi (m, n / N, x)
Aplicável desde que N seja grande e N> 10m
Exemplos
Exemplo 1
Suponha uma máquina que produz parafusos e os dados acumulados indiquem que 1% apresenta defeitos. Então, em uma caixa de N = 500 parafusos, o número de defeituosos será:
n = 500 * 1/100 = 5
Probabilidades usando a distribuição hipergeométrica
Suponha que dessa caixa (ou seja, dessa população) tiremos uma amostra de m = 60 parafusos.
A probabilidade de nenhum parafuso (x = 0) na amostra apresentar defeito é de 52,63%. Este resultado é alcançado usando a função de distribuição hipergeométrica:
P (500, 5, 60, 0) = 0,5263
A probabilidade de que x = 3 parafusos na amostra sejam defeituosos é: P (500, 5, 60, 3) = 0,0129.
Por sua vez, a probabilidade de que x = 4 parafusos em sessenta da amostra sejam defeituosos é: P (500, 5, 60; 4) = 0,0008.
Finalmente, a probabilidade de que x = 5 parafusos nessa amostra sejam defeituosos é: P (500, 5, 60; 5) = 0.
Mas se você quiser saber a probabilidade de que nessa amostra haja mais de 3 parafusos com defeito, você deve obter a probabilidade cumulativa, adicionando:
P (3) + P (4) + P (5) = 0,0129 + 0,0008 + 0 = 0,0137.
Este exemplo é ilustrado na figura 2, obtido usando GeoGebra um software livre amplamente utilizado em escolas, institutos e universidades.
Exemplo 2
Um deck espanhol tem 40 cartas, das quais 10 são douradas e as 30 restantes não. Suponha que 7 cartas sejam tiradas aleatoriamente desse baralho, as quais não são reincorporadas ao baralho.
Se X for o número de ouros presentes nas 7 cartas sorteadas, então a probabilidade de haver x golds em uma retirada de 7 cartas é dada pela distribuição hipergeométrica P (40,10,7; x).
Vamos ver assim: para calcular a probabilidade de ter 4 ouros em um sorteio de 7 cartas, usamos a fórmula da distribuição hipergeométrica com os seguintes valores:
E o resultado é: 4,57% de probabilidade.
Mas se você quiser saber a probabilidade de obter mais de 4 cartas, você deve adicionar:
P (4) + P (5) + P (6) + P (7) = 5,20%
Exercícios resolvidos
O seguinte conjunto de exercícios tem como objetivo ilustrar e assimilar os conceitos apresentados neste artigo. É importante que o leitor tente resolvê-los sozinho, antes de olhar para a solução.
Exercício 1
Uma fábrica de preservativos descobriu que de cada 1000 preservativos produzidos por uma determinada máquina, 5 estão com defeito. Para controle de qualidade, são retirados 100 preservativos ao acaso e o lote é rejeitado caso haja pelo menos um ou mais com defeito. Resposta:
a) Qual é a possibilidade de que um lote de 100 seja descartado?
b) Este critério de controle de qualidade é eficiente?
Solução
Nesse caso, números combinatórios muito grandes aparecerão. O cálculo é difícil, a menos que você tenha um pacote de software adequado.
Mas por se tratar de uma grande população e a amostra ser dez vezes menor que a população total, a aproximação da distribuição hipergeométrica pode ser feita por meio da distribuição binomial:
P (1000,5,100; x) = Bi (100, 5/1000, x) = Bi (100, 0,005, x) = C (100, x) * 0,005 ^ x (1-0,005) ^ (100-x )
Na expressão acima C (100, x) é um número combinatório. Então, a probabilidade de ter mais de um defeito será calculada assim:
P (x> = 1) = 1 - Bi (0) = 1- 0,6058 = 0,3942
É uma excelente aproximação, se comparada com o valor obtido pela aplicação da distribuição hipergeométrica: 0,4102
Pode-se dizer que, com 40% de probabilidade, um lote de 100 profiláticos deve ser descartado, o que não é muito eficiente.
Porém, sendo um pouco menos exigente no processo de controle de qualidade e descartando o lote de 100 apenas se houver dois ou mais defeituosos, a probabilidade de descarte do lote cairia para apenas 8%.
Exercício 2
Uma máquina de fazer blocos de plástico funciona de forma que a cada 10 peças uma sai deformada. Em uma amostra de 5 peças, qual a probabilidade de apenas uma peça estar com defeito?
Solução
População: N = 10
Número n de defeituosos para cada N: n = 1
Tamanho da amostra: m = 5
P (10, 1, 5; 1) = C (1,1) * C (9,4) / C (10,5) = 1 * 126/252 = 0,5
Portanto, existe uma probabilidade de 50% de que em uma amostra de 5, um bloco seja deformado.
Exercício 3
Em uma reunião de jovens recém-formados, há 7 senhoras e 6 senhores. Entre as meninas, 4 estudam humanidades e 3 ciências. No grupo masculino, 1 estuda humanidades e 5 ciências. Calcule o seguinte:
a) Escolher três meninas ao acaso: qual a probabilidade de todas elas estudarem ciências humanas?
b) Se três participantes da reunião de amigos forem escolhidos ao acaso: Qual é a possibilidade de que três deles, independentemente do gênero, estudem ciências nos três, ou ciências humanas também nos três?
c) Agora selecione dois amigos aleatoriamente e ligue x à variável aleatória “número de pessoas que estudam humanidades”. Entre os dois escolhidos, determine a média ou valor esperado de x e a variância σ ^ 2.
Solução para
População é o número total de meninas: N = 7. Quem estuda ciências humanas é n = 4, do total. A amostra aleatória de meninas será m = 3.
Neste caso, a probabilidade de que todos os três sejam estudantes de humanidades é dada pela função hipergeométrica:
P (N = 7, n = 4, m = 3, x = 3) = C (4, 3) C (3, 0) / C (7, 3) = 0,1143
Portanto, há uma probabilidade de 11,4% de que três garotas escolhidas ao acaso estudem ciências humanas.
Solução b
Os valores a serem usados agora são:
-População: N = 14
-Quantidade que estuda letras é: n = 6 e o
-Tamanho da amostra: m = 3.
- Número de amigos estudando ciências humanas: x
De acordo com isso, x = 3 significa que todos os três estudam humanidades, mas x = 0 significa que nenhum estuda humanidades. A probabilidade de que todos os três estudem o mesmo é dada pela soma:
P (14, 6, 3, x = 0) + P (14, 6, 3, x = 3) = 0,0560 + 0,1539 = 0,2099
Então, temos uma probabilidade de 21% de que três participantes da reunião, escolhidos aleatoriamente, estudem a mesma coisa.
Solução c
Aqui temos os seguintes valores:
N = 14 população total de amigos, n = 6 número total na população estudando humanidades, o tamanho da amostra é m = 2.
A esperança é:
E (x) = m * (n / N) = 2 * (6/14) = 0,8572
E a variação:
σ (x) ^ 2 = m * (n / N) * (1-n / N) * (Nm) / (N-1) = 2 * (6/14) * (1-6 / 14) * (14 -2) / (14-1) =
= 2*(6/14)*(1-6/14)*(14-2)/(14-1) = 2*(3/7)*(1-3/7)*(12)/(13) = 0.4521
Referências
- Distribuições discretas de probabilidade. Recuperado de: biplot.usal.es
- Estatística e probabilidade. Distribuição hipergeométrica. Recuperado de: projectdescartes.org
- CDPYE-UGR. Distribuição hipergeométrica. Recuperado de: ugr.es
- Geogebra. Geogebra clássica, cálculo de probabilidade. Recuperado de geogebra.org
- Tente com facilidade. Resolvidos problemas de distribuição hipergeométrica. Recuperado de: probafacil.com
- Minitab. Distribuição hipergeométrica. Recuperado de: support.minitab.com
- Universidade de Vigo. Principais distribuições discretas. Recuperado de: anapg.webs.uvigo.es
- Vitutor. Estatística e combinatória. Recuperado de: vitutor.net
- Weisstein, Eric W. Hypergeometric Distribution. Recuperado de: mathworld.wolfram.com
- Wikipedia. Distribuição hipergeométrica. Recuperado de: es.wikipedia.com