통계2014.09.26 09:01

이항분포의 포아송근사에 대해 알아보자. 이항분포는 n이 크고 성공확률 p가 아주 작을 경우에는 포아송분포에 근사해서 문제를 풀 수가 있는데, 이렇게 포아송 근사를 하는 이유는, 이항분포의 경우 n이 클 경우 문제를 손으로 직접 계산하기 힘들기 때문이라는 말이 있다. 하지만 계산기나 엑셀 그리고 통계프로그램이 발달한 요즘은 이항분포의 n이 커도 쉽게 계산할 수 있고, 포아송 분포 자체가 손으로 직접 계산하기 불편한 분포이기 때문에, 이러한 이유는 전혀 타당하지 않아 보인다. 단지 이항분포와 포아송분포 사이에 이런 관계가 있다는 것만 알면 될 것 같다.

일단 이항분포의 포아송근사를 하기 위해서는 이항분포의 평균 np를 구해야 한다. 왜냐하면 포아송분포로 문제를 풀기 위해서는 평균이 있어야 하는데, 포아송분포의 평균 λ 대신, 이항분포의 평균 np를 대입하기 때문이다. 그럼 문제 하나를 예로 들어보자.

 

 

문제) 신용카드 사용자 중 5%는 카드값 연체 중이라고 한다. 카드사용자 100명을 조사하였을 때, 카드값을 연체하고 있는 사용자가 10명일 확률을 구하시오.

포아송분포로 문제를 풀기 위해서는 평균 λ와 발생횟수 x를 알아야 하는데, λ 대신 이항분포의 평균 np를 대입하면 된다. 먼저 전체횟수 n=100이고 성공확률 p=0.05이므로, 평균 np=100×0.05=5이다. 그리고 발생횟수 x=10으로, 공식에 대입해서 문제를 풀어보면 확률값은 0.0181가 나온다.

 

하지만 이항분포로 풀었을 때와 같은 값이 나오지는 않는다. 단지 비슷한 근사값으로, 만약에 위의 문제를 이항분포로 푼다면 확률값은 0.0167이 나와 포아송의 근사치와는 조금 차이가 있다는 것을 알 수 있다. 포아송근사는 하나의 방법일 뿐, 이항분포의 문제는 이항분포로 푸는 것이 확률값이 더 정확하다.

Posted by 나부랭이

댓글을 달아 주세요