통계2014.10.10 16:30

이항분포의 정규근사에 대해 알아보자. 이항분포는 n이 크면 손으로 계산하기가 복잡해진다. 그래서 n이 크고 성공확률 p가 아주 작지 않을 경우에는 정규분포에 근사해서 문제를 풀 수 있다. 하지만 계산기나 엑셀 그리고 통계프로그램이 발달한 지금 n이 커도 쉽게 계산할 수 있기 때문에, 정규근사의 활용도는 떨어진다. 그냥 이항분포와 정규분포 사이에 이런 관계가 있다는 것만 알고 넘어가자.

정규분포는 공식으로 Z값을 구하려면, 평균과 표준편차를 알아야 한다. 그래서 정규근사를 하려면 이항분포의 평균 np표준편차 루트np(1-p)를 먼저 구해야 한다. 그다음 정규분포의 평균 μ 대신 이항분포의 평균 np를 대입하고, 정규분포의 표준편차 σ 대신 이항분포의 표준편차 루트np(1-p)를 대입해서 문제를 푼다.

그리고 공식을 보면 ±0.5가 있는데, 이것은 연속성수정(continuity correction)이라고 한다. 정규근사로 문제를 풀 때 ±05를 해서 연속성수정을 하면, 하지 않았을 때보다 근사치의 값이 더 정확해진다. 왜냐하면 이산확률분포와 연속확률분포를 그래프로 비교해보면, 그 특징상 정확하게 겹치지 않기 때문이다. 그럼 이항분포의 정규근사에 관하여 문제 하나를 풀어보자.

 

 

문제) 어느 자동차회사의 불량률은 0.2라고 한다. 이 회사 제품 50개를 조사하였을 때, 불량이 7개에서 14개 사이로 나올 확률을 구하시오.

먼저 평균과 표준편차를 구해보면, 평균 np50×0.2=10이 나오고, 분산 np(1-p)50×0.2×0.8=8이 나오므로, 표준편차는 루트 8이다. 이제 정규분포 공식을 사용해서 Z값을 구해보면 각각 1,241.59가 나온다. 표준정규분포표로 Z값에 해당하는 확률을 구하고, 최종 확률을 구해보면 0.836595가 나오는 것을 알 수 있다.

 

그런데 이항 분포의 정규 근사도 포아송근사와 마찬가지로 단지 비슷한 근삿값이 나올 뿐, 이항분포로 풀었을 때와 같은 값이 나오지는 않는다. 만약 위의 문제를 이항분포로 푼다면 확률은 0.835879가 나와, 정규근사의 근사치와는 약간의 차이가 있다는 것을 알 수 있다. 정규근사는 그냥 하나의 방법일 뿐, 이항분포 문제는 이항분포로 푸는 것이 확률은 더 정확하다.

 

참고로 ±0.5의 연속성수정을 안 했을 때는 확률이 0.776158이 나오는데이항분포의 확률과는 차이가 많이 나는 것을 알 수 있다. 확실히 연속성수정을 하는 것이, 안 했을 때보다는 이항분포의 확률과 가까워진다.

저작자 표시 비영리 변경 금지
신고

'통계' 카테고리의 다른 글

지수분포 확률 구하는법!  (2) 2014.10.13
지수분포 개념정리!  (2) 2014.10.12
이항분포의 정규근사!  (14) 2014.10.10
정규분포의 문제풀이!  (14) 2014.10.09
표준정규분포표 보는 법!  (11) 2014.10.07
정규분포 표준화 하는 법!  (12) 2014.10.05
Posted by 나부랭이

댓글을 달아 주세요

  1. P(7<X<14) 이 경우에도 위에 써주신 것 처럼 풀면 되나요???

    2014.10.12 22:26 신고 [ ADDR : EDIT/ DEL : REPLY ]
    • P(7<X<14)는 곧 8, 9, 10, 11, 12, 13으로, "8이상이고 13이하인 확률"을 구하시면 돼요.

      그리고 식을 P(8≤X≤13)로 바꿀 수가 있어요.

      2014.10.13 11:20 신고 [ ADDR : EDIT/ DEL ]
  2. 통계학에빠진사나이

    안녕하세요 블로거에 통계 설명을 너무 잘 해주셔서 읽고 갑니다~ 감사합니다.

    2014.10.16 18:55 신고 [ ADDR : EDIT/ DEL : REPLY ]
  3. 비밀댓글입니다

    2014.10.20 20:23 [ ADDR : EDIT/ DEL : REPLY ]
    • 질문하나만할께요

      헉.. 비밀글을 눌렀더니 제가 볼수가 없네요ㅋㅋㅋ;;; 혹 답해주실수 있으면 부탁드리겠습니다!ㅠㅠㅠ

      2014.10.20 20:25 신고 [ ADDR : EDIT/ DEL ]
    • 일단 조건을 다시 한 번 확인해보세요. 제가 알고 있는 조건은 10이 아니라 p≤0.5이고np≥5 그리고 n(1-p)≥5입니다. 그리고 왜 이 수치가 나왔는지는 저도 참고할 만한 자료가 없어서, 풀어내지를 못하겠네요 -_-;;

      단지 통계에는 “정규성검정”이라는 것이 있는데, 정규성검정은 해당 데이터가 정규분포 형태를 띠는지 알아보는 검정이에요. 그래서 계속 데이터의 조건을 바꿔가면서 정규성검정을 했는데, p≤0.5이고np≥5 그리고 n(1-p)≥5인 조건 근처에서(아마 딱 맞아 떨어지지는 않을 겁니다.) 정규성이 판단되어 그 조건이 됐을 수도 있어요.

      그도 아니면 그냥 단순하게 눈대중으로 이항분포의 히스토그램을 분석하였더니, 그 조건에서 정규분포 형태를 띠기에 그 조건이 됐을 수도 있고요.

      2014.10.21 11:29 신고 [ ADDR : EDIT/ DEL ]
  4. 질문좀요ㅜㅜ

    통계 배우는 학생인데요
    혹시 이항분포를 정규분포로 근사해서 푸는 것과
    이항분포를 포아송분포로 근사해서 푸는 것 사이의 차이는 성립 조건 밖에 차이가 없는건가요?
    음 그러니까 원래 포아송분포는 단위 시간이나 단위 면적이 나와있는 문제에 대해 적용하는거잖아요
    근데 이항분포를 포아송분포로 근사해서 풀 경우 단위 시간이나 면적은 무관한건가요??

    2016.12.06 21:45 신고 [ ADDR : EDIT/ DEL : REPLY ]
    • 그냥 나와 있는 조건만 맞으면 될 겁니다.

      그리고 애초에 "정규근사"나 "포아송근사"를 만든 이유는,

      손으로 조금이나마 편하게 계산을 하기 위함일 겁니다.



      조금 편하게 "확률"을 구하기 위해서 만든 것이기에,

      어차피 값만 비슷하게 나온다면, 다른 조건은 크게 신경 쓰지 않았을 겁니다.

      어차피 값은 비슷하게 나오니까요...

      2016.12.11 15:15 신고 [ ADDR : EDIT/ DEL ]
  5. 감사합니다!!

    그렇군요 감사합니다!!!

    2016.12.12 17:17 신고 [ ADDR : EDIT/ DEL : REPLY ]
  6. 시험잘치고싶닼ㅋ

    글 잘보고 갑니다
    수업때 이해 못했는데 감사합니다!!
    좋은 글 많이 올려주세요

    2017.06.07 19:49 신고 [ ADDR : EDIT/ DEL : REPLY ]
  7. 비밀댓글입니다

    2017.06.13 01:37 [ ADDR : EDIT/ DEL : REPLY ]