통계2014.10.05 16:36

정규분포 표준화 하는 법에 대해 알아보자. 정규분포(normal distribution) 같은 연속확률분포들은 그래프의 면적으로 확률을 구한다는 특징이 있는데, 문제는 매 실험 때마다 그래프의 함수와 면적 넓이를 계산하는 것은 매우 불편하다. 그래서 이러한 불편을 줄이고자 표준이 되는 기준을 만들었는데, 그것이 바로 평균 μ=0이고 표준편차 σ=1표준정규분포(standard normal distribution)이다.

보통 실험이나 조사를 통해서 나온 정규분포는 기준이 되는 표준정규분포로 바꾼 후 확률을 구하는데, 바꾸는 과정을 정규분포 표준화라고 한다. 그리고 표준화 하는 방법은 정규분포 공식을 사용하는 것인데, 실험의 데이터가 공식을 거치면 표준정규분포의 Z값이 된다. 그래서 이 Z값을 그래프 좌표로 활용하여 확률을 구하는데, 그래서 정규분포를 Z분포라고도 한다. 그럼 문제 하나를 예를 들어보자.

 

문제) 우리나라 성인 남자의 키는 평균 173cm, 표준편차 5인 정규분포를 따른다고 한다. 이때 185cm 이상인 사람의 비율을 구하기 위해 정규분포 표준화를 하시오.

일단 평균 μ=173이고 표준편차 σ=5로 공식을 사용하여 표준화를 해보면, 평균 173cmZ=0이 되고(표준정규분포의 평균은 0이므로), 구하고자 하는 185cm Z=2.4가 된다. 아래의 그림이 일반 정규분포를 표준정규분포로 바꾸는 표준화 과정이다. 추가로 185cm 이상인 사람의 비율은, Z2.4 이상인 확률을 구하면 나온다.

 

그런데 Z값은 공식을 통해 쉽게 구할 수 있는데, 문제는 이 Z값에 해당하는 면적의 넓이를 어떻게 구하느냐?”일 것이다. 일단 이 면적의 넓이를 매번 손수 계산하기란 매우 힘들고 불편하다. 그래서 면적의 넓이는 직접 계산하는 것이 아니라 표를 사용하는데, 바로 표준정규분포표를 사용한다. 정규분포표는 각각의 Z값에 해당하는 그래프의 넓이 곧 확률을 정리해 놓은 표인데, 표준정규분포표 보는 법은 다음 포스팅에서 알아보자.

Posted by 나부랭이

댓글을 달아 주세요

  1. 로또매니아

    정말 알기 쉽게 설명이 되어 있네요...... 학교를 졸업한지 오래되서 용어만 가물가물 생각났었는데 덕분에 기억을 되살리는데 그리 오래 걸리지 않았습니다. 감사합니다.

    2015.03.04 08:44 신고 [ ADDR : EDIT/ DEL : REPLY ]
  2. 김마루

    확률과통계를 공부하던중 우연히 사이트에 들렀는데 베르누이분포부터 이항분포, 기하분포, 음이항분포, 포아송분포, 초기하분포 그리고 정규분포까지 보았습니다. 설명이 군더더기 없이 깔끔하네요. 적절하게 예문도 있고, 수식도 알기쉽게 써주셔서 이해가 아주 잘 됩니다. 감사합니다. 확률관련해서 자료참고할때마다 애용하겠습니다. 번창하세요^^

    2015.04.21 21:39 신고 [ ADDR : EDIT/ DEL : REPLY ]
  3. 투투

    아주 이해하기가 쉽군요

    2016.05.15 18:45 신고 [ ADDR : EDIT/ DEL : REPLY ]
  4. 궁그미

    왜 표준정규분포의 표준편차 값을 1이라고 정한것이죠?

    2016.09.19 22:05 신고 [ ADDR : EDIT/ DEL : REPLY ]
    • 표준정규분포는 σ값이 커지거나 작아짐에 따라, 그래프의 모양이 바뀌는데,

      일단 σ가 커질수록 그래프의 모양이 지나치게 옆으로 퍼집니다.(σ=2일 때만 해도, 그래프가 옆으로 많이 퍼집니다)

      반대로 σ가 작아질수록 그래프의 모양이 지나치게 위로 뾰족해집니다.(σ=0.5일 때만 해도, 그래프가 위로 많이 뾰족해집니다)

      즉, 표준으로 사용하기에는 그래프가 너무 지나친 감이 많습니다.



      그래서 σ=1일 때 위와 같은 그래프의 모양이 되고,

      표준으로 사용하기에 적당해지므로, σ=1로 했을 겁니다.



      그리고 숫자 1이 가장 만만하기도 합니다.

      만약에 표준편차를 "큰 자연수"나 "소수" 그리고 "분수"로 했다면,

      계산하기 귀찮아질 테니까요~

      2016.09.28 12:14 신고 [ ADDR : EDIT/ DEL ]
  5. jsa

    이 Z값이 연속형 데이터(변수)의 시그마 수준을 구하는 공식이군요
    측정한 연속형 데이터의 정규분포의 평균과 표준편차가 모두 다르기에
    측정한 정규분포를 평균이 0이고 표준편차가 1인 표준정규분포로 변환하였을 때의
    값을 Z라 하는 것이군요

    Zbench 는 USL, LSL 이 있을 경우의 '총 시그마 수준'을 말하는 것이구요

    2016.09.22 14:20 신고 [ ADDR : EDIT/ DEL : REPLY ]
  6. jsa

    이 Z값이 연속형 데이터(변수)의 시그마 수준을 구하는 공식이군요
    측정한 연속형 데이터의 정규분포의 평균과 표준편차가 모두 다르기에
    측정한 정규분포를 평균이 0이고 표준편차가 1인 표준정규분포로 변환하였을 때의
    값을 Z라 하는 것이군요

    Zbench 는 USL, LSL 이 있을 경우의 '총 시그마 수준'을 말하는 것이구요

    2016.09.22 14:20 신고 [ ADDR : EDIT/ DEL : REPLY ]
  7. sae

    고등학교 졸업하고 이 파트를 통계때문에 다시 학습하게 되었는데 덕분에 지난 기억을 잘 떠올릴 수 있었습니다! 밑에 예문이 정말 적절히 잘 들어가서 이해하기 편했던 것 같아요 감사합니다!

    2017.05.27 08:57 신고 [ ADDR : EDIT/ DEL : REPLY ]
  8. 감사합니다

    나부랭이님 감사합니다 덕분에 제대로 개념 잡아가요

    2018.06.06 10:07 신고 [ ADDR : EDIT/ DEL : REPLY ]