통계2014.10.02 13:07

정규분포 그래프의 특징을 알아보자. 정규분포는 연속확률분포로 가우스분포라고도 하는데, 통계에서 가장 중요하고 많이 사용하는 분포다. 꼭 그런 것은 아니고 얼마나 일치하느냐의 문제가 있기는 하지만, 많은 경영 · 경제 · 사회 · 자연 현상들이 정규분포 형태를 띠고 있기 때문이다. 예를 들어 한국 성인 남자의 평균 키가 173cm라고 하자. 평균 키가 173cm라는 것은, 곧 키가 평균 173cm에서 크게 벗어나지 않은 사람들이 많고, 상대적으로 크게 벗어난 150cm대 혹은 190cm대의 사람들은 별로 없다는 소리다. 이렇게 정규분포는 평균 근처에 데이터의 분포가 많고 평균에서 멀어질수록 데이터의 분포가 감소하여, 그래프의 곡선이 종모양 형태를 나타낸다. 정규분포 그래프를 3등분 한다면, 평균 근처의 비율이 약 68% 정도가 된다.

            

 

정규분포는 기본적으로 확률의 모든 값을 표현하기 때문에, 최댓값과 최솟값이 있다기보다는 무한대() 영역을 가진다. 현실적으로 의 값이 생기는 경우는 거의 없지만, 가끔 극단적인 데이터가 나오는 경우도 있고, 확률의 모든 값을 표현하기 때문에 ±영역으로 설정되어있다. 그래서 정규분포 그래프의 특징 중 하나는, 그래프의 곡선과 X축이 서로 떨어져 있다. 그래프의 곡선과 X축이 서로 붙어 있으면, 최댓값과 최솟값이 생겨 영역을 다룰 수 없기 때문이다. 

 

 

많은 현상이 정규분포를 따르기는 하지만, 이 세상은 하나의 규칙으로만 움직이는 것은 아니기에, 모든 현상이 정규분포를 따르지는 않는다. 그 예로 통계에는 정규분포 이외에도 많은 분포가 존재한다. 이것은 곧 정규분포로도 파악할 수 없는 행위가 존재한다는 소리다. 마지막으로 정규분포 같은 연속형 확률분포들은 그래프의 면적으로 확률을 계산하는데, 그것은 다음 포스팅에서 알아보자.

저작자 표시 비영리 변경 금지
신고
Posted by 나부랭이

댓글을 달아 주세요

  1. 류지석

    어렵다고 생각하는 통계를 적절한 예와 쉬운 설명으로 이해하는데 많은 도움 주셔서 감사합니다. 그런데 한가지 부탁드리고 싶은게 있습니다.. 모집단의 정확한 평균과 표준편차, 분산을 알 수 없으니 표본을 사용하여 추정해야 하는데...
    그 표본이 정규분포를 따르고 있는지에 대한 검정 방법도 포스팅 해주시면 감사하겠습니다. (정규성 검정)
    저도 예전에 배운 통계지식을 바탕으로 회사에서 업무처리를 하려하는데..전공자가 아니다 보니 한계가 있고, 정규성 검정하는 자료에 대해 찾아보아도 정확히 이해가 되지 않아 부탁드리게 되었습니다.
    포스팅 잘 보고 있습니다. 감사합니다.

    2015.05.12 09:33 신고 [ ADDR : EDIT/ DEL : REPLY ]
    • 정규성 검정은 대부분 "미니탭" 같은 통계프로그램으로 구하기 때문에,

      웬만한 통계학책에는, 참고할 만한 내용이 없을 겁니다.

      그래서 참고자료를 필요하시다면, 일반 통계학책이 아니라,

      "미니탭 관련 책"을 보시는 게 좋을 겁니다.



      그리고 이 블로그는 손으로 구할 수 있는 것만 다루기 때문에,

      정규성 검정은 다루지 않았던 겁니다.(미니탭까지 다루면 상당히 번거로워서요)

      그래서 지금으로썬 다루기가 힘들 것 같습니다.



      다만 한 가지만 말씀드리자면,

      정규성 검정을 이해하시려면, "오차"를 이해하셔야 합니다.

      왜냐하면 현실에서는 항상 오차가 발생하기 때문입니다.

      그래서 표본을 뽑았을 때, 표본이 100% 정규분포 모양을 하지는 않습니다.(어느 정도의 오차가 발생합니다)



      그런데 오차가 작을 경우에는,

      표본이 비록 100% 정규분포 모양을 하고 있지는 않겠지만,

      그래도 어느 정도 정규분포 모양을 하고 있어서,

      그냥 정규분포를 따른다고 말합니다.



      반면에 오차가 클 경우에는,

      거의 정규분포 모양을 하고 있지 않기 때문에,

      정규분포를 따르지 않는다고 말합니다.



      이렇게 오차의 크기에 따라서, 표본이 정규분포를 따르는지를 판단하는데,

      문제는 오차의 크기가 "애매한" 경우도 있습니다.



      그래서 오차가 애매한 경우에는,

      이게 정규분포 모양을 하는지, 아니면 하지 않는지를 판단하기가 애매해집니다.

      그래서 추가로 가설검정을 하는 겁니다.

      왜냐하면 가설검정이 양자택일이기에, 이러한 상황을 판단하기가 좋습니다.(정규성검정은, 가설검정입니다)



      뭐.. 편의상 굳이 오차의 크기에 상관없이, 정규성 검정을 하기는 합니다. 그래도 상관은 없고요.

      하지만 오차를 생각하시면, 정규성 검정을 이해하시기가 조금은 편해지실 겁니다.

      2015.05.14 15:12 신고 [ ADDR : EDIT/ DEL ]
  2. 이채민

    근데 정규분포표라는 것은 어떻게 처음 만들어지게 되었나요?

    2016.09.04 19:44 신고 [ ADDR : EDIT/ DEL : REPLY ]