통계2014.12.21 17:26

모비율의 가설검정 개념정리를 해보자. 모비율의 가설검정도, 모평균 그리고 모분산과 마찬가지로 모비율이 이럴 것이다.라는 두 개의 가설 중 어느 가설이 더 타당한지를 판단하는 것이다. 그런데 한 가지 조심할 것은 검정통계량이다. 보통 모평균과 모분산의 검정통계량은 신뢰구간에서 사용한 공식을 그대로 사용한다. 하지만 모비율은 검정통계량 공식이 신뢰구간과 다르므로, 이점을 조심해야 한다.(두 모비율도 마찬가지인데, 그건 나중에 두 모비율에서 다루기로 하자.)

 

 

이렇게 검정통계량 공식이 신뢰구간과 다른 이유는, 모비율의 신뢰구간에서 표준편차를 구할 때, 모비율 p를 모르기에 (피햇)을 사용해서 근사적으로 풀었기 때문이다. 그런데 가설검정에서는 p를 알기 때문에 그냥 p 그대로 사용한다. 그래서 공식이 서로 다르다. 그런데 이 p는 실제의 모비율이 아니라, 가설 속의 모비율이다. 그래서 일부에서는 p0라고 표기하기도 한다. 하지만 공식을 단순화하기 위해서 그냥 p라고 사용하겠다. 그리고 p0를 사용하면, 두 모비율의 검정통계량 공식이 복잡해진다.

 

 

위의 그림처럼 가설 속의 모비율 p는 가설에서 수치가 주어지는 데 반해, 표본비율 의 경우에는 직접 계산해야 하는 경우가 많다. 하지만 계산하는 법은 의외로 간단한데, 예를 들어 사람 100명을 뽑았는데, 이 중 남성은 30명이라고 한다. 이때 남성의 표본비율은 30/100=0.3 혹은 30%라는 것을 쉽게 알 수 있다. 이렇게 표본비율은 구하는 표본 수를, 전체 표본 수로 나눠주면 된다.

 

 

그리고 모비율의 가설검정은 기본적으로 정규분포를 사용하기에, 유의수준 α에 따른 기각역이 몇 개로 정해져 있다. 그런데 이 기각역인 Z값을 보면, 보통 소수점 2째 자리까지를 많이 사용한다. 그 이유는 정규분포표가 x축과 y, 2가지 축만 다룰 수 있기 때문이다. 그래서 보통 Z값을 소수점 2째 자리까지만 표기하는 것이다.

 

 

그런데 수학적 계산에서는 소수점 자리를 늘리면 늘릴수록 값이 더 정확해진다. 그래서 3째 자리 이상의 Z값을 사용하면 값이 더 정확해지는데, 이것은 정규분포표로는 해결하기가 힘들다.(정규분포표로도 소수점 3자리 이상은 표현할 수 있지만, 그럴 경우 표가 복잡해진다.) 하지만 이 부분은 t분포표로 해결할 수가 있다. 왜냐하면 t분포 자체가 정규분포를 바탕으로 만든 분포라서, 자유도가 무한대에 가까워지면, 정규분포와 같아지기 때문이다.(정확하게 같아지는지까지는 모르겠다.) 그래서 t분포표 활용하면, 소수점 3째 자리 이상의 Z값을 뽑을 수가 있다.

 

 

보통 Z값으로 α=0.01에서 2.325를 사용하고, α=0.005에서 2.575를 사용하기도 하는데, 이 수치들은 대충 중간값을 취한 수치들이다. 그래서 Z값으로 2.3262.576이 더 정확하기는 할 것이다.(t분포가 무한대일 때, 정규분포와 똑같다는 가정하에..) 그리고 이왕 뽑았으니 다음 포스팅인 문제풀이에서는, 3째 자리 Z값으로 기각역을 구해보자.

저작자 표시 비영리 변경 금지
신고
Posted by 나부랭이

댓글을 달아 주세요