통계2014.12.16 20:18

두 모분산의 가설검정 개념정리를 해보자. 일단 두 모집단의 가설검정은 각 집단의 모수를 각각 파악하는 것이 아니라, 두 집단의 모수가 서로 어떠한 관계인지를 파악하는 것이다. 두 집단의 관계는 같다” “크다” “작다이렇게 3가지가 표현하는데, 보통 뺄셈나눗셈으로 관계를 파악한다. 그런데 두 모평균에서는 뺄셈(참고)으로 관계를 파악했지만, 두 모분산에서는 나눗셈으로 관계를 파악한다.

그런데 뺄셈과 나눗셈, 두 개 모두 집단의 관계를 파악할 수 있다면, 뺄셈 하나만 사용하면 될 것을 귀찮게 나눗셈은 왜 사용할까? 그 이유는 확률분포 때문이다. 보통 가설검정을 할 때는 확률분포를 사용한다고 했는데, 모평균의 경우에는 뺄셈을 해도 정규분포나 t분포를 사용할 수가 있다. 그런데 모분산의 경우에는 뺄셈을 하면 사용할 분포가 없다.(분산은 카이제곱분포를 사용한다.) 그래서 나눗셈을 하는 것이고, 2개의 분산을 나누었을 때 사용할 수 있는 분포가 F분포다.(F분포는 카이제곱분포 2개를 나눠서 만든 분포다.) 그래서 두 모분산의 가설검정은 F분포를 사용해서 검정한다. 어쨌든 뺄셈과 마찬가지로 나눗셈으로도 두 집단의 관계를 파악할 수가 있는데, 예를 들어보면..

 

 

5/5=1, 1이 나오는 이유는 두 개의 5가 서로 같기 때문이다. 그래서 집단1/집단2=1이면, 두 집단은 서로 같다.

5/2=2.5, 1보다 큰 수가 나오는 이유는 5가 더 크기 때문이다. 그래서 집단1/집단2=2.5, 1보다 큰 수가 나오면 집단1이 더 크다.

2/5=0.4, 1보다 작은 수가 나오는 이유는 2가 더 작기 때문이다. 그래서 집단1/집단2=0.4, 1보다 작은 수가 나오면 집단1이 더 작다.

 

 

이렇게 나눗셈을 통해서 나온 값이 “1” “1보다 큰 수” “1보다 작은 수인지에 따라, 두 집단이 어떠한 관계인지를 알 수가 있다.(뺄셈은 0을 기준으로 하고, 나눗셈은 1을 기준으로 한다.) 그런데 한 가지 주의해야 할 것은, 통계는 100% 정답을 다루지 않는다는 점이다. 즉 통계는 어느 정도의 오차는 인정하기에, 수치가 어느 정도 비슷하면 서로 같다고 한다. 예를 들어..

 

 

집단1=1009이고 집단2=1007이라고 하자. 두 집단의 수치는 서로 다르고, 나누기를 하면 1보다 큰 수 1009/1007=1.002가 나오지만, 실상 1이랑 0.002밖에 차이가 안 나서 통계에서는 서로 같다고 취급한다.

집단1=1006이고 집단2=1007이라고 하자. 두 집단의 수치는 서로 다르고, 나누기를 하면 1보다 작은 수 1006/1007=0.999가 나오지만, 실상 1이랑 0.001밖에 차이가 안 나서 통계에서는 서로 같다고 취급한다.

 

 

이렇게 통계는 100% 정답을 다루지 않기에, 수치의 차가 얼마 나지 않으면 서로 같다고 취급한다. 그래서 수치의 차가 어느 정도 이상은 되어야 같지 않다” “크다” “작다를 거론할 수가 있는데, 이것은 나눗셈만으로는 파악이 안 된다. 그래서 나름의 기준이 더 있어야 하기에, 추가로 검정통계량과 기각역을 구해서 서로 비교하는 번거로운 과정을 거치는 것이다. 어쨌든 기본 바탕은 나눗셈을 활용하는데, 그래서 귀무가설과 대립가설을 다음과 같이 나눗셈으로 설정할 수가 있고, 그렇기에 가설을 표현하는 방법이 2가지이다.

 

 

가설을 두 개의 방법 중 어떤 걸로 사용하든 별 상관은 없지만, 두 번째 방법은 거의 사용하지 않는다. 그러나 검정통계량을 이해하기 위해서는 두 번째 방법도 알아야 한다. 일단 두 모분산의 검정통계량인 F통계량은 두 개의 카이제곱통계량을 서로 나눠서 공식을 유도 한다.(정확하게는 각각의 카이제곱통계량을 일단 자신들의 자유도로 나눈 다음, 그다음 서로 나눠줘야 F통계량이 된다.) 그래서 F통계량 공식은 다음과 같이 나오는데, 보통 가설검정에서 사용하는 F통계량  s12/s22과 조금 다른 것을 알 수 있다.

 

 

이렇게 조금 다른 이유는 바로 가설 속의 모분산 때문이다. 먼저 모분산의 가설검정은, 모분산인 σ2을 모르기에 모분산이 이럴 것이다.라는 두 개의 가설 중, 어느 가설이 더 타당한지를 판단하는 것이다. , 모분산 σ12, σ22은 모르는 상태이다. 그래서 위 공식으로 유도한 검정통계량의 σ12, σ22은 실제의 모분산이 아니라, 가설 속의 모분산이다.

 

 

그런데 두 번째 방법의 가설을 보면, 가설 속의 모분산 σ12/σ22=1이라고 나타내고 있다. 그래서 검정통계량의 가설 속의 모분산 σ22/σ12=1이 된다. 그런데 1은 곱해지든 나눠지든 값에는 영향을 주지 않는다. 그래서 편의상 σ22/σ12을 생략한 것이다. 그래서 검정통계량은 s12/s22으로만 사용한다.(모평균 때처럼, 문제를 응용하면 1 이외에 다른 수치를 사용할 수도 있지만, 그런 문제는 본 적이 없다.)

 

 

그리고 기각역 구하는 법은 F분포표 보는 법(참고)하면 되기에 따로 설명할 건 없다. 그냥 다음 포스팅인 문제풀이에서 구하는 법을 알아보자.

저작자 표시 비영리 변경 금지
신고
Posted by 나부랭이

댓글을 달아 주세요

  1. arounder

    지나가다가 우연히 글을보게되서 첫페이지부터 여기까지오게 되었습니다. 매일 조금씩 보다보니 인제 얼마남지 않은 상황인데 이 이야기를 다 읽고나면 이 이후의 통계이야기는 무엇을 참조하면 좋을까요?

    2016.01.31 11:54 신고 [ ADDR : EDIT/ DEL : REPLY ]