통계2014.12.11 19:25

두 모평균의 가설검정 개념정리(σ를 모르는 경우)를 해보자. 가설검정과 신뢰구간은 서로 비슷한 개념들이 많기에 이번 포스팅에는, 예전에 다루었던 두 모평균의 신뢰구간 구하는법(σ를 모르는 경우)”의 내용이 많이 들어갈 것 같다. 내용이 중복돼서 좀 그렇기는 하지만, 이 내용 외에는 별다른 특이상황도 없어서 다시 한 번 다루려고 한다.(공식도 똑같다.) 그리고 σ를 모르는 경우σ를 아는 경우와 기본 개념이 똑같으므로, 먼저 여기를 (참고) 하는 것이 좋을 것 같다. 하지만 몇 가지 다른 점도 있는데, σ를 모르는 경우에는 t분포를 사용하기 때문에, 검정통계량 공식이 다르다.

검정통계량 공식을 보면 sp가 있는데, sp는 합동표준편차이다. 보통 두 집단을 추정하고 검정할 때는, 집단 각각의 표준편차를 구한다. 하지만 때로는 각각의 표준편차를 구하는 것이 아니라, 두 집단의 데이터를 모아서 한 번에 표준편차를 계산하기도 하는데, 이렇게 계산된 표준편차가 합동표준편차이다. 그리고 합동표준편차 구하는 법은 다음과 같다.

 

 

두 모평균의 가설검정(σ를 모르는 경우)에서 합동표준편차를 사용하는 이유는, 데이터의 신뢰도를 높이기 위함이다. 보통 무엇인가를 조사할 때, 표본의 수가 적으면 적을수록 오차가 커지기에, 데이터에서 얻어낸 값은 신뢰도가 떨어진다. 그래서 신뢰도를 높이기 위해서는 표본의 수를 늘려야 하는데, 현실적으로 비용과 시간의 제약으로 그렇게 하지 못하는 경우가 많다. 그래서 편법으로 표본의 수를 늘리기 위해, 두 집단의 표본을 한 번에 모아서 합동표준편차를 계산한 것이다. 이렇게 하면 표본의 수가 조금은 많아지기에 값의 신뢰도가 조금은 올라간다.

 

 

 

그리고 기각역을 보면 자유도가 n1+n2-2라는 것을 알 수 있는데, 그 이유는 합동표준편차처럼 두 집단의 자유도를 한 번에 계산했기 때문이다. 그래서 두 집단의 자유도 n1-1n2-1을 합해보면, n1-1+n2-1=n1+n2-2가 되는 것을 알 수 있다. 이렇게 자유도를 모아서 한 번에 계산한 이유는, 기각역을 1개만 만들기 위해서이다. 자유도를 따로따로 계산하면 기각역이 2개가 생기는데, 가설검정은 기각역이 1개만 있으면 된다.

 

 

 

그리고 σ모르는 경우에는 기본적으로 t분포를 사용하지만, 표본의 수가 많아지면 정규분포를 사용한다고 했다. 그런데 단일 모평균에서는 n30개라는 명확한 기준이 있는데, 두 모평균에서는 소표본 대표본이라고만 나타낼 뿐, 명확한 기준이 없다. 왜냐하면 그 이유는 t분포표에 있다. 보통 t분포는 표본이 적을 때 사용하려고 만든 분포이기에, 표본 31(자유도 기준으로 30) 이하의 값 위주로 구성되어 있다. 그래서 단일 모평균에서는 그 기준을 30개로 잡는 것이다.(31개로 잡지 않은 이유는, 기준으로 쓰기에는 31개보다는 30개가 보기에 편하기 때문이다.)

 

 

그런데 두 모평균에서는 자유도를 n1+n2-2로 다루기 때문에, 수가 조금만 커지면 해당 값이 t분포표에 없는 경우가 많다. 예를 들어 두 집단의 표본이 25개와 31개라고 한다면, 자유도는 25+31-2=54가 되는데, 자유도 54t분포표에 존재하지 않는다. 이렇게 두 집단의 자유도가 어떻게 나올지 변수가 있어서, n30처럼 명확한 기준을 세울 수가 없다. 그래서 소표본 대표본처럼 두리뭉실하게 기준을 세워 놓은 것이고, 표본이 많아지면 t분포를 사용할 수 없기에 정규분포를 사용하는 것이다. 문제를 풀 때 표본의 수가 소표본인지 대표본인지 애매한 경우에는, n1+n2-2t분포표에 있는지를 파악해보고, 없다면 정규분포를 사용하자.

 

 

 

어쨌든 대표본일 때는 정규분포를 사용하는데, 검정통계량 공식은 이전 포스팅인 두 모평균의 가설검정(σ를 아는 경우)” 공식과 비슷하다. 단지 σ를 모르기 때문에, 모분산 σ2 대신 표본분산 s2을 사용한다. 그리고 검정통계량의 μ1-μ2는 가설 속의 모평균으로, μ1-μ2=0인 경우가 많다. 가끔 응용된 문제에서 0 이외에 다른 수치를 사용하기도 하는데, 그건 다음 포스팅인 문제풀이에서 알아보자.

저작자 표시 비영리 변경 금지
신고
Posted by 나부랭이

댓글을 달아 주세요

  1. 플루토늄

    감사합니다!! 궁금했던게 확 풀리네요. 만약 n1=31 n2=12인 경우엔 자유도가 30보다 크기때문에 t가 아닌 Z를 구하면 되는 것 이군요. 다시한번 감사드립니다.

    2014.12.11 20:22 신고 [ ADDR : EDIT/ DEL : REPLY ]
  2. 나부랭이팬

    포스팅 잘보고있습니당! 그런데 합동표준편차를 구하는 방법중에 n2에 1이아닌 2를 빼주는건가요??
    항상감사해요~ :)

    2014.12.12 12:54 신고 [ ADDR : EDIT/ DEL : REPLY ]
    • 그렇네요;;

      이 "이미지" 예전에 신뢰구간 때 사용한 걸 재활용한 건데,

      그 글도 수정하러 가야겠네요 ~_~

      2015.01.28 16:00 신고 [ ADDR : EDIT/ DEL ]
  3. 나부랭이팬

    저희가 더 감사해요!! 더 열심히 보겠습니다!!ㅎㅎㅎ

    2014.12.12 14:43 신고 [ ADDR : EDIT/ DEL : REPLY ]
  4. 와장난아니다

    와 진짜 장난아닌 것같아요 ㅠㅠ
    저의 학과가 산공과라서 통계..진짜 맨날배우는데도,,,어렵고,,
    책을 봐도 궁금증이 해소가 잘 안되는데
    나부랭이 님의 포스팅을 보고!! 궁금증이 해소ㄱ가 확 확 되네요!
    지금도 나부랭이님 포스팅으로 시험공부중입니다!
    정말 도움이 많이되고있어요!!
    앞으로도 쭉쭉 좋은 내용 부탁드려요!! 짱짱

    2014.12.17 03:34 신고 [ ADDR : EDIT/ DEL : REPLY ]
  5. jubbal

    통계프로그램 미니텝의 경우는 2sample t-test 에서 개선전 10개 데이터, 개선후 10개 데이터를 넣고 계산해보니 합동표준편차를 사용하지 않고
    정규분포 검정통계량을 사용하던데 나부랭이님께서 이야기 하신대로 신뢰도를 높이기 위해서
    합동표준편차 계산식을 사용하는 것이 맞는 것이 아닌지. 나부랭이님 생각은 어떠십니까?

    그리고 검정에서 판정이 달라질 수도 있을거 같은데요

    서술형 문제가 주어지면 샘플수의 크기가 크지 않더라도 정규분포
    검정통계량값으로 계산해도 크게 문제가 없을런지요?

    2015.01.22 08:02 신고 [ ADDR : EDIT/ DEL : REPLY ]
    • 저는 굳이 합동표준편차를 사용하지 않고,

      그냥 따로따로 계산해도 된다고 생각합니다.

      어차피 값은 거의 비슷하게 나옵니다.

      단지 일반적으로 통용되는 통계이론에서,

      합동표준편차를 사용하기에, 그냥 저도 합동표준편차로 다룬 겁니다.



      그리고 제가 합동표준편차를 사용하면 신뢰도가 올라간다고 했는데,

      합동표준편차로 계산했을 때랑, 따로따로 계산했을 때의 값이 거의 비슷하기에,

      실상 그렇게 신뢰도가 올라가지는 않을 겁니다.



      그리고 값 차이가 얼마 나지 않기 때문에,

      검정의 결과도 크게 달라지지는 않을 겁니다.



      그리고 미니탭에서 어떻게 다루는지는 모르겠지만,

      샘플 수가 크지 않을 때,

      "σ를 아는 경우"에는 정규분포이고,

      "σ를 모르는 경우"에는 t분포 입니다.

      2015.01.22 14:30 신고 [ ADDR : EDIT/ DEL ]
  6. 두모집단에 대한 가설검정.. 정말 어렵네요 ㅠㅠ 잘 보고갑니다ㅎ

    2015.02.13 11:24 신고 [ ADDR : EDIT/ DEL : REPLY ]
  7. 코스비

    감사합니다.

    2016.11.30 14:04 신고 [ ADDR : EDIT/ DEL : REPLY ]
  8. 16경영

    서울대 나온 교수님 수업보다 더 이해가 잘 되네요!! 감사합니다

    2016.12.08 01:32 신고 [ ADDR : EDIT/ DEL : REPLY ]
  9. 15응통

    음..? 뭔가 잘못된 것 같다고 생각하기에 글 남겨봅니다. 합동표준편차를 사용한다는 것은 각 분산을 1:1의 비율로 생각하고 계산하는 데. 만약 분산 크기가 서로 차이가 난다면요..?
    쉽게 풀기 위해 예시를 들자면
    집단 X 의 분산이1 이고 집단 Y의 분산이 10000이라고 해봅시다. 이 경우에 합동표준편차는 Y의 분산 10000에서 압도적으로 줄어들게 됩니다. 즉 저 식은 강제로 동일하게 만든다고 보기에 합동표준편차를 사용하려면 모분산을 모르지만 모분산이 같다는 가정이 있어야지 1:1비율에서 정보(?)손실 없이 제대로 반영한다고 생각합니다. 더불어 모분산이 같지 않다면 합동표준편차를 사용해서는 결과가 왜곡되리라 생각이 들어서 글 남겨봅니다.

    2016.12.15 01:36 신고 [ ADDR : EDIT/ DEL : REPLY ]
  10. 222

    n수가 몇백만개 되는 Data들은 밑의 분모가 소수점이 되어버리는데요 이럴경우 어떻게 해야하나요

    2016.12.29 13:28 신고 [ ADDR : EDIT/ DEL : REPLY ]
    • 표본 수가 몇백만 개이면, 그냥 "모수"로 취급해도 될 겁니다.

      그래서 위와 같은 과정을 거치지 않고, 바로 몇백만 개의 평균을 냅니다.

      그다음 "몇백만 개의 평균"을 가지고, 크고 작은지를 판단하면 될 겁니다.

      2017.01.03 15:39 신고 [ ADDR : EDIT/ DEL ]
  11. 학생

    글 쭈욱 읽고 있는데, 인터넷에 어떤 통계 블로그보다도 설명이 알기 쉽게 잘 되있는 것 같습니다. 정말 감사합니다.

    2017.04.18 19:34 신고 [ ADDR : EDIT/ DEL : REPLY ]
  12. 아딸사랑

    분산이 다른 2 test에서 DF가 n1+n2-2가 아니고 각 표준편차가 고려된 수식인 있는걸로도 검색이됩니다.
    사실 t test는 본문과 같이 두 모평균의 신뢰구간 예측에서 나왔다고 알고 잇었는데, 어떤 경우가 맞고 어떤점이 다른걸까요?
    https://stats.stackexchange.com/questions/173231/degrees-of-freedom-for-2-samples-with-unequal-variance-t-test

    2017.08.14 12:42 신고 [ ADDR : EDIT/ DEL : REPLY ]