통계2014.11.08 17:51

두 모평균의 신뢰구간 구하는법(σ1, σ2를 모르는 경우)을 알아보자. 이전 포스팅에서는 σ1, σ2를 아는 경우에 대해 알아보았다. 하지만 모표준편차(σ)는 모평균(μ)을 알아야 구할 수 있으므로, σ1, σ2를 아는 경우는 거의 없다고 생각해도 된다. 그래서 대부분의 두 모평균 추정이 σ1, σ2를 모르는 경우에 해당하는데, 신뢰구간 추정 시 t분포를 사용한다. 그리고 공식은 다음과 같다.

일단 공식에 있는 sp는 합동표준편차이다. 보통 표본의 수가 적으면 추정값의 데이터를 신뢰하기가 힘들다. 그래서 신뢰도를 높이기 위해 두 집단의 표본을 모아서, 한 번에 표준편차를 계산하는데, 이렇게 하면 표본의 수가 좀 더 많아지기에 추정값의 신뢰도가 올라간다. 그리고 이런 방식으로 구한 표준편차를 합동표준편차라고 한다.(합동표준편차를 제곱하면 합동분산이 된다.) 합동표준편차 구하는 법은 다음과 같다.

 

 

그리고 신뢰구간 공식을 보면 t값을 구하는 자유도가 n1+n2-2라는 것을 알 수 있는데, 합동표준편차로 두 집단의 표준편차를 한 번에 계산하기 때문이다. 그래서 두 집단의 자유도(n1-1, n2-1)를 더해보면, n1-1+n2-1=n1+n2-2가 되는 것을 알 수 있다.

 

 

그리고 두 모평균의 신뢰구간(σ모르는 경우)”도 단일 모평균의 신뢰구간(σ모르는 경우)”과 마찬가지로 표본의 수가 많아지면 정규분포를 사용한다. 그런데 단일 모평균에서는 n30개라는 명확한 기준이 있는데(참고), 두 모평균에서는 소표본 대표본이라고만 나타낼 뿐, 명확한 기준이 없다. 왜냐하면 그 이유는 t분포표에 있다. 보통 t분포는 표본이 적을 때 사용하려고 만든 분포이기에, 표본 31(자유도 기준으로 30) 이하의 값 위주로 구성되어 있다. 그래서 단일 모평균에서는 그 기준을 30개로 잡는 것이다.(31개로 잡지 않은 이유는, 기준으로 쓰기에는 31개보다는 30개가 보기에 편하기 때문이다.)

 

 

그런데 두 모평균에서는 자유도를 n1+n2-2로 다루기 때문에, 수가 조금만 커지면 해당 값이 t분포표에 없는 경우가 많다. 예를 들어 두 집단의 표본이 25개와 31개라고 한다면, 자유도는 25+31-2=54가 되는데, 자유도 54t분포표에 존재하지 않는다. 이렇게 두 집단의 자유도가 어떻게 나올지 변수가 있어서, n30처럼 명확한 기준을 세울 수가 없다. 그래서 소표본 대표본처럼 두리뭉실하게 기준을 세워 놓은 것이고, 표본이 많아지면 t분포를 사용할 수 없기에 정규분포를 사용하는 것이다. 문제를 풀 때 표본의 수가 소표본인지 대표본인지 애매한 경우에는n1+n2-2t분포표에 있는지를 파악해보고, 없다면 정규분포를 사용하자.

 

 

어쨌든 대표본일 때는 정규분포를 사용하는데, 공식은 이전 포스팅인 두 모평균의 신뢰구간(σ를 아는 경우)” 공식과 비슷하다. 단지 모분산인 σ2 표본분산 s2으로 대체되었을 뿐이다.(σ를 모르기 때문에 s를 사용하는 것이다.) 그럼 문제를 풀어보자.

 

 

 

1. 건전지를 생산하는 두 회사가 있는데, 두 회사 건전지의 평균 수명이 얼마나 차이 나는지를 비교하려고 한다. 그래서 각 회사에서 1615개의 표본을 뽑아 실험하였더니, 표본평균은 각각 140, 120일이 나왔고, 표본분산은 10, 15가 나왔다고 한다. 이때 두 건전지의 평균수명 차이에 대한 95% 신뢰구간을 추정하시오.

                    

먼저 합동분산 sp를 구해보면 3.5233이 나온다. 그리고 신뢰수준이 95%이므로, α/2=0.025. 그리고 자유도가 16+15-2=29이므로, 해당 값을 t분포표()에서 찾으면 tα/2 값은 ±2.045가 된다. 그리고 집단1의 평균은 140이고 분산 s210 그리고 n116개이며, 집단2의 평균은 120이고 분산 s215 그리고 n214개이다. 문제를 풀어보면 신뢰구간은 17.410522.5895가 나온다. 그래서 두 건전지의 평균수명 차이는 17.4105에서 22.5895사이라고 할 수 있다.(문제에서 분산이 바로 주어지지 않고 데이터가 주어진 경우도 있는데, 이럴 때는 직접 s2을 구해야 한다. 구하는 법은 여기를 (참고)하면 된다.)

   

 

 

2. 디지털카메라 AB가 있는데, 두 제품의 평균을 비교하려고 한다. 그래서 각 제품의 표본을 60개와 70개를 뽑아서 조사하였더니, 평균은 각각 250210이 나왔고, 표본분산은 139가 나왔다고 한다. 이때 두 제품의 평균차이에 대한 99% 신뢰구간을 추정하시오.

일단 대표본이고 n1+n2-2t분포표에 없기 때문에, 정규분포를 사용하자. 유의수준이 99%이므로 Zα/2=2.58이다.(Zα/2 구하는 법은 여기를 (참고)하면 된다.) 그리고 집단1의 평균은 250이고 분산은 13 그리고 n160개이며, 집단2의 평균은 210이고 분산은 9 그리고 n270개이다. 그래서 99% 신뢰구간은 38.484141.5159사이라고 할 수 있다.

저작자 표시 비영리 변경 금지
신고
Posted by 나부랭이

댓글을 달아 주세요

  1. 통계조하

    통계 좋아는 하는데 수업 들었다 말았다 해서 개념 잘 안 잡히고 헷갈려하고 있었는데 나부랭이님 글 보고 엄청 많이 도움 됐어요!! 감사합니다!! 뒷부분 가설검정도 올려주셨으면 좋겠군요ㅠㅠ

    2014.11.09 02:14 신고 [ ADDR : EDIT/ DEL : REPLY ]
  2. 비밀댓글입니다

    2014.11.12 01:28 [ ADDR : EDIT/ DEL : REPLY ]
  3. 비밀댓글입니다

    2014.11.12 01:28 [ ADDR : EDIT/ DEL : REPLY ]
  4. 통계

    안녕하세요, 지금 통계학을 듣고있는 학생인데, 여쭤볼께있어서요.
    환자 6명 (n=6), 95%의 신뢰도가 주어져있고
    그리고 환자6명에대한 혈압증가에 대한 테이블이 있습니다(1.7, 3.0, 0.8, 3.4, 2.7, 2.1)

    답 해설을 보면 -엑스바 플러스마이너스 t α/2 √n분의S 공식을 썼더라구요

    저기 위의 표에 따라서 표본평균은 구했는데, s를 어떻게 구해야할지 모르겠습니다 ㅠㅠ

    2014.12.11 10:09 신고 [ ADDR : EDIT/ DEL : REPLY ]
    • 이 포스팅은 "두 모평균"인데,

      님이 물어보신 건 "단일 모평균"이에요.

      그래서 여기 말고,

      여기 (http://math7.tistory.com/66)를 참고해 주세요~

      2014.12.11 13:39 신고 [ ADDR : EDIT/ DEL ]
  5. 닐리리야

    정말 많이도움이 됩니다 너무쉽게 잘설명해주시고요 다만 문제풀이때 표에 체크들이 없었다면 직접 찾게되므로 더 효율적일것 같습니다.

    2015.12.11 00:30 신고 [ ADDR : EDIT/ DEL : REPLY ]
    • 이런 식으로 찾는다는 걸 보여주기 위해 체크한 겁니다.

      그래서 직접 연습 하시려면,

      이 블로그에 있는 문제 말고,

      "다른 책에 나오는 문제"들을 가지고,

      연습하시는 게 좋을 겁니다 ~_~

      2015.12.11 14:25 신고 [ ADDR : EDIT/ DEL ]
  6. 혹시 왜 두 집단 평균의 신뢰구간 추정하는건데 (뮤1+뮤2)의 신뢰구간이 아닌 (뮤1-뮤2)의 신뢰구간을 구하나요? 원래 공식이 저렇게 정해져있는건가요?

    2016.06.08 00:11 신고 [ ADDR : EDIT/ DEL : REPLY ]
    • 먼저 숫자 10과 숫자 6의 차이는 얼마인가요?

      두 숫자의 차이를 구하려면, 뺄셈을 하면 됩니다.

      그래서 두 숫자의 차이는, 바로 10-6=4입니다.

      마찬가지로 평균의 "차이"를 구하는 것이기 때문에, 뺄셈을 하는 겁니다.

      2016.06.09 12:21 신고 [ ADDR : EDIT/ DEL ]
  7. 표본이 30을 넘어가면 T분포표에서 찾을 수 없으니 정규분포를 사용한다고 하셨는데
    spss를 사용할떄는 그런거 신경안쓰고 그냥 역DF에서 T분포 사용해도 되는건가요?

    2016.10.15 01:13 신고 [ ADDR : EDIT/ DEL : REPLY ]
    • 글쎄요..

      어차피 값은 비슷하게 나올 테니

      정규분포를 쓸지 아니면 t분포를 쓸지

      그냥 쓰는 사람 마음 아닐까요~

      2016.10.16 14:07 신고 [ ADDR : EDIT/ DEL ]
  8. 초보자의생활

    마지막 1번 문제에서 등분산이라는 조건하에 Sp를 구하고 있는데 이 문제에서 등분산이라는 힌트는 어디서 찾을 수 있는거죠?

    저의 사고에서는 어떤부분이 등분산이여서 Sp를 쓰는건지 모르겠네요 ㅠ

    2016.10.22 09:54 신고 [ ADDR : EDIT/ DEL : REPLY ]
  9. 초보자의생활

    읽어봐도 모르겠네요.. ㅠㅠㅠㅠㅠ

    2016.10.22 15:21 신고 [ ADDR : EDIT/ DEL : REPLY ]
  10. 초보자의생활

    등분산일때 sp를 쓰고 모집단의 분산이 같지 않을때 수정자유도를 써서 그렇게 말씀드렸어요

    2016.10.22 20:59 신고 [ ADDR : EDIT/ DEL : REPLY ]
    • 저는 그렇게 한 적 없습니다.

      위의 문제에서 등분산은 나오지도 않습니다.

      글을 제대로 읽으세요~

      2016.10.24 12:43 신고 [ ADDR : EDIT/ DEL ]
  11. 초보자의생활

    언재 수정자유도를 쓰고 언재 합동표준편차를 쓰시나요?

    2016.10.22 21:01 신고 [ ADDR : EDIT/ DEL : REPLY ]
  12. 퍄퍄 깔끔한 정리. 고맙습니다. 여기서 많은 공부를 할 수 있을거같아요. 좋은 자료 너무나 고맙습니다

    2017.04.28 16:27 신고 [ ADDR : EDIT/ DEL : REPLY ]
  13. 잘 읽었습니다^

    2017.09.26 14:34 신고 [ ADDR : EDIT/ DEL : REPLY ]