통계2014.10.20 19:08

카이제곱분포 개념정리를 해보자. 통 무엇인가를 조사하고 분석할 때, 데이터들의 중심위치를 파악하는 것이 중요한데, 이 중심위치를 표현하는 대표적인 척도가 평균이다. 그리고 평균에서 데이터들이 흩어져 있는 정도, 즉 치우침을 표현하는 대표적인 척도가 분산이다.(표준편차도 있다) 그런데 이 분산이 퍼져있는 모습을 분포로 만든 것이 바로 카이제곱분포다. 분산의 제곱된 값을 다루기 때문에 χ2분포라고 불린다.

카이제곱분포는 데이터나 집단의 분산을 추정하고 검정할 때 많이 사용하는데, 카이제곱분포의 특징 중 하나는, 제곱된 값 분산을 다루기 때문에, -값은 존재하지 않고 +값만 존재한다는 점이다. 그래서 정규분포 그래프와 비교해보면, 정규분포는 값도 다루기 때문에 좌우가 모두 발달하여 좌우대칭인 모양을 하는 반면, 카이제곱분포는 +값만 다루기 때문에 한쪽만 유달리 발달하여 오른쪽 꼬리가 긴 비대칭 모양을 하고 있다.

 

 

연속확률분포를 쉽게 받아들이기 위해서는 먼저 그래프의 곡선을 이해하면 편한데, 세부적으로 카이제곱분포 그래프를 분석해보자. 카이제곱분포 그래프를 분석해보면 0에서 가까울수록 분포가 많고, 상대적으로 0에서 멀어질수록 분포가 감소하는 것을 알 수 있다. 그 이유는 데이터나 집단의 치우침은 어느 정도 크기인 경우가 많지, 치우침이 말도 안 되게 큰 경우는 별로 없기 때문이다. 예를 들어 한국성인 남자의 평균 키가 173cm라는 것은, 174.58cm, 169.01cm, 172.37cm처럼 평균을 기준으로 치우침이 별로 크지 않은 사람이 많고, 상대적으로 198.46cm, 200.01cm처럼 치우침이 아주 큰 사람은 적다는 소리다. 그래서 카이제곱분포는 0에서 가까울수록(치우침이 작을 경우) 분포가 많고, 0에서 멀어질수록(치우침이 클 경우) 분포가 감소하는 형태를 띠고 있다.

 

 

그리고 0근처의 분포가 약간 감소하여 왼쪽 꼬리가 처져있는 이유는, 데이터나 집단을 조사했을 때 어느 정도의 치우침은 당연하다는 듯이 발생하기 때문이다. 치우침이 0이라는 것은 치우침이 없다는 소리인데, 현실적으로 세상에 정답은 없기에 표본의 데이터나 특정 집단을 조사하면, 어느 정도의 오차는 자연스럽게 따라온다. 어느 정도의 오차, 즉 어느 정도의 치우침은 자연스럽게 발생하기에, 0근처의 분포는 얼마 되지 않는다. 그래서 왼쪽 꼬리가 처져있다.

 

 

카이제곱분포도 이전 포스팅의 t분포와 마찬가지로 연속확률분포이면서 표본분포로, 직접 확률을 구할 때 사용하는 분포가 아니라, 신뢰구간과 가설검정 그밖에 적합도 검정, 동질성 검정, 독립성 검정 등에 사용하는 분포다. 그리고 신뢰구간 추정이랑 여러 검정을 할 때 χ2값을 사용하는데, χ2값은 그래프의 x축 좌표에 해당한다. 그럼 다음 포스팅에서는 카이제곱분포표를 가지고 χ2값 구하는 법을 알아보자.

 

저작자 표시 비영리 변경 금지
신고

'통계' 카테고리의 다른 글

F분포 개념정리!  (12) 2014.10.23
카이제곱분포표 보는 법!  (22) 2014.10.22
카이제곱분포 개념정리!  (18) 2014.10.20
t분포표(티분포표) 보는 법!  (35) 2014.10.18
t분포(티분포) 개념정리!  (16) 2014.10.17
표본분포(표집분포)의 종류와 특징?  (16) 2014.10.15
Posted by 나부랭이

댓글을 달아 주세요

  1. 짱짱

    블로그 운영자님 짱짱!!

    2014.11.01 22:04 신고 [ ADDR : EDIT/ DEL : REPLY ]
  2. 만세

    이제 통계학 공부하는 문돌이입니다~ 수업때는 왜 배우는지 잘 배우지 못했는데, 쓰임새를 알고 나니 공부 의욕도 나고 감이 잡히는 것도 같습니다~~ 감사합니다~!!! ^^

    2014.11.11 20:17 신고 [ ADDR : EDIT/ DEL : REPLY ]
  3. 최고다

    진짜 답글 안올리는데 설명 이해하기 정말 쉽게 하셔서 감사합니다!!!

    2014.12.13 18:12 신고 [ ADDR : EDIT/ DEL : REPLY ]
  4. 왜 이제서야 봤을까ㅠㅠ
    정말 감사합니다.
    T분포나 카이제곱분포에서 '자유도가 n-1인 분포를 따른다' 라는 말에 대해서 설명해주실 수 있나요?

    2014.12.23 11:42 신고 [ ADDR : EDIT/ DEL : REPLY ]
    • 둘 다 표본분포이니 자유도 n-1을 적용해야 하고,

      그래서 분포의 모양이, n-1을 적용했을 때의 모양을 따라갑니다.

      외에 별달리 설명할 게 없네요 ~_~;;

      2015.01.23 16:21 신고 [ ADDR : EDIT/ DEL ]
  5. 그래프가 오른쪽으로 치우쳐있다는 개념은.. 오른쪽꼬리가 길다는 건가요?? 아니면 그 반대개념인가요? ㅜ

    2015.01.30 11:50 신고 [ ADDR : EDIT/ DEL : REPLY ]
  6. alsl77

    안녕하세요 사회과학대에서 기업가치를 공부하고 있는 학생인데요ㅠㅠ 혹시 질문하나 해도 될까요ㅠㅠ

    2015.06.17 17:57 신고 [ ADDR : EDIT/ DEL : REPLY ]
    • 어떤 건데요?

      2015.06.17 18:08 신고 [ ADDR : EDIT/ DEL ]
    • alsl77

      기업합병의 발표효과에 관한 건데요!
      정규분포랑 카이스퀘어분포 그래프가 나와있고..
      이 그래프를 분석하는거에요ㅠㅠ

      2015.06.17 18:11 신고 [ ADDR : EDIT/ DEL ]
    • alsl77

      정규분포일때랑 카이스퀘어분포일 때의 특징을 알면 될 것같은데..
      기업의 가치가 증가하냐 감소하냐 변화가없냐 이런 느낌으루요ㅠㅠ

      2015.06.17 19:05 신고 [ ADDR : EDIT/ DEL ]
    • 이것만 가지고는

      뭘 물어보시는 건지 모르겠네요;;

      2015.06.18 09:42 신고 [ ADDR : EDIT/ DEL ]
  7. ㅇㅇㅈ

    카이제곱분포 정의를 이용해서 평균좀 정의해주세요

    2016.11.16 10:48 신고 [ ADDR : EDIT/ DEL : REPLY ]
  8. ㄱㅎㅇ

    제품 신뢰성 자료 작성 중에 카이 제곱을 사용해서 Failure in time을 구하고 있습니다..
    그런데 카이제곱 계산 중에 α를 60% (or 0.6)로 가정을 하고 계산을 하라고 합니다.
    혹시 통계학에서 카이제곱에 사용하는 α=60%가 어떤 의미가 있는 것인지요?
    그렇지 않다고 하면 일반적으로 제품 신뢰성 평가 시 통상적으로 60%로 사용한다고 이해를 해야 할 것 같아서요..

    2017.03.06 18:11 신고 [ ADDR : EDIT/ DEL : REPLY ]