통계2015.01.17 17:58

상관계수 구하는 법을 알아보자. 이전 글에서 점들이 모여 있는 밀도를 표현하기 위해서 수치를 사용하는데, 이 수치가 곧 상관계수라고 했다. 그럼 이번에는 상관계수 구하는 법을 알아보자. 일단 두 변수가 상관관계가 있을 때, 점들이 퍼져있는 것을 보면 일정한 패턴에 모여있다는 것을 알 수 있다. 그런데 이 일정한 패턴에 모여 있지만, 각각 어느 정도의 치우침은 발생한다는 것도 알 수가 있다.

 

 

그래서 이 치우침을 활용하면 상관계수를 구할 수가 있는데, 통계에서 치우침을 표현하는 대표적인 기호가 분산이다. 그래서 분산을 활용해서 상관계수를 구하는데, 구하는 공식은 다음과 같다.

 

 

위 공식의 분자를 보통 공분산이라고 부르는데, 공분산에 대해서 알아보자. 상관분석은 기본적으로 변수가 2개이기에, 치우침이 두 변수에 의해서 발생한다. 그래서 각각의 분산 외에, 추가로 두 변수의 공통된 치우침도 알아야 하는데, 두 변수의 공통된 치우침을 공분산이라고 한다.(정의가 틀릴 수도 있다. 공분산은 정의 내리기가 좀 애매하다.)

 

 

그런데 보통 분산은 제곱된 값이기에 +값만 나오지만, 공분산은 값도 나온다.(그래서 공분산이라는 이름은 잘못 지어진 걸 수도 있다. 분산보다는 오히려 상관계수와 더 비슷하므로, 상관계수와 연관된 이름이 더 좋아 보인다.) 그리고 이렇게 값이 나와야 하는 이유는, 상관계수가 값도 가지고 있기 때문이다.(1r+1) 그런데 분모는 제곱된 값으로 항상 +값만 나오기 때문에, -값이 나오기 위해서는 공분산이 값도 다루어야 한다.

 

 

추가로 상관계수는 모집단일 때는 모상관계수, 그리고 표본일 때는 표본상관계수라고 부르는데, 모상관계수는 보통 ρ라고 표기한다.(“라고 읽으면 된다.) 그리고 모상관계수는 모집단이기에 n으로 나눠줘야 한다. 하지만 모집단은 데이터가 워낙에 방대하므로, 모상관계수를 직접 구할 일은 거의 없다.

 

 

그리고 어차피 모상관계수와 표본상관계수의 값은 똑같이 나온다. 왜냐하면 공식의 nn-1은 상쇄돼서 없어지기 때문이다.(nn-1을 다루느냐 아니면 없애느냐에 따라, 여러 통계 책마다 공식이 약간씩 다르다.) nn-1이 없어지는 과정은 아래와 같다.

 

 

상관계수는 nn-1을 없앤 공식이 더 간단하고 일반화되어 있으므로, 앞으로는 이 공식을 사용하려 한다. 그럼 다음 글에서는 상관계수를 직접 구해보자.

 

'통계' 카테고리의 다른 글

상관계수의 가설검정 개념정리  (4) 2015.01.21
상관계수 계산하는 법  (0) 2015.01.18
상관계수 구하는 법  (8) 2015.01.17
상관계수란?  (24) 2015.01.15
상관분석이란?  (10) 2015.01.14
쌍체비교(대응표본) 신뢰구간 문제풀이  (2) 2015.01.07
Posted by 나부랭이

댓글을 달아 주세요

  1. 옥경

    안녕하세요! :) 늘 포스팅하신 글 보면서 감사한 마음으로 열공하고 있는 학생입니다!
    질문이 있어서 댓글 남깁니다.
    1. 공부산이란 두 변수의 공통된 치우침이라고 하였는데 '공통된 치우침'이라는게 정확히 이해가 안되서요 ㅠㅠ 학교에서는 'X와 Y가 각각의 평균을 중심으로 하여 같은 방향으로 변화하는 정도를 나타냄'이라고 배웠는데 똑같은 말인가요? 그리고 뭘 어떻게 해서 공통된 치우침이라는 건가요 ?
    2. 공분산에도 모집단에 대한 것과 표본에 대한 것이 있나요?

    2015.10.16 10:50 신고 [ ADDR : EDIT/ DEL : REPLY ]
    • 1. 위에서도 말했듯이 공분산은 정의 내리기가 애매합니다.

      그리고 "X와 Y가 각각의 평균을 중심으로 하여 같은 방향으로 변화하는 정도를 나타냄"

      이 문장만 가지고는 같은 뜻인지 잘 모르겠네요.



      2. 만들면 있겠죠.(이미 사용하고 있을 수도 있습니다)

      2015.10.16 13:23 신고 [ ADDR : EDIT/ DEL ]
  2. lucky

    구글 검색으로 보게되었는데, 참 설명이 친절하셔서 너무 좋았습니다. 감사합니다!

    2015.12.09 08:50 신고 [ ADDR : EDIT/ DEL : REPLY ]
  3. gg

    항상 감사하게 보고있습니다!
    한가지 궁금한 점이 있는데요,
    모 상관계수에서 왜 뮤를 쓰지 않고 엑스바를 사용하나요?

    2016.06.14 15:38 신고 [ ADDR : EDIT/ DEL : REPLY ]
    • 뭐.. 뮤값을 안다면, 뮤를 써도 됩니다.

      그런데 보통 뮤값을 모르는 경우가 대부분이기에,

      엑스바를 씁니다.

      2016.06.17 12:39 신고 [ ADDR : EDIT/ DEL ]
  4. 문재은

    안녕하세요! 구글 검색을 통해 상관계수증명을 알고자 들어왔는데 자세한 설명 감사합니당ㅎㅎㅎ 그런데 중간에 의문이 생겼는데 x와 y의 데이터수가 다르면 x의 분산을 구할 때나 y의 분산을 구할 때 둘 다 n-1 이 가능한가요..?
    그리고 x와 y의 공분산을 구할 때도 n-1 을 사용하면 되는지 궁금한데 알려주시면 감사해요^o^

    2017.01.07 11:16 신고 [ ADDR : EDIT/ DEL : REPLY ]