통계2015.01.15 19:57

상관계수란 무엇일까? 이전 글에서 상관분석은 두 변수가 서로 어떠한 관계인지를 파악하는 분석이라고 했다. 또 점들이 흩어져 있는 모습을 보고 두 변수의 관계를 파악하는데, 기울기에 따라 양의 상관관계와 음의 상관관계로 나눌 수가 있다. 그런데 한 가지 의문점은, 과연 점들이 모여 있는 밀도는 어떻게 표현하는가?이다.

 

 

위의 그림을 예로 들면, 둘 다 모두 양(+)의 상관관계이지만, 같다고 하기에는 밀도의 차이가 난다. 그래서 먼저 각각 어느 정도의 밀도인지를 알아야 하고, 그로 인해 서로 얼마나 다른지를 파악할 수가 있어야 하는데, 그림으로 이것을 파악하기에는 한계가 있다. 그래서 통계에서는 추가로 숫자를 사용해서 밀도를 표현하는데, 이 밀도를 표현한 숫자를 보통 상관계수라고 부른다.(기호는 r을 사용한다.)

 

 

상관계수(r)의 수치를 사용하면 밀도를 표현할 수가 있는데, 보통 숫자 1부터 +1까지만(1r+1) 사용한다. 그래서 상관계수의 수치가 0에 가까울수록 상관관계가 약하다는 뜻이고, 1에 가까울수록 음(-)의 상관관계가 강하며, +1에 가까울수록 양(+)의 상관관계가 강하다는 뜻으로 해석할 수 있다. 그림과 같이 표현하면 아래와 같다.

 

 

추가로 수치에 따라 상관관계의 정도를 세부적으로 나눠서 해석할 수 있는데, 이 수치는 단지 눈대중으로 나누어 놓은 기준일 뿐, 절대적인 기준은 아니다. 그래서 상황에 따라 얼마든지 달라질 수 있다. 그럼 다음 글에서는 상관계수 구하는 법을 알아보자.

'통계' 카테고리의 다른 글

상관계수 계산하는 법  (1) 2015.01.18
상관계수 구하는 법  (9) 2015.01.17
상관계수란?  (25) 2015.01.15
상관분석이란?  (10) 2015.01.14
쌍체비교(대응표본) 신뢰구간 문제풀이  (2) 2015.01.07
쌍체비교(대응표본) 신뢰구간 구하는법  (6) 2015.01.06
Posted by 나부랭이

댓글을 달아 주세요

  1. -0-

    간만에 포스팅 하셨네요 ㅎㅎ 정말 잘 보구 갑니다 ^_^

    2015.01.16 13:13 [ ADDR : EDIT/ DEL : REPLY ]
  2. 0221

    질문 하나 하겠습니다!!
    상관계수는 -1에서 1범위이고.. 이를 제곱하면 결정계수라고 부르면서 이 수치의 값으로(0~1 범위) 회귀분석 시 유용한 값으로 사용되는 것 같은데.... 왜 제곱을 해주는 건가요??? ㅜㅜ 무작정.. 제곱해주지 않았을 경우, 합이 0이라서.. 그런건가요??

    2015.01.22 20:13 [ ADDR : EDIT/ DEL : REPLY ]
    • 제곱을 사용하는 이유는 2가지로 생각해 볼 수가 있습니다.
      1. 제곱이 편하기 때문에
      2. -값이 필요 없기 때문에



      1. 제곱이 편하기 때문에:

      결정계수를 구하는 방법은 크게 2가지가 있습니다.

      - 상관계수를 제곱하는 방법

      - 분산분석의 데이터를 가지고 구하는 방법

      이렇게 2가지가 있는데, 대부분 "분산분석의 데이터"를 가지고 구합니다.

      왜냐하면 분산분석을 이미 한 상태에서는,

      이렇게 구하는 것이 훨씬 간편합니다.(상관계수는 계산이 귀찮습니다)

      그런데 분산분석의 데이터가 제곱된 수치이기에, 그냥 그 수치 그대로 사용합니다.



      2. -값이 필요 없기 때문에:

      먼저 상관계수가 -값을 다룬 이유는, 음(-)의 상관관계가 있는지를 파악하기 위해서입니다.

      하지만 결정계수는 이런 관계는 파악하지 않고,

      단지 "회귀식이 얼마나 정확"한지만 파악하기에, -값이 필요 없습니다.

      예를 들어 만약 결정계수가 -0.8이 나왔을 때,

      이 수치를 말로 풀면, 0.8만큼 적합하지가 "않다"로 해석 됩니다.(-값 때문에)

      이렇게 -값 때문에 해석이 달라지기에, 다룰 필요성을 못 느끼는 겁니다.

      뭐.. 해석하는 사람이 해석을 잘하면, 이런 부분을 해결할 수 있지만,

      1번에서 말했듯이, 그냥 제곱이 더 편합니다.

      2015.02.05 17:08 신고 [ ADDR : EDIT/ DEL ]
  3. 0221

    질문 하나만 더해볼게요 ㅜㅜ
    회귀분석에서 최소자승법이 있고, 최우추정법이 있다고 들었는데.. 이 이외에도 다른 방법이 있나요?? 찾고있는데 ,,, 도저히 안찾아져서요 ㅜ

    2015.01.22 20:15 [ ADDR : EDIT/ DEL : REPLY ]
    • 저도 최소자승법만 접해봐서, 다른 건 모르겠네요;;

      그런데 밑에 pulit님이 알려주시네요 ㅋㅋ

      2015.01.23 15:32 신고 [ ADDR : EDIT/ DEL ]
  4. pulit

    최소자승법(Least Square), 최우추정법(Maximum Likelihood), 그리고 하나는
    method of moment라고 해서 있을텐데 이게 한국말로 뭔지 모르겠네요.

    2015.01.22 22:39 [ ADDR : EDIT/ DEL : REPLY ]
  5. 포스팅을 보면 정말 정리가 잘됩니다 ㅎㅎ.. 나중에 결정계수에 대해서도 알고싶습니다 ^ ^

    2015.01.29 12:01 [ ADDR : EDIT/ DEL : REPLY ]
  6. 감사하는1인

    당신은....정말 천재입니다......

    2015.03.17 11:45 [ ADDR : EDIT/ DEL : REPLY ]
  7. 부탁드립니다

    1. 상관분석후 상관계수가 약 -0.111이 나왔습니다. 근데 다른곳에서 상관계수가 높음으로 회귀분석 실시. 라고 되어있는데 이말은 상관계수가 낮으면 회귀분석을 할 수 없다는 말인가요???

    2015.05.24 16:25 [ ADDR : EDIT/ DEL : REPLY ]
    • 상관계수의 수치가 높을수록, 회귀분석 결과의 정확도가 올라갑니다.

      상관계수의 수치가 낮을수록, 회귀분석 결과의 정확도가 내려갑니다.



      그래서 상관계수가 낮으면, 어차피 회귀분석을 하더라도,

      결과값을 신뢰하기가 힘듭니다.

      그래서 굳이 회귀분석까지 할 필요가 없습니다.(정확도가 떨어져서요)



      그래서 "상관계수가 높아야, 회귀분석의 정확도가 올라가기에, 회귀분석 실시"라고 이해하시면 됩니다.

      추가로 회귀계수가 낮아도, 회귀분석은 할 수 있습니다.

      단지 정확도가 떨어지기에, 가치가 없을 뿐입니다.

      2015.05.24 17:05 신고 [ ADDR : EDIT/ DEL ]
  8. 부탁드립니다

    감사합니다...ㅠㅜ 몇개만 더질문해도 되겠습니까? 제가 주제를 통학거리에 따른 지각과 결석 수의 상관관계를 했습니다. 그래서 귀무가설: 통학거리와 지각/결석 수의 상관관계는 존재 한다.
    대립가설: 통학거리와 지각/결석 수의 상관관계는 존재하지 않는다.
    로 잡았습니다. 이것에 대해 엑셀에서 t검정: 이분산 가정 두집단을 사용하여 통계량을 냈습니다.
    그 결과 , t통계량 : 3.322...
    P단측 : 0.000867...
    P양츨 : 0.001735... 이렇게 나왔습니다. 그래서 저는 과제에 쓸 말을 상관계수가 -0.111 이라서 통학거리와 지각/결석수의 상관관계가 매우적다. 라고 썼고 P 단측검정의 값이 유의수준 0.05보다 작기 때문에 통학거리와 지각/결석 수의 상관관계는 존재 한다. 라는 귀무가설은 기각한다. 라고썼습니다. 혹시 여기서 잘못된게 있는지 알수 있을까요?

    2015.05.24 17:19 [ ADDR : EDIT/ DEL : REPLY ]
    • 가설설정이 틀린 것 같네요.

      상관계수의 가설검정에서, 가설설정은 아래와 같이 합니다.

      귀무가설: 상관관계가 없다.

      대립가설: 상관관계가 있다.



      자세한 상황은 여기를 참고하세요.(http://math7.tistory.com/115)

      2015.05.25 13:27 신고 [ ADDR : EDIT/ DEL ]
  9. 부탁드립니다

    아...ㅠㅜ 질문 마지막으로 하겠습니다. 제가 주장하고자하는 가설이 '상관관계가 없다.' 입니다. 근데 주장하고자하는 가설이 귀무가설로 설정할 수 있습니까? 만약 설정할 수 있다고 하고 '상관관계가 없다.'는 귀무가설이 채택이 되면 대립가설이 기각되는 것이고 회귀분석은 따로할 필요가 없는 것 입니까?

    2015.05.25 23:03 [ ADDR : EDIT/ DEL : REPLY ]
    • 통계의 가설검정은 지능이 딸려서요,

      그냥 "님의 주장을 대립가설"로 해야 될 겁니다.



      그리고 상관관계가 없다고 판단되면,

      어차피 회귀분석의 결과도 신뢰할 수가 없기에,

      회귀분석을 따로 할 필요는 없습니다.

      2015.05.28 17:17 신고 [ ADDR : EDIT/ DEL ]
  10. 느티나무

    완벽한 설명! 늘 도움 주셔서 고맙습니다..

    2015.08.11 04:19 [ ADDR : EDIT/ DEL : REPLY ]
  11. 통계 상관계수가 -0.5 에 곱하기 -1을 하게된다면 상관계수의값이 0.5가되면서 오른쪽으로 올라가는 기울기로 바뀌는건가요?? 상관계수는 곱이나 합에 변하지 않는다고 어디서 봐서 여쭈어봅니다

    2015.11.21 16:46 [ ADDR : EDIT/ DEL : REPLY ]
    • 수학적인 계산으로는 그렇게 나옵니다.

      하지만 상관계수가 -0.5라는 것을 안 이상,

      추가로 ×-1을 할 이유가 없습니다.



      그냥 두 변수가 음의 상관관계이고,

      그 수치가 -0.5라는 것만 알면 그뿐입니다.

      여기다 ×-1을 해버리면, 상관관계가 왜곡 됩니다.(양의 상관관계로 바뀌므로)

      2015.11.22 14:51 신고 [ ADDR : EDIT/ DEL ]
    • 할 이유가 없다기보다는 문제에서 *1을 하던데요;; 저도 별로 곱하고싶진 않은데
      문제에서 오른쪽 아래기울기의-0.5상관계수에 -1을 곱하면 기울기와 상관계수값이 어떻게 바뀌는지를 묻고있습니다

      2015.11.23 14:30 [ ADDR : EDIT/ DEL ]
    • 안 나왔어도 그만인, 변태 같은 문제네요.

      일단 ×-1을 하면, 상관계수의 값은 0.5가 됩니다.

      그리고 그래프의 기울기는, 오른쪽이 위로 올라갑니다.

      2015.11.23 14:53 신고 [ ADDR : EDIT/ DEL ]
  12. 산업공학도

    상관계수가 점들이 얼마나 모여있는지를 의미하며 결국 이는 밀도와 연관되어 있다고 하셨는데요. 상관계수값이 -1 또는 1일 때가 상관관계가 가장 극대화 된 경우라고 하셨는데, 이 때가 결국 직선형태이더라구요. 그럼 상관계수의 정의 자체가 단지 점들의 밀도와만 관계가 있는게 아니지 않나요? 극단적인 예로 곡선 형태로 상관도가 나타나도 밀도는 높으므로 이를 보고 상관 관계가높다고 할 수 있는 건가요?

    2018.08.23 16:55 [ ADDR : EDIT/ DEL : REPLY ]