통계2015.02.05 16:59

결정계수란 무엇일까? 결정계수는 상관분석의 상관계수와 비스무리한데, 그럼 결정계수에 대해 알아보자. 일단 회귀분석은 회귀식을 활용해서 무엇인가를 예측하는 분석이다. 그래서 무엇인가를 예측할 때, 회귀분석을 사용하면 눈대중으로 막 잡은 수치보다는 훨씬 신뢰할 수가 있다. 하지만 회귀분석으로 예측을 해도, 정답인 실제값은 안 나온다. 다만 틀릴 확률이 존재하는 예측값이 나오면서, 항상 오차가 발생한다.

 

 

그런데 점들이 모여 있는 밀도에 따라서, 오차의 크기가 다르다. 예를 들어 점들이 모여 있는 밀도가 촘촘할 경우에는, 예측값과 실제값이 얼마 차이 나지 않는다.(오차가 작다) 하지만 점들이 모여 있는 밀도가 느슨할 경우에는, 예측값과 실제값이 많이 차이 난다.(오차가 크다) 그래서 똑같은 회귀분석이라도, 점들이 모여 있는 밀도에 따라 오차의 크기가 다르고, 그로 인해 회귀식의 정확도가 달라진다.

 

 

이렇게 점들이 모여 있는 밀도에 따라 회귀식의 정확도가 결정되는데, 문제는 정확도가 구체적으로 어느 정도인지, 얼마나?” 정확한지를 판단할 수 있어야 한다. 그런데 얼마나 정확한지는, 그림으로 파악할 수가 없다. 그래서 통계에서는 숫자를 활용하는데, 회귀식이 얼마나 정확한지를 나타내는 숫자가 결정계수다.(기호는 R2을 사용한다.)

 

 

그래서 결정계수(R2)를 사용하면 회귀식이 얼마나 정확한지를 나타낼 수 있는데, 보통 숫자 0부터 1까지만(0R21) 사용한다. 그래서 결정계수가 0에 가까울수록 회귀식의 정확도는 매우 낮다고 할 수 있고, 결정계수가 1에 가까울수록 회귀식의 정확도는 매우 높다고 할 수 있다. 그래서 결정계수가 낮을수록 예측값은 믿을 게 못되고, 반대로 결정계수가 높을수록 예측값은 믿을 만하다.

 

 

그리고 결정계수를 구하는 방법은 크게 2가지가 있는데, 하나는 상관계수를 제곱해서 구하는 방법이고, 나머지 하나는 분산분석의 데이터를 가지고 구하는 방법이다.(회귀변동/총변동으로 구한다) 그런데 보통 두 번째 방법을 많이 사용한다. 구하는 방법은 다음 글에서 다루기로 하자.

 

 

그런데 결정계수에도 한계가 있다. 바로 수치가 어중간할 경우에는 판단하기가 애매해진다. 예를 들어 결정계수가 극단적으로 0이 나온다면, 이 회귀식은 정확도가 매우 떨어지기에, 예측값을 안 믿으면 그뿐이다. 하지만 결정계수가 어중간하게 0.4가 나올 경우에는 판단 자체가 애매해진다.

 

 

그래서 회귀식의 정확도가 애매할 경우, 이 회귀식의 결과를 믿을 것인지, 아니면 믿지 않을 것인지를 판단해야 하는데, 결정계수로는 이러한 의사결정을 못한다. 그래서 추가로 가설검정을 통해 이러한 의사결정을 한다.(가설검정이 양자택일이므로, 이러한 의사결정에 적합하다) 그럼 다음 글에서는 회귀식의 가설검정(분산분석)에 대해 알아보자.

저작자 표시 비영리 변경 금지
신고
Posted by 나부랭이

댓글을 달아 주세요

  1. 예전에 어떤 분이, "왜 결정계수는 제곱하느냐"고 물어보셨는데,

    그 내용을 글에다 쓰려다, 내용이 너무 길어질 것 같아서 뺐습니다.

    대신 예전에 물어보셨던, 그 댓글에다 답글을 달았습니다 ~_~

    http://math7.tistory.com/112

    2015.02.05 17:09 신고 [ ADDR : EDIT/ DEL : REPLY ]
  2. oosiht

    문제 질문드립니다.

    2)번 문제의 분산분석표를 이용하여 상관계수를 구하라고 하는데
    결정계수를 구하라고 하는 것이 맞는 것 아닌가 생각이 드는데
    문제대로 분산분석표를 이용해 상관계수를 구하려면 결정계수에 루트를 해서 구하는 것이 맞는지요?

    1)번 문제 분산분석표에 F0는 F값일테고 F0.95에는 어떻게 채워넣어야 하는지 좀 알려주시면 정말 감사드립니다.

    또 질문 추가로 하나 더 드립니다.

    문제들에 따라

    '회귀에 의하여 설명되는 변동 Sr을 구하시오.'
    '회귀에 의하여 설명되지 않는 변동 Sy/x를 구하시오.'

    라는 문제가 있는데

    "회귀에 의하여 설명되는 변동 Sr = SSR(회귀제곱합)"
    "회귀에 의하여 설명되지 않는 변동 Sy/x = SSE(오차제곱합)"
    으로 생각해도 되는지 질문드립니다.

    항상 감사드립니다.

    -----------------------------------------------------------------------------------
    어떤 화학물의 전기분해 작업을 할 때 사용되는 첨가물의 양(x)과 수율(y)과의 관계
    데이터는 다음과 같다. (단위 : 첨가물 g, 수율 %)

    x(g)....2.......3......4......4......3......5......7......9
    y(%)..48......55....70.....65....60.....80.....84....90

    1)분산분석표를 작성하고 회귀관계를 검정하시오.
    요인.....SS......df......MS....F0.....F0.95
    회귀
    잔차
    합계
    (단, F0.95(1,6) = 5.99, F0.95(1,7) = 5.59

    2)분산분석표의 결과를 이용하여 상관계수를 구하시오.
    3)첨가물의 양(x)에 대한 수율(y)의 직선회귀식을 구하시오.
    ---------------------------------------------------------------------------------


    2015.02.26 22:03 신고 [ ADDR : EDIT/ DEL : REPLY ]
    • 2) 네 루트 씌우면 됩니다.

      그런데 한 가지 조심할 것은, -값이 나올 가능성도 있습니다.

      왜냐하면 루트는 제곱의 반대과정이기 때문입니다.

      예를 들어, 2의 제곱은 4이지만, -2의 제곱 역시 4입니다.

      4 = 2×2

      4 = -2×-2

      그래서 데이터들이 퍼져있는 모습을 그림으로 그려서,

      양의 상관관계인지 아니면 음의 상관관계인지를 파악해야 합니다.

      상관계수는 결정계수와는 달리 "방향"도 중요합니다.

      뭐.. 이 문제는 양의상관관계이므로, 상관계수를 +값으로 나타내면 됩니다.

      (회귀분석은 대부분 양의상관관계만 다룹니다)



      1) F0.95는 "기각역" 입니다. 그런데 "1-α"로 나타낸 겁니다.

      α=0.05

      1-α=0.95

      보통 기각역은 F0.05를 사용하지만,

      아마도 헷갈리라고 F0.95로 쓴 걸 겁니다.

      그리고 회귀분석은 오차자유도가 n-2이므로,

      =자유도는 (1, 8-2)

      =자유도는 (1, 6)이고

      그래서 F0.95(1,6) = 5.99가 맞습니다.

      그래서 (회귀, F0.95) 칸에다가, 5.99를 넣으면 됩니다.



      그리고 회귀제곱합과 오차제곱합이 맞습니다.

      제곱합은 SS 말고도, 위처럼 기호가 여러 가지가 있습니다.

      2015.03.08 15:37 신고 [ ADDR : EDIT/ DEL ]
  3. 감사합니다

    대단하십니다 늘 글잘읽고갑니다!!!!

    2015.03.04 00:09 신고 [ ADDR : EDIT/ DEL : REPLY ]
  4. kjh

    정말 깔끔하게 설명 잘하십니다
    잘 읽고 있습니다.

    2016.06.24 16:27 신고 [ ADDR : EDIT/ DEL : REPLY ]
  5. 급해요 7일 오전 11시에 시험이에요ㅠㅠㅠ

    지나가다가 들럿는데요.. 통계학을 하다가 pseudo R square 가 나왓는데 이게 무슨뜻인가요?

    2016.07.07 01:49 신고 [ ADDR : EDIT/ DEL : REPLY ]
  6. susu

    r스퀘어값은 0.9 이사이 나오는데 rmse가 10만단위로 크게 나오는건 어떤 경우인가요..?

    2016.08.30 10:09 신고 [ ADDR : EDIT/ DEL : REPLY ]