통계2015.02.10 20:29

회귀식의 가설검정(분산분석) 개념정리를 해보자. 이전 글에서 오차의 크기에 따라 회귀식의 정확도가 달라진다고 했다. 그래서 회귀식이 상대적으로 정확하면 예측값의 결과를 믿을 수가 있고, 반대로 회귀식의 정확도가 떨어지면 예측값의 결과를 믿기 힘들다고 했다. 그런데 회귀식의 정확도가 애매할 경우, 예측값의 결과를 믿을 것인지 아니면 믿지 않을 것인지를 판단해야 하는데, 결정계수로는 이러한 의사결정을 못하기에 추가로 가설검정을 한다고 했다.

 

 

일단 회귀식은 모집단과 표본일 때에 따라, 표기하는 기호가 다르다. 사실 모회귀식은 계산할 때 직접적으로 사용을 안 하기에 활용도가 떨어지지만, 가설검정을 할 때는 알아야 한다. 왜냐하면 보통 모수를 가지고 귀무가설과 대립가설을 설정하기 때문이다. 그래서 회귀식의 가설검정에서는 모회귀식의 기울기 β1을 가지고 가설을 설정한다.(β베타라고 읽으면 된다)

 

 

그러면 가설 읽는 법을 알아보자. 일단 회귀식으로 무엇인가를 예측하기 위해서는, 기울기가 있어야 한다. 만약에 기울기가 없다면,(β1=0) 예측값은 항상 동일하게 나오기에 회귀식은 쓰임새가 없어진다. 그래서 기울기=0인 귀무가설은 회귀식이 유용하지 않다.로 해석하면 된다. 반면 대립가설의 기울기0이 아니라는 것은, 곧 기울기가 있다는 소리고, 그로 인해 회귀식은 쓰임새가 있다는 소리가 된다. 그래서 대립가설은 회귀식이 유용하다.로 해석하면 된다.

 

 

 

다음으로는 검정통계량을 구해야 하는데, 회귀분석은 보통 분산분석으로 검정통계량을 구한다. 분산분석은 말 그대로 분산을 활용한 분석인데, 여기에서 다루기에는 글이 너무 복잡해진다. 그래서 나중에 다루는 것이 좋을 것 같다. 하지만 한 가지만 먼저 다루자면, 분산분석을 하려면 제곱합을 알아야 한다.(“변동이라고도 하는데, 기호는 SS를 사용한다)

 

 

제곱합은 의외로 단순하다. 일단 분산은 편차 제곱의 평균인데,(참고) n이나 n-1로 나눠서 평균내기 이전을 보통 제곱합이라고 부른다. 그리고 분산분석은 이 제곱합 계산이 상당 부분을 차지하는데, 회귀분석에서는 회귀제곱합(SSR)오차제곱합(SSE)을 계산해야 한다.

 

 

일단 예측값과 평균의 차이를 제곱해서 합한 것이 회귀제곱합인데, SSR = (예측값-평균)2으로 구한다. 반면 관측값과 예측값의 차이를 제곱해서 합한 것이 오차제곱합인데, SSE = (관측값-예측값)2으로 구한다.

 

 

그래서 회귀제곱합과 오차제곱합을 구하면 검정통계량을 구할 수가 있는데, 최종적으로 (SSR/1)/(SSE/n-2)를 하면 검정통계량이 된다. 자세한 계산은 다음 글에서 문제를 풀어보면서 알아보자. 그런데 중요한 것은 오차제곱합이다. 왜냐하면 오차가 작을수록 회귀식의 정확도는 올라가고, 오차가 클수록 회귀식의 정확도는 떨어진다. 그래서 오차제곱합이 어떻게 나왔느냐에 따라, 회귀식의 대략적인 정확도를 알 수 있다.(오차제곱합이 작을수록 회귀제곱합은 커지고, 반대로 오차제곱합이 클수록 회귀제곱합은 작아진다)

 

 

먼저 분산분석은 F분포를 사용해서 기각역을 구하는데,(보통 우측검정만 한다) 분모가 작을수록 값이 커지기에, 검정통계량이 오른쪽에 위치한다. 반면 분모가 클수록 값이 작아지기에 검정통계량이 왼쪽에 위치한다. 그래서 분모에 들어가는 오차제곱합이 작을수록 검정통계량이 오른쪽에 위치하여, 최종적으로 회귀식이 유용하다는 것을 알 수 있다.(오차가 작기 때문에) 반면 분모에 들어가는 오차제곱합이 클수록 검정통계량이 왼쪽에 위치하여, 최종적으로 회귀식이 유용하지 않다는 것을 알 수 있다.(오차가 크기 때문에) 이렇게 당연하게도 오차의 크기에 따라 회귀식의 정확도가 결정된다. 그럼 다음 글에서는 문제풀이를 해보자.

 

저작자 표시 비영리 변경 금지
신고
Posted by 나부랭이

댓글을 달아 주세요

  1. 감사합니다

    혼자서 통계학을 이블로그보면서 기초를 공부하려는데 할수잇을까 모르겟네요 ㅠㅠ 글은 너무좋네요 감사합니다 할수잇겟죠!!?

    2015.03.04 00:10 신고 [ ADDR : EDIT/ DEL : REPLY ]
  2. 정말 설명 굿굿

    이해하기가 진짜 좋네요...당신의 지식과 설명력에 감탄합니당

    2015.04.05 22:53 신고 [ ADDR : EDIT/ DEL : REPLY ]
  3. 감사한 이

    학창 시절에 이 글을 봤으면 정말 도움이 되었겠습니다. 현업에서 필요한 시점에 이 글을 봐서 정말 도움이 되었습니다.
    훌륭한 설명에 감사합니다.

    2015.06.01 17:39 신고 [ ADDR : EDIT/ DEL : REPLY ]
  4. 혹시 오차제곱합과 회귀제곱합, 총제곱합의 의미를 가르쳐주실수있나요?

    2015.06.10 21:38 신고 [ ADDR : EDIT/ DEL : REPLY ]
    • 글쎄요..

      의미는 별로 깊게 생각해 본 적이 없어서,

      뭐라 설명할 게 없네요;;

      2015.06.11 12:57 신고 [ ADDR : EDIT/ DEL ]
  5. haninhwan

    좋은 설명감사합니다.
    궁금한게 있습니다.
    유의성을 판단할때 R^2보다는 통계적으로 분산분석이 수치화되있어서 , 의미있다고 해주셨는데...
    그러면 분산분석하고 , 기울기검정(정규분포검정)으로 회귀식이 의미있다고 판단할려고 하면 , 둘중에 어떤게 더 적합한지 알수있나요

    2015.06.12 16:35 신고 [ ADDR : EDIT/ DEL : REPLY ]
  6. 베리베리베리

    그럼 R^2로 판단하기 힘들때 위와같이 가설검정을 하는건가요? 아니면 둘을 동시에 보고 판단해야하는건가요..?

    2016.02.05 20:56 신고 [ ADDR : EDIT/ DEL : REPLY ]
    • 그건 판단하는 사람 마음입니다.

      뭐.. 둘을 동시에 보고 판단하는 것이 더 정확하기는 할 겁니다.

      2016.02.18 12:34 신고 [ ADDR : EDIT/ DEL ]
  7. 감사합니다ㅠㅠ

    다른 곳에서는 어려운 설명들만 나와 있었는데 이해하기 쉽게 설명해 주셔서 정말 감사합니다.!!
    그리고 혹시나 출처를 밝히고 쓰인 이미지들을 사용해도 될까요?

    2016.06.25 23:37 신고 [ ADDR : EDIT/ DEL : REPLY ]
  8. ㅇ큐

    표본회귀식에서 b1의 분산 어떻게 구하는지 자세하게 유도과정적어서 알려주실 수 있나요 ㅠㅠ?
    왜 시그마제곱/Sxx 이 나오는지 모르겠어요... 인터넥 싹다 뒤져도 안나오네요 후.......

    2016.10.08 19:30 신고 [ ADDR : EDIT/ DEL : REPLY ]
  9. 제곱합

    안녕하세요 통계관련 검색하다가 들르게되었네요. 국내 서적을 뒤져도 잘 안나오는것같아서 질문 드리게 되었어요.
    SST가 y와 표본평균y의 차이의 제곱합이잖아요.
    근데 원점을 지나는 회귀모형의 경우. 즉
    y=bx의 경우에는 SST가 y들의 제곱합으로 나타내더라구요... 외국서적에 restricted model이라고 표기하면서 귀무가설에서 베타가0이므로 그렇다는것처럼 쓰여있는데......
    질문은 왜 SST를 y의 제곱합으로 표기하는지 궁금합니다 ㅠㅜㅜㅠ 답변주신다면 감사하겠습니다

    2016.10.27 16:01 신고 [ ADDR : EDIT/ DEL : REPLY ]
    • 뭘 물어보시는 건지 모르겠네요~

      2016.11.28 15:18 신고 [ ADDR : EDIT/ DEL ]
    • 제곱합

      일반적인 선형모델은
      SST를 y와 y햇 차이의 제곱합으로 나타내는데
      왜 원점을 지나는모형에서는
      SST를 단순히 y의 제곱합으로 나타내는지가 궁금합니다. (원서에서는 restricted model이라고만 써놨네요)
      국내교과서에서는 설명이부족한것같아서 질문드렸습니다

      2016.11.28 16:36 신고 [ ADDR : EDIT/ DEL ]
    • 글쎄요.. 들여다본 적이 없어서 모르겠네요~

      2016.12.01 15:24 신고 [ ADDR : EDIT/ DEL ]
    • 제곱합

      어찌되었든 답변주셔서 감사합니다

      2016.12.01 16:28 신고 [ ADDR : EDIT/ DEL ]
    • 네.. 댓글 감사합니다~

      2016.12.06 18:41 신고 [ ADDR : EDIT/ DEL ]
  10. 통계

    블로그 정독하며 많이 도움받고 있습니다^^
    궁금한 점. 검정통계 F분포 그래프에서 가로축과 세로축은 각각 무엇인가요? 가로축은 신뢰도 세로축은 오차의 크기라 볼 수 있나요?

    2017.03.16 13:26 신고 [ ADDR : EDIT/ DEL : REPLY ]
  11. 기말 준비하는데 정말 큰 도움이 되었습니다!!!!!!

    감사합니다!!!!

    2017.06.16 22:28 신고 [ ADDR : EDIT/ DEL : REPLY ]
  12. ^^

    매번 자주 들어와서 보고있습니다. 책으로 출간을 한다고 해도, 사고싶네요.. 혹시 출간된 책이 있으면, 알려주세요.. 감사합니다.

    2017.07.07 17:17 신고 [ ADDR : EDIT/ DEL : REPLY ]