통계2015.02.01 20:32

회귀분석의 예측구간 구하는 법을 알아보자. 이전 글에서 회귀식을 활용하면 무엇인가를 예측할 수 있게 된다고 했다. 하지만 회귀식으로 구한 예측값은 점추정치라서, 값을 신뢰하기에는 한계가 있다고도 했다. 그래서 구간으로 예측값을 설정하기도 하는데, 이렇게 하는 방법이 바로 신뢰구간을 구하는 것이다.

 

 

그런데 보통의 신뢰구간은 표본의 통계량을 가지고,모집단의 모수가 이럴 것이다라고 추리하는 것이다. 하지만 회귀분석은 모수를 추리하려는 특성이 조금 있기는 하지만, 이것보다는 무엇인가를 예측하려는 특성이 더 강하다. 그래서 신뢰구간보다는, 예측구간(예측신뢰구간)이라고 부르는 것이 더 좋아 보인다. 아무튼 예측구간은 예측값인 y0()을 구간으로 설정하는 것이다.

 

 

그런데 보다시피 공식이 굉장히 복잡하다. 그래서 계산하기도 복잡하기에, 보통 통계학 책에서는 잘 다루지 않는다. 하지만 잘 다루지 않을 뿐, 예측구간은 중요하다. 그래서 계산은 대충 훑고 넘어가도 되지만, 왜 사용하는지?”는 알아두는 것이 좋다. 그럼 공식에 대해서 알아보자. 일단 루트의 앞부분은 오차제곱합(SSE)인데, 나중에 분산분석에서도 사용된다. 그리고 계산하는 법은, 다음 글에서 문제를 풀어보면서 다루기로 하자.

 

 

그리고 공식을 보면 생소한 기호가 있다. 바로 y0()x0인데, 이 기호들은 바로 특정 사례에서 얻어낸 특정 값이다. 예측구간을 구할 때는 이렇게 특정 값이 들어가는데, 왜냐하면 특정 사례를 예측한 , 이 특정 값을 토대로 구간을 설정하기 때문이다. 예를 들어 이전 글의 1번 문제에서 아버지의 키가 165cm일 때, 아들의 키는 179.15cm 정도일 것이다.라고 예측했다. 여기서 165cmx0이고, 179.15cmy0()이다.

 

 

그리고 예측구간을 구할 때는 기본적으로 t분포를 사용하는데, 한 가지 주의할 것은 자유도가 n-2이다. 왜냐하면 회귀분석은 변수가 x y 이렇게 2개이기에, 각각의 변수에서 1을 하는 것이고, 그래서 최종적으로 2가 된 것이다.

 

 

추가로 표본의 수가 n30일 때는 정규분포를 사용할 수가 있다. 하지만 표본의 수가 30개 이상이면 손으로 계산하기가 힘들어서, 실질적으로 정규분포를 사용할 일은 없다.(단 통계프로그램에서는 가능하다.) 그럼 다음 글에서는 직접 예측구간을 구해보자.

저작자 표시 비영리 변경 금지
신고

'통계' 카테고리의 다른 글

결정계수란?  (11) 2015.02.05
회귀분석의 예측구간 문제풀이  (13) 2015.02.02
회귀분석의 예측구간 구하는 법  (0) 2015.02.01
회귀분석 문제풀이  (28) 2015.01.30
회귀식 구하는 법  (27) 2015.01.27
회귀분석이란?  (5) 2015.01.26
Posted by 나부랭이

댓글을 달아 주세요