통계2019.03.04 18:50

분산분석에서 분산 구하는 공식에 대해서 알아보자. 먼저 이전 글에서 분산분석이란, “3개 이상의 모집단 평균이 서로 같은지를 비교하는 분석이라고 했었는데, 분산을 활용해서 평균을 비교한다고 했었다. 그래서 분산분석을 할 때는 당연하게도 분산을 계산하는데, 분산 구하는 공식은 크게 2가지가 있다.(공식2는 공식1을 변형해서 만든 공식이다)

 


그리고 굳이 두 공식의 차이점을 설명하자면, 먼저 공식1은 표본이 적을 때 사용하면 편하고, 공식2는 표본이 많을 때 사용하면 편하다.(공식2가 생긴 것은 복잡해 보이지만, 계산하는 방식은 오히려 편하다) 어쨌든 두 공식 중 하나를 선택해서 분산을 계산하면 되는데, 분산분석을 하다 보면 표본이 많은 경우가 대부분이기에, 공식2를 사용하는 것이 더 편하다. 물론 어느 공식을 사용할지는 자신의 마음이므로, 공식1을 사용해도 된다. 하지만 표본이 많으면 공식1로 계산하기가 불편하다.(표본이 많으면 공식1로 계산하기가 불편해서, 추가로 공식1을 변형해서 공식2를 만든 것이다) 그래서 분산분석을 할 때는 애초에 공식2로 계산하는 습관을 들이는 것이 더 좋다.

 


또 분산분석을 하려면 제곱합을 알아야 하는데,(“변동이라고도 하는데, 기호는 SS를 사용한다) 분산을 n 또는 n1로 나누기 이전을 편차 제곱합이라고 부르고,(참고) 줄여서 간단하게 제곱합이라고 부른다. 그런데 분산분석은 사실 분산보다는 이 제곱합을 계산하는 것이다. 그래서 계산할 때, 공식의 아랫부분은 필요가 없으므로 윗부분만 계산하면 된다.

 


그리고 공식의 오른쪽에 있는 항을 수정항이라고 부르는데, 기호는 CT라고 표기한다.(공식2가 공식1을 변형해서 만든 공식인데, “수정해서 새롭게 만든 덩어리라는 뜻으로 수정항이라고 부른다) 그런데 이 수정항덕분에 공식2로 계산하는 것이 편해진다. 그래서 제곱합을 계산할 때 가장 먼저 이 수정항을 구한다.



Posted by 나부랭이

댓글을 달아 주세요