1. 기본개념
X = { x1 , x2 , ………, xn } 일 때 , 데이터 X의 분산을 구하는 공식은 다음과 같다. 중학교(고등학교?)에서 배우는 식이다.
위의 식에서 분자 부분을 제곱합(Sum of Squares : SS)이라고 부르는데 통계학에서 배우는 공식이나 증명에 이 제곱합이 제법 많이 등장한다. 통계학은 데이터의 차이에서 인사이트를 도출하는 학문이므로 제곱합이 많이 사용되는 것은 당연하다.
그런데 위의 식에서는 제곱합 계산에 평균(μ)이 들어가 있다. 컴퓨터로 분산을 구할 것이므로 상관은 없지만, 평균이 정수가 아니면 소수점 이하 자리 때문에 계산이 복잡해진다. 또한 통계학의 많은 공식에서 제곱합을 다룰 때 다른 식을 이용한다. 갑자기 다른 식이 등장해 학생들이 당황할 때가 많다.
2. 제곱합(Sum of Squares)
제곱합을 구할 때 아래와 같이 간편하게 계산할 수 있다.
위의 식을 말로 풀어서 설명하면
제곱합(SS) = 모든 데이터를 제곱한 값의 합 - (모든 데이터를 합한 값의 제곱)/데이터의 개수 이다.
이 식에서는 평균이 어디론가 사라졌다.
3. 제곱합 공식 유도하기
예시를 위해 3개의 데이터가 있는 경우를 생각해보자.
위의 SS 식에서 첫번째 항은 아래와 같이 풀어 쓴다(중학교에서 배운 식)
같은 논리로 각 항을 모두 풀어 쓰면 아래와 같다.
위의 식 가장 아래 부분에서 (x1+x2+x3) = 3μ 이다.
모든 개별 값을 합한 값이나 평균을 데이터 수만큼 곱한 값은 같다. 위의 식에서 (x1+x2+x3)을 3μ로 바꾸면 아래와 같다.
위의 식에서 다음이 성립한다.
왼쪽 식의 μ를 그냥 풀어 쓴 것이다. 그럼 최종적으로 아래와 같이 정리된다.
데이터가 3개 였을 때의 식을 n개일 때의 식으로 일반화했다. 통계학을 많이 공부하다보면 위의 식을 어딘가에서 만날 것인데, 공식이 만들어지는 과정을 알면 학습에 도움이 될 것이다. 참고로 자유도 증명에 제곱합 공식이 사용된다. 아래 관련글 자유도 증명을 참고하기 바란다.
'통계 이론' 카테고리의 다른 글
다중공선성(Multicollinearity)의 의미와 판별법 (0) | 2022.02.16 |
---|---|
효과 크기(Effect Size)의 의미와 필요성 (2) | 2022.02.14 |
자유도(Degree of Freedom)에서 자유로워 지기 (6) | 2022.02.06 |
다중회귀 분석에서 상호작용의 의미 (5) | 2022.01.31 |
QQ Plot 직관적으로 이해하기 (3) | 2022.01.30 |
도구의 신뢰도 측정(크론바흐 알파) (1) | 2022.01.26 |
탐색적 요인분석(EFA : Exploratory Factor Analysis) (0) | 2022.01.22 |
댓글