1. 들어가며
두 표본의 평균 차이를 검증하는 T분석 방법을 배운 뒤, 세 집단(표본) 이상을 분석하려면 분산분석(ANOVA)을 해야 한다고 배운다. 왜 평균의 차이를 분산으로 분석하는거지? 라는 의문이 들고, 또한 분산분석은 적어도 하나의 집단 평균이 다른 집단과 다르다는 것을 검증할 뿐이라는 설명도 아리송하다. 이와 같은 의문을 수식을 사용하지 않고 직관적으로 이해해 보자.
2. 총분산의 분해
분산분석을 이해하는 첫 번째 단계는 총분산의 분해다. 총분산이란 집단을 구분하지 않고 모든 표본 데이터에서 구한 분산이다. 총분산은 다음과 같이 분해된다.
총분산 = 집단내 분산 + 집단간 분산
표본 데이터를 집단별로 나누었을 때, 총분산은 집단내에서의 분산과 집단끼리의 분산으로 분리될 수 있다. 결론적으로 방정식에서 집단간 분산 값이 크면 집단 간 평균에 차이가 있을 가능성이 커지게 된다.
3. 집단내 분산 VS 집단간 분산
집단내 분산과 집단간 분산을 그림으로 이해해 보자. <그림 1>은 빨간 색 집단과 파란색 집단의 표본 분포이다. 두 집단의 평균은 확연히 다르다는 것을 알 수 있다. 만약 집단을 구분하지 않는다면 전체 데이터의 평균은 검은색 세로선 쯤 될 것이다. 이 전체 평균과 집단을 구분했을 때 각 집단의 평균 차이로 집단간 분산을 계산한다. 검은색 화살표는 집단간 분산의 크기를 만드는 값이다. 아래 녹색 화살표는 집단내 분산의 크기를 만드는 값이다. 검은색 화살표를 더한 값이 녹색 화살표를 더한 값보다 더 크다. 즉 집단간 분산이 더 크다.
이제 각 집단의 개별 분산이 커지고 두 집단이 조금 겹치는 <그림 2>를 생각해보자. 상대적으로 집단내 분산의 크기가 더 커지고 집단간 분산은 작아졌다.
마지막으로 두 집단이 많이 겹치는 <그림 3>을 보자. 집단간 분산이 훨씬 많이 줄었고, 집단내 분산이 더 커졌다. <그림 3>과 같이 집단내 분산이 많이 커졌을 때는 두 표본의 평균이 모집단에서도 차이가 날지, 아니면 표본에서만 나는 것인지 점점 확신할 수 없게 된다. 따라서 두 집단 평균은 같다는 분산분석의 귀무가설을 기각하기 힘들어진다.
4. 세 집단에서의 분산분석
<그림 4>는 세 집단에서 하나의 집단(보라색) 평균이 나머지와 다른 경우이다. 분산분석의 원리가 집단간 분산과 집단내 분산의 크기를 비교하는 것이므로 집단간 분산이 많이 크기 때문에 하나 이상의 집단이 다른 집단과 많이 떨어져 있다는 것은 알 수 있어도 구체적으로 어떤 집단이 어떻게 다른지는 분산분석 값 자체로는 모르는 것이다.
관련글
'통계 이론' 카테고리의 다른 글
ROC 곡선 아주 쉽게 이해하기 (2) | 2022.03.21 |
---|---|
결정계수(R^2)의 이해 (0) | 2022.03.08 |
가설검증과 2종오류 (0) | 2022.03.06 |
가설검증과 1종 오류 (0) | 2022.02.24 |
다중공선성(Multicollinearity)의 의미와 판별법 (0) | 2022.02.16 |
효과 크기(Effect Size)의 의미와 필요성 (2) | 2022.02.14 |
자유도(Degree of Freedom)에서 자유로워 지기 (6) | 2022.02.06 |
댓글