# naver search confirm # markdown number and equation 분산으로 평균차이 검증하기(분산분석) //google adsense
본문 바로가기
통계 이론

분산으로 평균차이 검증하기(분산분석)

by 노마드분석가 2022. 3. 2.

1. 들어가며

두 표본의 평균 차이를 검증하는 T분석 방법을 배운 뒤, 세 집단(표본) 이상을 분석하려면 분산분석(ANOVA)을 해야 한다고 배운다. 왜 평균의 차이를 분산으로 분석하는거지? 라는 의문이 들고, 또한 분산분석은 적어도 하나의 집단 평균이 다른 집단과 다르다는 것을 검증할 뿐이라는 설명도 아리송하다. 이와 같은 의문을 수식을 사용하지 않고 직관적으로 이해해 보자. 

 

2. 총분산의 분해

분산분석을 이해하는 첫 번째 단계는 총분산의 분해다. 총분산이란 집단을 구분하지 않고 모든 표본 데이터에서 구한 분산이다. 총분산은 다음과 같이 분해된다.

 

총분산 = 집단내 분산 + 집단간 분산

 

표본 데이터를 집단별로 나누었을 때, 총분산은 집단내에서의 분산과 집단끼리의 분산으로 분리될 수 있다. 결론적으로 방정식에서 집단간 분산 값이 크면 집단 간 평균에 차이가 있을 가능성이 커지게 된다.  

 

3. 집단내 분산 VS 집단간 분산

집단내 분산과 집단간 분산을 그림으로 이해해 보자. <그림 1>은 빨간 색 집단과 파란색 집단의 표본 분포이다. 두 집단의 평균은 확연히 다르다는 것을 알 수 있다. 만약 집단을 구분하지 않는다면 전체 데이터의 평균은 검은색 세로선 쯤 될 것이다. 이 전체 평균과 집단을 구분했을 때 각 집단의 평균 차이로 집단간 분산을 계산한다. 검은색 화살표는 집단간 분산의 크기를 만드는 값이다. 아래 녹색 화살표는 집단내 분산의 크기를 만드는 값이다. 검은색 화살표를 더한 값이 녹색 화살표를 더한 값보다 더 크다. 즉 집단간 분산이 더 크다. 

 

[그림 1] 집단간 분산과 집단내 분산

이제 각 집단의 개별 분산이 커지고 두 집단이 조금 겹치는 <그림 2>를 생각해보자. 상대적으로 집단내 분산의 크기가 더 커지고 집단간 분산은 작아졌다. 

  

[그림 2] 분포가 약간 겹치는 경우

 

마지막으로 두 집단이 많이 겹치는 <그림 3>을 보자. 집단간 분산이 훨씬 많이 줄었고, 집단내 분산이 더 커졌다. <그림 3>과 같이 집단내 분산이 많이 커졌을 때는 두 표본의 평균이 모집단에서도 차이가 날지, 아니면 표본에서만 나는 것인지 점점 확신할 수 없게 된다. 따라서 두 집단 평균은 같다는 분산분석의 귀무가설을 기각하기 힘들어진다.   

 

 

[그림 3] 분포가 많이 겹치는 경우

4. 세 집단에서의 분산분석

 

<그림 4>는 세 집단에서 하나의 집단(보라색) 평균이 나머지와 다른 경우이다. 분산분석의 원리가 집단간 분산과 집단내 분산의 크기를 비교하는 것이므로 집단간 분산이 많이 크기 때문에 하나 이상의 집단이 다른 집단과 많이 떨어져 있다는 것은 알 수 있어도 구체적으로 어떤 집단이 어떻게 다른지는 분산분석 값 자체로는 모르는 것이다. 

 

[그림 4] 세 집단의 표본 분포

 

관련글

 

제곱합(Sum of Squares : SS) 공식

1. 기본개념 X = { x1 , x2 , ………, xn  } 일 때 , 데이터 X의 분산을 구하는 공식은 다음과 같다. 중학교(고등학교?)에서 배우는 식이다. 위의 식에서 분자 부분을 제곱합(Sum of Squares : SS)이라고 부

diseny.tistory.com

 

 

분산분석(ANOVA) 이해하는 가장 좋은 방법(1)

1. 들어가며 세 집단 이상의 비교에는 아노바(ANOVA)를 이용하는데 ANOVA는 Analysis of Variance의 줄임말이며 우리말로는 분산분석이다. 두 집단이든 세 집단이든 각 집단의 평균을 비교해 어디가 제일

diseny.tistory.com

 

반응형

댓글