# naver search confirm # markdown number and equation 분산분석(ANOVA) 이해하는 가장 좋은 방법(3) //google adsense
본문 바로가기
통계 이론

분산분석(ANOVA) 이해하는 가장 좋은 방법(3)

by 노마드분석가 2022. 4. 25.

1. 들어가며

이전글(아래 참고)은 세 집단의 차이를 비교하는 일원분산분석(one way anova)을 설명했다. 

 

분산분석(ANOVA) 이해하는 가장 좋은 방법(2)

※ 이전글 분산분석(ANOVA) 이해하는 가장 좋은 방법(1) 1. 들어가며 세 집단 이상의 비교에는 아노바(ANOVA)를 이용하는데 ANOVA는 Analysis of Variance의 줄임말이며 우리말로는 분산분석이다. 두 집단이

diseny.tistory.com

이번에는 세 집단마다 하위 범주가 있는 경우를 생각해 보자. 통계학 용어로 하자면 독립변수가 2개 존재하는 이원분산분석(two way nova)을 의미한다. 아래 표를 보면 A, B, C 세 집단에 하위 범주인 성별(, )이 구분되어 있다. A, B, C를 편의상 혈액형이라고 하자.

 

No A B C
구분
1 1 2 3 2 3 6
2 2 3 2 3 4 7
3 4 4 2 3 3 8

 

2. 이원분산분석과 상호작용

이런 형태의 데이터에서 발견할 수 있는 인사이트는 3가지이다. 

 

혈액형에 따라 평균 차이가 있는가? 있다면 통계적으로 유의한가?

성별에 따라 평균 차이가 있는가? 있다면 통계적으로 유의한가?

혈액형과 성별이 서로 상호작용하여 집단, 성별과는 또 다른 차이를 발생시키는가? 있다면 통계적으로 유의한가?

 

은 앞에서 이전 글에서 살펴본 세 집단의 집단 차이 분석(one way anova)과 동일하며 는 성별을 기준으로 과 동일한 방식으로 분석하면 된다. 성별은 범주가 2개라서 두 집단의 차이 비교이지만 분산 분석은 두 집단의 차이 비교에도 적용할 수 있다.  

 

이제 ③에 대해 더 자세하게 알아 보자. 설명을 위해 위의 표를 아래와 같이 변형했다. 성별 데이터의 행과 열을 바꾸고, 성별 평균, 혈액형별 평균, 각 행의 평균을 빨간색으로 표시했다. 

 

  A B C 성별
평균
1 2 4 2.3 3 2 2 2.3 3 4 3 3.3 2.7
2 3 4 3 2 3 3 2.7 6 7 8 7 4.2
혈액형평균 2.7 2.5 5.2  
전체평균 3.4

 

통계적 유의성을 생각하지 않고 주어진 데이터만으로 분석하면 남성(M=2.7) 보다 여성(M=4.2)의 평균이 더 높고 A(M=2.7), B(M=2.5) 집단에 비해 C(M=5.2)형의 평균이 더 높다. 따라서 성별의 다름에 따른 차이, 혈액형의 다름에 따른 차이가 분명하게 존재한다. 

 

이제 데이터에서 어떤 상호작용이 있는지 살펴보자. 성별에 따라 평균 1.5의 차이(4.2 – 2.7)가 있다. 그런데 C형의 경우 성별에 따라 3.7의 차이(7 - 3.3)가 있는 반면 B형은 성별에 따라 0.4의 차이(2.7 – 2.3)가 발생한다.

 

성별에 따른 평균적인 차이는 1.5인데 C형과 B형은 성별과 혈액형이 상호작용하면서 평균적인 성별 차이와는 다른 차이 양상을 보인다. 이것이 상호작용 효과이다. <그림 1>은 상호작용을 나타내는 전형적인 그래프다.

 

[그림 1] 이원분산분석에서 상호작용 효과

 

<그림 1>에서 왼쪽은 위의 표를 그린 그래프다. 성별과 혈액형의 상호작용이 분명하게 드러난다. 만약 성별과 혈액형의 상호작용이 없었다면 오른쪽 그래프와 같이 혈액형에 따른 차이 패턴이 성별에 따라 평행하게 나타나야 한다.

 

3. 통계적 유의성

표본 데이터만을 따진다면 <그림 1>의 왼쪽 그래프 자체만으로 훌륭하다. 그래프는 혈액형과 성별에 따라 평균이 어떻게 차이가 발생하는지 잘 보여준다. 이제 이 차이가 통계적으로 유의한지 확인하면 된다. 

 

데이터에는 3종류의 평균 차이가 있다

  • 성별에 의한 차이,
  • 혈액형에 의한 차이,
  • 성별과 혈액형의 상호작용에 의한 차이.

 

혈액형과 성별에 의한 차이 검증은 앞에서 살펴본 세 집단 차이의 검증 방식과 동일하다. 이전 글에서 살펴본 변동성 공식을 다시 한번 상기해보자.

 

총 변동성 = 집단내 변동성 + 집단간 변동성

 

이때 집단간 변동성은 아래와 같이 다시 구분할 수 있다.

 

집단간 변동성 = 성별에 따른 변동성 + 혈액형에 따른 변동성 + 상호작용 변동성

 

위의 표에서 데이터의 총 변동성은 58.5이다. 단순한 사칙 연산의 반복이라 구체적인 계산 과정은 생략한다. 

집단내 변동성과 집단간 변동성을 계산할 때 일원분산분석에서는 세 개의 집단(A, B, C)만 생각했지만 이번 경우에는 성별로 한번 더 세분화한 6개의 집단(A-, A-, B-, B-, C-, C-)을 생각하고 계산해야 한다. 따라서 집단내 변동성은 아래와 같이 계산한다. 

 

집단내 변동성 = A_남집단내 변동성 + A_여집단내 변동성 +
               B_남집단내 변동성 + B_여집단내 변동성 +
               C_남집단내 변동성 + C_여집단내 변동성 = 10.7

집단간 변동성도 마찬가지로 6개의 집단을 생각하고 계산한다. 

집단간 변동성 = A_남집단 변동성 + A_여집단 변동성 +
               B_남집단 변동성 + B_여집단 변동성 +
               C_남집단 변동성 + C_여집단 변동성 = 48.1

 

소수점 반올림 때문에 약간의 오차는 있지만 아래 식이 성립한다. 

 

총 변동성(58.5) = 집단내 변동성(10.7) + 집단간 변동성(48.1)

 

이제 집단간 변동성을 세부적으로 살펴 보아야 한다.

집단간 변동성은 성별 요인에 따른 변동성, 혈액형 요인에 따른 변동성과 상호작용 변동성으로 구분된다고 했으므로 개별 변동성을 구해야 한다. 집단 요인에 따른 변동성은 일원분산분석에서 구한 집단간 변동성과 동일한 방식으로 구한다. 성별 요인에 따른 집단간 변동성은 혈액형을 무시하고 성별로만 구분해서 마찬가지로 일원분산분석과 동일한 방식으로 구하면 된다. 그러면 지금까지 구한 변동성으로 다음 식에 대입할 수 있다.

 

집단간 변동성(48.1) = 성별에 따른 변동성(10.2) + 혈액형에 따른 변동성(27.2) + 상호작용 변동성(?)

 

위 방정식을 풀면 상호작용 변동성(10.2)까지 구할 수 있다

 

자유도도 변동성을 구할 때와 동일한 논리가 적용된다. 

 

총 자유도(18-1) = 집단내 분산 자유도(18-6) + 집단간 분산 자유도(6-1)

 

집단간 분산 자유도(6-1) = 성별 자유도(2-1) + 집단 자유도(3-1) + 상호작용 자유도

 

위 방정식을 풀어 상호작용 자유도(2)까지 구했다. 이제 3개의 F값을 구할 수 있다.

 

F = 성별 집단간 분산/집단내 분산  = 10.2/10.7  = 0.95
F = 혈액형 집단간 분산/집단내 분산  = 27.2/10.7  = 2.54
F = 상호작용 분산/집단내 분산  = 10.7/10.7  = 1

이렇게 계산에서 구한 F값의 유의확률로 통계적 유의성을 확인하면 된다. 

 

Reference
1. Statistics for the Behavioral Sciences, Frederick J Graveltter, Larry B. Wallnau
2. Collaborative Statistics, Barbara Illowsky, Susan Dean.

 

관련글

 

로지스틱회귀와 친구되기(1)

관련글 선형회귀분석 밑바닥부터 이해하기 관련글 상관관계와 상관계수 1. 들어가며 연속형 변수 x, y의 관계는 상관관계(correlation) 분석을 통해 2가지 사실을 알 수 있다. 관계의 방향 관계의 강

diseny.tistory.com

 

반응형

댓글