1. 들어가며
앞선 글에서 우리는 세 집단 이상을 비교할 때 ANOVA(분산분석) 를 사용하고,
그 결과 F값이 충분히 커서 p-value가 작다면, "세 집단 중 어디엔가 평균 차이가 있다"는 결론을 내렸다.
그런데 문제는 이거다:
“어느 집단끼리 차이가 있는 거지?”
ANOVA는 전체 평균 차이만 알려줄 뿐, 어떤 집단과 어떤 집단이 다르다는 정보는 주지 않는다. 이 궁금증을 해결하기 위해 사용하는 것이 바로 사후분석(Post-hoc test) 이다.
2. 사후분석이란?
사후분석은 말 그대로 ANOVA 이후(after the fact)에 구체적으로 어떤 집단들 사이에 차이가 있는지를 찾아내는 과정이다.
예를 들어, 세 집단 A, B, C가 있고 ANOVA에서 유의한 차이가 나타났다면:
- A와 B 사이?
- A와 C 사이?
- B와 C 사이?
이 각각을 비교해야 하는데, 단순히 t검정을 세 번 반복하면 다중 비교 문제 때문에 오류 가능성이 높아진다.
그래서 사후분석은 이런 오류를 보정(correction) 하면서 비교를 진행한다.
3. 대표적인 사후분석 방법 2가지
사후분석에는 여러 기법이 있지만, 실무나 학계에서 가장 많이 쓰이는 두 가지는 다음과 같다:
방법 | 특징 | 추천상황 |
Tukey의 HSD | 모든 집단 간 쌍 비교, 오류율 조절 | 집단 수가 많지 않을 때, 균형 잡힌 설계 |
Bonferroni | 매우 보수적, 각 비교에 유의수준 나눠 사용 | 비교 수가 적거나, 명확한 쌍이 정해져 있을 때 |
Tukey’s HSD (Honest Significant Difference)
- 각 집단 간 평균 차이를 모두 비교
- FWER(전체 오류율) 을 0.05로 유지하면서도 비교 가능
- 그룹 수가 균등하거나 표본 크기가 비슷할 때 적합
- 해석은 “어떤 쌍들이 유의하게 차이 나는가”에 초점
예시 해석:
- A vs B: 차이 없음
- A vs C: 유의한 차이 있음 → "C가 평균적으로 더 크다"
Bonferroni 보정
- 각 비교의 유의수준 α를 비교 수로 나눔
- 예: 3쌍 비교, α = 0.05 → 각 비교는 0.05 ÷ 3 = 0.0167 기준
- 굉장히 보수적 → 유의성이 잘 안 나올 수도 있음
- 하지만 거짓 양성(false positive) 을 확실히 줄여줌
예시 해석:
- A vs B, A vs C, B vs C 중 어떤 것도 보정된 기준(0.0167)을 넘지 못하면 “통계적으로 유의하지 않다”
4. 실전 예시로 정리하기
아래와 같이 세 그룹의 시험 평균 점수가 있다고 하자.
그룹 | 평균 |
A | 70점 |
B | 75점 |
C | 85점 |
ANOVA 결과: F = 5.6, p = 0.01 → 유의함 (세 그룹 중 어딘가 차이 있음)
이제 사후분석 실시:
- Tukey:
- A vs B → p = 0.20 (차이 없음)
- A vs C → p = 0.008 (차이 있음)
- B vs C → p = 0.05 (경계선)
- Bonferroni (기준: 0.05 ÷ 3 = 0.0167):
- A vs C만 통과
→ 두 방법 모두 A와 C 사이에만 명확한 차이가 있다고 판단
5. 사후분석 시 주의할 점
- 사후분석은 ANOVA가 유의할 때만 수행해야 한다
- 비교 쌍이 많아질수록 유의성 통과가 어려워진다 (보정이 엄격해지므로)
- Tukey는 일반적으로 가장 무난한 선택이지만, Bonferroni는 특정 쌍만 관심 있는 경우에 더 적합하다
6. 마치며
사후분석은 ANOVA 결과를 구체적으로 해석하기 위한 필수 단계다.
단순히 p < 0.05를 넘는지 아닌지를 보는 것이 아니라, 어떤 그룹 간에 차이가 발생했고, 그 차이가 우연이 아니라 통계적으로 유의한지를 보는 것이다. 앞으로 분산분석을 할 때는 꼭:
- ANOVA로 전체 차이 유무 확인
- 유의할 경우 사후분석으로 구체적 쌍 비교
- 어떤 방법을 쓰는지도 명확히 설명
이 흐름을 기억해두자.
'통계 이론' 카테고리의 다른 글
반복측정 ANOVA를 사용해야 할 때 (0) | 2025.03.22 |
---|---|
이원분산분석(Two-way ANOVA)을 사용해야 할 때 (0) | 2025.03.22 |
t검정과 ANOVA의 연결 (0) | 2025.03.22 |
p-value의 진짜 의미 (0) | 2025.03.22 |
표본 크기 결정법을 이해하는 가장 좋은 방법 (0) | 2025.03.22 |
신뢰구간을 이해하는 가장 좋은 방법 (1) | 2025.03.22 |
카이제곱 검정을 이해하는 가장 좋은 방법 (0) | 2025.03.22 |
댓글