1. 들어가며
두 집단의 평균 차이를 비교할 때는 t검정(t-test) 을, 세 집단 이상의 평균을 비교할 때는 분산분석(ANOVA) 을 쓴다고 배운다.
그럼 이런 의문이 생긴다:
“두 집단일 때 ANOVA 써도 되지 않나요?”
“t검정과 ANOVA는 완전히 다른 건가요, 아니면 연결돼 있는 건가요?”
정답은: t검정과 ANOVA는 수학적으로 같은 방법에서 출발한다. 즉, 두 집단 비교에서는 t검정이나 ANOVA를 해도 같은 결론이 나온다.
이번 글에서는 이 둘이 어떻게 연결되어 있는지를 쉽고 정확하게 풀어보자.
2. 핵심 요약:
구분 | t검정 | ANOVA |
집단 수 | 2개 | 2개 이상 (3개 이상이 일반적) |
비교 기준 | 평균의 차이 | 평균 간 분산의 차이 |
출력 | t값, p값 | F값, p값 |
연결성 | F = t² (두 집단일 때) | t² = F (두 집단일 때) |
3. 같은 데이터, 다른 이름
예를 들어 다음과 같은 두 집단이 있다고 하자:
- A집단 평균: 50, 표준편차: 5
- B집단 평균: 55, 표준편차: 5
- 표본 수: 각 10명
이때 독립표본 t검정을 하면 t값이 나오고, p값을 통해 유의한 차이 여부를 확인한다. 그런데 같은 데이터를 가지고 ANOVA를 하면 F값이 나오는데, 놀랍게도
$$ F= t^2 $$
즉, 두 집단 비교에서는 t검정과 ANOVA가 본질적으로 같은 테스트다. 단지 계산 방식과 출력값이 다를 뿐, 결론은 같다.
4. 수학적으로 이해하기
독립표본 t검정의 식:
$$ t= \frac{\bar{X}_1 - \bar{X}_2}{\sqrt{S_p^2 \left( \frac{1}{n_1} + \frac{1}{n_2} \right)}} $$
여기서 Sp2S_p^2는 두 집단의 공통 분산(풀드 분산)
분산분석(ANOVA)의 F통계량:
$$F= \frac{\text{집단간 분산 (MSB)}}{\text{집단내 분산 (MSW)}}$$
두 집단일 때는 집단간 분산과 평균 차이가 연결되고,
수식을 정리하면 결국:
$$F= t^2$$
5. 언제 어떤 걸 써야 할까?
상황 | 추천방법 | 이유 |
정확히 2집단 | t검정 | 계산 간단, 직관적 해석 |
3집단 이상 | ANOVA | 다중 비교 시 오류 증가 방지 |
2집단이지만 다른 방법과 비교하려는 경우 | ANOVA도 가능 | 모델 비교, 분산 설명 등 가능 |
즉, 두 집단이면 t검정이 간편하고, 세 집단 이상이면 무조건 ANOVA가 더 적합하다.
6. 왜 t검정을 여러 번 하면 안 되는가?
세 집단(A, B, C)이 있을 때:
- A vs B
- A vs C
- B vs C
이렇게 3번 t검정을 하면 될 것 같지만, 문제는 오류 누적이다. 각 t검정에서 5%의 오류가 허용되니, 세 번 하면 총 오류 가능성이 15%로 늘어난다. 그래서 한 번에 전체 차이를 평가하는 ANOVA가 필요한 것.
7. 마치며
t검정과 ANOVA는 서로 다른 도구가 아니라 같은 원리의 확장 버전이다.
- 두 집단일 때는 t검정이나 ANOVA나 같은 결론
- 세 집단 이상에서는 ANOVA로 전체 차이를 보고 → 사후분석(post-hoc)으로 세부 차이 확인
이제 두 방법이 왜 연결돼 있고, 언제 어떤 걸 써야 하는지 분명해졌을 것이다.
'통계 이론' 카테고리의 다른 글
반복측정 ANOVA를 사용해야 할 때 (0) | 2025.03.22 |
---|---|
이원분산분석(Two-way ANOVA)을 사용해야 할 때 (0) | 2025.03.22 |
ANOVA 이후 사후분석 (Post-hoc Test)의 이해 (0) | 2025.03.22 |
p-value의 진짜 의미 (0) | 2025.03.22 |
표본 크기 결정법을 이해하는 가장 좋은 방법 (0) | 2025.03.22 |
신뢰구간을 이해하는 가장 좋은 방법 (1) | 2025.03.22 |
카이제곱 검정을 이해하는 가장 좋은 방법 (0) | 2025.03.22 |
댓글