# naver search confirm # markdown number and equation 카이제곱 검정을 이해하는 가장 좋은 방법 //google adsense
본문 바로가기
통계 이론

카이제곱 검정을 이해하는 가장 좋은 방법

by 노마드분석가 2025. 3. 22.

1. 들어가며

데이터 분석을 하다 보면 "두 범주형 변수 사이에 관련이 있을까?"를 알고 싶은 경우가 생긴다. 예를 들어, 성별에 따라 제품 선호도가 다른가? 교육 수준에 따라 투표 성향이 다른가?와 같은 질문이다. 이때 사용하는 대표적인 통계적 방법이 카이제곱 검정(Chi-Square Test) 이다. 평균을 다루는 t검정이나 ANOVA와 달리, 카이제곱 검정은 빈도(frequency) 를 이용해 검정한다는 점에서 독특하다.

2. 왜 평균 대신 빈도로 검정할까?

t검정이나 ANOVA는 연속형 변수(예: 키, 몸무게, 점수 등)의 평균 차이를 비교할 때 사용한다. 하지만 범주형 변수는 '사과', '바나나', '포도'처럼 이산적이고 순서 없는 값이기 때문에 평균 자체가 의미 없다. 예를 들어 남자 30명 중 20명이 사과를 좋아하고, 여자 30명 중 10명이 사과를 좋아한다고 하자. "남성과 여성의 과일 선호에 차이가 있는가?"를 알아보려면 빈도표를 만들고, 관찰된 빈도가 기대값과 얼마나 차이 나는지를 따져야 한다. 이때 쓰는 도구가 바로 카이제곱 통계량이다.

3. 관찰값 vs 기대값

카이제곱 검정은 기본적으로 두 값을 비교한다:

  • 관찰값(Observed) : 실제 조사된 빈도
  • 기대값(Expected) : 두 변수가 독립이라고 가정했을 때 나올 것으로 기대되는 빈도

예를 들어 아래와 같은 데이터가 있다고 하자. 성별 사과 선호 바나나 선호 합계

남자 20 10 30
여자 10 20 30
합계 30 30 60

 

이 표에서 관찰값은 그대로고, 기대값은 (남자 전체 30명 중 30명이 사과를 선택했다면, 남자 중 사과 선호 기대값은 30×30 / 60 = 15) 즉, 성별 사과 기대값 바나나 기대값

남자 15 15
여자 15 15

 

4. 카이제곱 통계량 계산하기

카이제곱 통계량은 다음과 같이 계산한다:

$$ χ2= \sum \frac{(관찰값 - 기대값)^2}{기대값} $$

 

위 예에서 계산하면,

$$ χ2=( \frac{(20-15)^2}{15} + \frac{(10-15)^2}{15} + \frac{(10-15)^2}{15} + \frac{(20-15)^2}{15} = \frac{25}{15} \times 4 = \frac{100}{15} ≈ 6.67 $$

5. 통계적 유의성

카이제곱 검정도 귀무가설과 대립가설을 세운다:

  • 귀무가설(H0) : 두 변수는 독립이다. (즉, 관련 없다)
  • 대립가설(H1) : 두 변수는 독립이 아니다. (즉, 관련 있다)

앞서 계산한 χ² = 6.67이 자유도 1인 카이제곱 분포에서 얼마나 흔한 값인지 확인해야 한다. 자유도는 보통 (행-1)×(열-1)로 계산하므로, 위 예에서는 (2-1)×(2-1) = 1이다.

χ² = 6.67일 때 자유도 1에서의 유의확률(p-value)은 약 0.01 이하로 작기 때문에, 유의수준 0.05보다 작으므로 귀무가설을 기각한다. 즉, 성별과 과일 선호는 독립이 아니다 → 관련이 있다고 결론 내릴 수 있다.

6. 주의할 점

  • 기대빈도가 5보다 작은 셀이 많으면 카이제곱 검정의 정확도가 떨어진다. 이때는 피셔의 정확도 검정(Fisher's Exact Test) 을 고려한다.
  • 변수 간에 '순서'가 있는 경우에는 카이제곱 검정보다는 다른 분석 방법 (예: 트렌드 검정, 로지스틱 회귀 등)이 더 적합할 수 있다.
반응형

댓글