1. 들어가며
위의 관련글에서 확률분포는 추론 통계를 위해 필요한 이론이라고 설명했다. 기초 통계 수준에서 가장 많이 쓰이는 확률분포는 정규분포와 t분포, 카이제곱분포, F분포이다. 상대적으로 정규분포와 t분포는 이해하기 어렵지 않은데 카이제곱분포와 F분포는 조금 생각을 해봐야 한다. 이번 포스팅에서는 카이제곱 분포에 대해 알아보자.
2. 카이제곱 분포
<그림 1>처럼 표준정규분포를 따르는 확률변수 집합에서 m개의 확률변수를 “독립적”으로 추출하는 경우를 생각해 보자. 독립적으로 추출한다는 말은 1개의 확률변수를 추출하는 행위가 그 다음 1개를 추출하는 행위에 영향을 미치지 않는다는 의미다. 예를 들어 로또복권 숫자를 추출할 때, 첫번째 꺼낸 공이 7이라면 다음 공은 7이상의 숫자만 뽑는다든지, 아니면 짝수만 뽑는다든지하는 식으로 뽑는 행위가 서로 영향을 미치지 않도록 한다는 것이 독립적으로 추출한다는 의미다.
이때 추출한 m개의 변수를 각기 제곱하고 모두 더한 값을 χ2으로 정의한다.
위의 식에서 우변을 구성하는 개별 Z값은 평균이 μ이고 표준편차가 σ인 정규분포에서 추출한 확률변수 X를 표준화한 것이라고 생각할 수 있다. 그렇게 생각하면 <식 1>은 <식 2>처럼 바꿔서 표현할 수 있다.
이때 χ2(m) 는 확률변수들을 제곱하고 더한 값이라서 χ2(m) 자체도 확률변수로 생각할 수 있다. 어떤 확률변수에 연산을 수행한 결과도 확률변수다. 연산 수행 이전의 확률변수의 확률을 알고 있으므로(왜냐하면 정규분포를 따르는 확률변수이니까) 연산 수행 이후의 확률변수의 확률을 알 수 있기 때문이다. 이 확률변수 χ2(m) 의 확률분포를 카이제곱분포라고 부르며 모양은 <그림 1>과 같다.
그래프가 여러 개인 것은 자유도에 따라 형태가 다르기 때문이다. 자유도가 작을 수록 왼쪽에 치우친 형태이고 데이터가 많을수록 정규분포 형태로 변한다. X축 좌표는 양수만 있는데 확률변수는 제곱한 값이므로 음수가 나올 수 없기 때문이다. 자유도는 아래 관련글을 참고하기 바란다.
관련글
3. 카이제곱분포 형태 이해
이 확률분포의 형태를 직관적으로 이해해 보자. 개별 확률변수는 표준정규분포에서 추출되거나 표준화된 값이므로 대략 -1 ~ 1 사이의 값이 추출될 확률이 매우 크다. 예를 들어 변수를 하나 추출했는데 0.5라면
χ2(1) = 0.5^2 = 0.25
또 추출했는데 -0.5라고 하면
χ2(1) = -0.5^2 = 0.25
즉 데이터 개수가 하나일 때 추출되는 값은 대부분 -1 ~ 1 사이이고 이 값을 제곱한 χ2(1) 은 0~1사이에 있을 것이다. 이 말은 χ2(1) 가 0~1사이일 확률(그 구간의 면적)이 아주 높다는 것이다. 따라서 그래프도 0에 가깝게 왼쪽으로 치우친 형태가 된다.
당연한 말이지만 데이터 개수가 늘어나면 χ2(m) 도 따라서 커진다. χ2(m) 자체가 개별 확률변수의 합이기 때문이다. 따라서 χ2(m) 값이 가장 많이 발생하는 구간은 X축에서 계속 커지는 방향으로 확률분포의 모양도 바뀔 것이다.
4. 카이제곱분포 활용
카이제곱분포는 범주별 빈도의 독립성 검정, 통계 모델의 적합도 검정 등에 활용된다. 카이제곱(χ2) 값이 표준정규분포를 따르는 확률변수 집합에서 “독립적”으로 추출한 확률변수를 합한 값에 대한 분포이므로 어떤 데이터에서 각 범주의 빈도가 범주와 상관관계가 있는 것인지, 범주와 상관없이 독립적인지 검증한다는 논리가 깔려 있다.
'통계 이론' 카테고리의 다른 글
분산분석(ANOVA) 이해하는 가장 좋은 방법(1) (4) | 2022.04.22 |
---|---|
t-test 밑바닥부터 이해하기 (2) | 2022.04.21 |
F분포 어디에 쓰일까? (5) | 2022.04.21 |
확률, 확률변수 그리고 확률분포 (2) | 2022.04.18 |
이상값과 영향력 있는 관측값 탐지 (2) | 2022.04.14 |
회귀진단 (0) | 2022.04.13 |
선형회귀분석 밑바닥부터 이해하기 (0) | 2022.04.01 |
댓글