t-test 밑바닥부터 이해하기

확률, 확률변수 그리고 확률분포

1. 들어가며 통계학은 기술통계와 추론통계로 구분되는데, 기술통계와 추론통계를 연결해주는 것이 확률분포이다. 그런데 확률분포를 이해하기 위해서는 먼저 확률을 알아야 하고 그 다음에 확

diseny.tistory.com

1. 들어가며

t-test는 일반적으로 가장 처음 배우는 기초 추론 통계 분석 방법이자 실질적으로 가장 많이 쓰이는 분석방법이다. t-test는 두 집단의 평균 차이를 비교한다. 예를 들어 남녀간의 연봉 차이, 지역별 소득 차이, 흡연자와 비흡연자의 혈압 차이 등 집단을 비교해야 할 일이 무척 많다.

그런데 집단간의 평균 비교는 그냥 두 집단의 평균을 계산하면 어느 쪽 평균이 더 높은지 금방 알 수 있기 때문에 분석이라는 단어가 과분할 정도로 간단한 작업이다. 남은 것은 두 집단의 데이터가 표본일 때 표본에서의 평균 차이가 모집단에서도 유의할지 검증하는 작업이다. 이때 t-test를 이용한다.

2. 집단간 평균 차이 비교

아래 <그림 1>을 보자. A대학교 학생 100명의 토익 점수와 B대학교 학생 100명의 토익 점수 데이터가 있다고 가정하자. A대학교는 평균 650점, B대학교는 평균 640점이라고 하면 현재의 표본 데이터에서 A대학 학생의 토익 실력이 B대학 학생보다 10점 더 높다.

두 표본 데이터가 무작위 추출되었다고 전제했을 때 <그림 1>에서 오른쪽 B대학의 경우 표본을 의미하는 작은 원을 약간 아래쪽에 배치해 두었다. 추출된 표본이 모집단을 대표하지 못하고 약간 편향되었다는 의미이다. 무작위 추출이라면 이렇게 편향될 가능성은 아주 낮지만 B대학에서 우연히 토익 점수가 낮은 학생들이 표본에 많이 추출되었을 가능성도 있다. 따라서 모집단에서는 평균 차이가 없지만 단지 우연적으로 B대학의 표본 평균이 10점 낮을 확률을 계산해보고 그 확률을 기준으로 표본 데이터에서의 평균 차이가 모집단에서도 적용될 수 있는지 판단해야 한다.

3. 평균 차이의 통계적 유의성

두 집단간 평균 차이 비교에서 통계적 유의성을 검증하려는 대상은 10점이란 점수 차이다. 극단적으로 설명하면 이 점수 차이가 아주 크면 모집단에서도 점수 차이가 있을 것이며, 점수 차이가 작으면 모집단에서는 점수 차이가 없어서 표본을 다시 추출해보면 결과가 바뀔 수도 있다는 논리로 연결된다. 이런 단순 논리가 가능한 이유는 무작위 추출은 표본이 모집단을 매우 닮았다는 전체가 깔려 있기 때문이다.

이제 조금 더 학문적으로 살펴보자. 먼저 두 표본 평균의 점수 차이 값에 대한 분포를 상상해야 한다. <그림 2>처럼 정규분포를 따르는 모집단 A, B에서 각각 n개의 표본을 무작위로 추출하고 두 표본의 토익 평균 점수 차이를 계산하는 과정을 무수히 반복한다고 상상하자.

그러면 이 평균의 차이 값 자체(검은 점선 원)도 확률변수가 되며 이 확률변수는 정규분포를 따른다. 여기서 중요한 사실을 언급했다. 즉 표본 데이터가 정규분포를 따르지 않는다면 표본 데이터의 차이 값도 정규분포를 따르지 않을 것이므로 지금부터 설명하는 통계적 유의성 검증(t검증)을 사용할 수 없다는 것이다.

<그림 2>에서 모집단 A, B의 토익 점수 평균이 같다면, 무수히 많이 실행한 두 표본의 점수 차이 값의 평균은 이론적으로 0이 될 것이다. 오른쪽의 정규분포 그래프에서 볼록 솟은 중앙 부분에 해당하는 차이 값이 0이라는 의미다. 이 상황에서 실제로 얻은 표본 점수 10점 차이가 발생할 확률을 구한 뒤 이 확률이 얼마나 가능성이 있는지 따져봐야 한다.

정규분포를 따르는 어떤 확률변수의 발생 확률을 계산하는 방법은 2가지가 있다. 하나는 정규분포 확률밀도함수를 적분하거나 다른 하나는 표준정규분포로 변환한 뒤 표준정규분포표를 이용하는 것입니다. 확률밀도함수를 적분하기보다는 표준정규분포표를 이용하는 편이 더 쉽지 않겠는가? 정규분포하는 데이터를 표준정규분포로 변환하는 공식을 상기해 보자.

이때 식의 분모가 σ가 아니라 σ/√n 이라는 점에 유의하자. 지금 논의의 대상은 표본이 아니라 표본 평균의 분포이기 때문이다.

여기에서 <식 1>의 분자에 대입할 X는 무엇일까? 실제로 얻은 표본 데이터인 점수 차이 10이다. <그림 2>를 참고하자. 그렇다면 X에서 빼줄 μ는 무엇일까? 우리는 μ가 0이라고 가정했다. 두 표본의 모집단 평균이 같다고 가정했으므로 차이는 당연히 0이다. 이로서 분자에 들어갈 숫자는 나왔다.

문제는 분모다. 표본의 개수 n은 알고 있지만 모집단의 표준편차 σ를 모른다. <그림 2>에서 오른쪽 정규분포의 퍼짐 정도를 모른다는 뜻이다. 어쩔 수 없이 편법을 사용해야 한다. 무작위로 표본을 추출했다면 표본의 분산은 모집단의 분산을 닮았을 것이다. 그래서 σ대신 표본분산(s2) 을 사용한다.

표본분산이 일반적인 분산과 다른 것은 n이 아니라 n-1(자유도)를 나눈다는 것이다. 이 표본분산을 <식 1> 분모의 σ와 교체 한다. 대신 이렇게 값을 바꿈으로써 <식 1>은 더 이상 Z가 아니라 t분포를 따르게 되는 것이다. 확률변수가 t분포를 따르므로 t분포표에서 확률변수가 10이상 나올 확률을 계산할 수 있다.

이제 표본 데이터에서 10이상 점수가 나올 확률을 보고 모집단에서는 평균이 같다는 가정(평균이 0이라는 가정)을 기각할지 말지 판단하면 끝이다. 기각한다면 현재의 표본 데이터에서 두 대학은 점수 차이가 있다는 결론을 모집단에 적용할 수 있고 그렇지 못하다면 현재의 표본 데이터에서 나온 결과를 모집단에 적용할 수 없다는 의미다.

가설검증과 1종 오류

1. 들어가며 가설을 검증한다는 말은 검증하는 사람(분석가)이 명확한 근거를 갖고 있거나 정답을 알고 있다는 뉘앙스를 가진다. 그러나 검증이라는 표현보다는 결단을 내린다는 말이 사실에 더

diseny.tistory.com

4. 합동분산

결론까지 일사천리로 도달했지만 중간에 슬그머니 설명을 안하고 넘어간 값이 하나 있다. 위의 <식 2>에 사용한 표본분산은 하나의 모집단에서 표본을 추출한 경우다. 그러나 지금 필요한 표본분산은 2개의 모집단에서 추출한 표본 평균의 차이에 대한 분산이다.

따라서 이 차이 값(검은색 점선 원)에 대한 분산을 구하기 위해서는 통계학 교과서에 나오는 중요한 공식 하나를 이용해야 한다. 확률변수 X와 확률변수 Y가 서로 독립일 때 다음의 식이 성립합니다.

V(X – Y) = V(X) + V(Y)

A에서 표본을 뽑는 행위는 B에서 표본을 뽑는 행위에 영향을 미치지 않으므로 독립이다. 애초에 전제가 무작위 추출이므로 A, B는 서로 독립인 표본이다. 공식에 의하면 서로 독립인 두 개의 확률변수 차이 값에 대한 분산은 각 확률변수 분산의 합과 같다. 따라서 모집단 A, B에서 무작위로 추출한 두 표본의 평균 차이에 대한 확률 변수의 분산은 <그림 3>과 같다. 이제 모든 미지수를 구했으므로 최종적으로 다음과 같은 수식이 만들어진다.

5. 효과크기

지금까지 A, B 두 집단의 점수 차이가 10점이고 10점차는 통계적으로 유의해서 모집단에서도 비슷한 차이가 날 가능성이 높다는 사실까지 분석했다. 남은 것은 두 집단의 평균 차이가 얼마나 큰 차이냐는 것이다. 실제로 두 집단의 평균 차이 분석을 논문에서 활용한다면 통계적 유의성에 대한 결과와 함께 효과크기를 함께 제시할 것을 권장하고 있다. 효과크기에 대해서는 아래 관련글을 참고하기 바란다.

A/B 테스트를 통한 통계적 사고 과정 따라가기

1. 들어가며추론 통계는 기술 통계에서 얻은 결과를 전체 모집단 차원으로 확대해서 그 결과를 일반화할 수 있는지 타진해보는 과정이다. 개인적으로 추론 통계의 핵심을 이해하는데는 두 집단

diseny.tistory.com

효과크기(Effect Size)의 의미와 필요성

1. 들어가며 기초 추론 통계 방법 중, 두 집단의 평균차이 검증(T-test)이 있다. 두 표본의 평균 차이가 모집단 차원에서도 있는 것인지 아니면 표본에서만 우연히 차이가 있는지 검증하는 방법이

diseny.tistory.com

데이터 시각화의 정의와 필요성

1. 왜 데이터 시각화가 필요한가? 시각화는 데이터에서 메시지를 얻거나 표현하는 과정이다. 아래 그림을 보면 왼쪽의 원본 데이터(raw data)는 정보량이 많지만 구체적인 메시지가 없다. 반면 데

diseny.tistory.com

저작자표시 비영리 변경금지 (새창열림)

'통계 이론' 카테고리의 다른 글

분산분석(ANOVA) 이해하는 가장 좋은 방법(3) (0)	2022.04.25
분산분석(ANOVA) 이해하는 가장 좋은 방법(2) (4)	2022.04.22
분산분석(ANOVA) 이해하는 가장 좋은 방법(1) (4)	2022.04.22
F분포 어디에 쓰일까? (5)	2022.04.21
카이제곱 분포 이해하기 (6)	2022.04.19
확률, 확률변수 그리고 확률분포 (2)	2022.04.18
이상값과 영향력 있는 관측값 탐지 (2)	2022.04.14

의미를 이해하는 통계학과 데이터 분석

t-test 밑바닥부터 이해하기

1. 들어가며

2. 집단간 평균 차이 비교

3. 평균 차이의 통계적 유의성

4. 합동분산

5. 효과크기

'통계 이론' 카테고리의 다른 글

댓글

티스토리툴바