확률, 확률변수 그리고 확률분포

1. 들어가며

통계학은 기술통계와 추론통계로 구분되는데, 기술통계와 추론통계를 연결해주는 것이 확률분포이다. 그런데 확률분포를 이해하기 위해서는 먼저 확률을 알아야 하고 그 다음에 확률변수를 알아야 최종적으로 확률분포를 이해할 수 있다. 대부분 대학에서 "확률과 통계"라는 이름으로 통계와 확률을 같이 배우는 이유는 우리가 배우는 통계의 핵심이 추론 통계이기 때문이다.

2. 확률과 확률변수

어떤 사건(event) A가 발생할 확률은 사건 A가 발생할 수 있는 확실함의 정도를 의미한다. 특정한 시행(예를 들면 주사위를 한 번 던지는 경우)에 일어날 수 있는 모든 경우의 수가 n가지이고 사건 A가 발생할 수 있는 경우의 수가 a가지 일 때 사건 A가 일어날 확률은 다음과 같다.

P(A) = a/n

“확률”이라는 말에 “변수”라는 단어가 붙은 “확률변수”(random variable)를 풀어 쓰면 “변수가 확률적으로 발생한다”는 의미이다. 변수는 어떤 사건의 결과에 실수를 대응한 것이다. 예를 들어 주사위를 던져 1이 나오는 결과는 그냥 1이라고 하면 되지만, 동전을 던져 앞이 나온 결과는 숫자가 아니므로 앞이 나온 결과를 0, 또는 1 등, 적당한 실수에 대응시킬 필요가 있다. 왜냐하면 숫자로 대응시켜야만 수학적 논리를 전개할 수 있기 때문이다.

예를 들어 동전을 2번 던지는 경우을 보자. 이때 발생할 수 있는 모든 사건은 다음과 같다.

앞, 앞

뒤, 뒤

앞, 뒤

뒤, 앞

위의 예시는 아직 사건이지 변수가 아니다. 변수를 만들어 보자. 사건의 결과를 실수에 대응시키면 된다. 위의 사례에서는 동전의 앞이 나오면 0, 뒤가 나오면 1에 대응시키고 그러면 다음과 같은 결과가 만들어진다.

앞, 앞 --> 0, 0 더하면 0

뒤, 뒤 --> 1, 1 더하면 2

앞, 뒤 --> 0, 1 더하면 1

뒤, 앞 --> 1, 0 더하면 1

이제 동전을 2번 던져서 앞, 앞이 나오는 사건은 변수 0에 대응되었다. 그러면 변수는 총 몇 개인가? 모든 사건에 실수를 대응시키면 [0, 1, 2] 3개의 확률변수를 만들 수 있다. 변수가 만들어졌으니 이 변수가 나올 확률을 따져봐야한다. 왜냐하면 우리는 지금 일반적인 변수가 아니라 확률변수에 대해 이야기하고 있기 때문이다. 결과는 아래 표와 같다.

확률변수(X)	0	1	2	확률합계
확률 P(x)	1/4	2/4	1/4	1

이번 사례에서 확률변수는 0, 1, 2 이며 각 변수가 발생할 확률은 1/4, 2/4, 1/4이고 모든 확률의 합은 1이다. 확률변수는 이정도로 이해하고 확률 분포로 넘어가 봅시다.

3. 확률분포

위의 결과 표에서 확률변수는 하나의 값이다. 그럼 이 값 하나 하나는 개별 데이터로 생각할 수 있다. 그렇다면 X = { 0, 1, 1, 2 } 로 표현해 봅시다. 그리고 이 X 데이터 집합을 그래프로 표현하면 <그림 1>처럼 나타낼 수 있다. 그래프는 데이터 중에서 값 1이 2개, 0과 2이 각 1개 존재하는 데이터 분포라는 것을 알 수 있다. 확률변수 개념을 이용해 표현하자면 1이 제일 많이 발생하고 0과 2가 1이 발생하는 횟수 보다는 작고 서로 동등하게 발생하는 확률변수의 분포, 즉 확률분포라는 것을 알 수 있다.

4. 확률분포의 필요성

지금까지 확률 --> 확률변수 --> 확률분포 순서로 사고를 확장해 왔다. 이제 왜 확률분포가 필요한지 생각해 보자. 주사위를 1번 던졌을 때 얻을 수 있는 1 ~ 6 까지의 결과는 확률변수로 생각할 수 있고 각 확률변수의 발생 확률을 알고 있다. 1번 던졌을 때의 확률분포를 알기 때문에 주사위를 2번 던져 나온 결과의 합도 확률변수이고 이 확률변수가 발생할 확률은 아래 표와 같다는 사실도 알 수 있다.

확률변수	2	3	4	5	6	7	8	9	10	11	12
확률	1/36	2/36	3/36	4/36	5/36	6/36	5/36	4/36	3/36	2/36	1/36

그러면 이 확률변수도 <그림 1>처럼 나타낼 수 있고 결과적으로 가로축 상의 값 7에서 가장 볼록한 뒤집은 종 모양의 확률분포를 상상할 수 있을 것이다. 이 확률분포에 “주사위 분포”라는 이름을 맘대로 지어 보자. “주사위 분포”는 예를 들어 설명하기 위한 것으로 통계학 이론에는 없다.

이제 2 ~ 12까지만 존재하는 어떤 수 체계에서 1개의 수를 무작위로 추출하는 사건을 “숫자뽑기”로 정의하고 사건의 결과를 확률변수라고 하자. 그리고 “숫자뽑기 확률변수는 주사위 분포를 따른다고 정의되어 있다”고 가정하자. 그러면 실제로 숫자를 추출하지 않아도 이 사건의 확률변수가 “주사위 분포”를 따른다고 정의되어 있기 때문에 어떤 변수가 제일 많이 뽑힐지 확률적으로 예상할 수 있다. 여러 번 추출해보면 7이 가장 많이 뽑힐 것이다. 같은 논리로 2와 12는 뽑히기 어려울 것이다.

이번에는 말을 바꿔 “숫자뽑기 확률변수는 주사위 분포를 따를 것으로 가정한다”고 하자. 주사위 분포의 핵심은 7이 가장 많이 뽑히고, 양끝(2, 12)으로 갈수록 뽑히기 어렵다는 것이다. 그런데 실제로 숫자를 뽑아보니 2와 12가 너무 많이 나온다면 이 상황을 어떻게 받아들여야 할까? 둘 중에 하나이다. 숫자를 추출한 사람은 아주 희박한 결과를 얻어내는데 특출한 재주가 있거나 아니면 “숫자뽑기 확률변수”는 “주사위 분포”를 따르지 않는다고 생각하는 것이다. 둘 중에 하나를 선택해야 한다면 주사위 분포를 따르지 않는다고 생각하는 것이 추론 통계학적 사고방식이다. 이런 사고방식은 가설검증의 핵심 알맹이이다.

5. 가설검증과의 관계

어떤 모집단이 특정 확률분포를 따를 때, 즉 어떤 확률변수들이 주로 발생할지 알고 있을 때 모집단에서 추출한 표본 확률변수(실제 내가 얻은 데이터)가 발생할 확률을 계산해보고 이 확률의 희박함을 기준으로 모집단에 대한 가정을 받아들일지 말지 결정하는 것입니다.

6. 요약 및 결론

처음 질문으로 되돌아가자. 확률분포가 필요한 이유는 해당 확률분포를 따른다고 가정한 확률변수의 발생 가능성을 예측(또는 계산)하기 위해서이다. 통계학 교과서에 “~~은 확률변수이고, ~~분포(t분포, F분포 등)를 따른다는”표현이 많이 나옵니다. 이 말의 의미에 대해 충분히 이해했다면 남은 것은 실제 통계 이론에서 어떤 분포가 정의되어 있고 특정 분포가 어떤 상황(예를 들어 숫자뽑기)에 적용되는지만 알아 두면 된다.

표준편차와 추론 통계

관련글 가설검증과 1종 오류 1. 들어가며 가설을 검증한다는 말은 검증하는 사람(분석가)이 명확한 근거를 갖고 있거나 정답을 알고 있다는 뉘앙스를 가진다. 그러나 검증이라는 표현보다는 결

diseny.tistory.com

가설검증과 1종 오류

1. 들어가며 가설을 검증한다는 말은 검증하는 사람(분석가)이 명확한 근거를 갖고 있거나 정답을 알고 있다는 뉘앙스를 가진다. 그러나 검증이라는 표현보다는 결단을 내린다는 말이 사실에 더

diseny.tistory.com

저작자표시 비영리 변경금지 (새창열림)

'통계 이론' 카테고리의 다른 글

t-test 밑바닥부터 이해하기 (4)	2022.04.21
F분포 어디에 쓰일까? (5)	2022.04.21
카이제곱 분포 이해하기 (6)	2022.04.19
이상값과 영향력 있는 관측값 탐지 (2)	2022.04.14
회귀진단 (0)	2022.04.13
선형회귀분석 밑바닥부터 이해하기 (0)	2022.04.01
상관관계와 상관계수 (0)	2022.03.31

의미를 이해하는 통계학과 데이터 분석