1. 들어가며
가설을 검증한다는 말은 검증하는 사람(분석가)이 명확한 근거를 갖고 있거나 정답을 알고 있다는 뉘앙스를 가진다. 그러나 검증이라는 표현보다는 결단을 내린다는 말이 사실에 더 가깝다. 판단에 대한 기준을 갖고 있긴 하지만 그 기준 자체가 절대적인 것은 아니며 그렇기 때문에 오류 가능성이 필연적으로 존재할 수 밖에 없다.
2. 통계량
통계량은 표본 데이터를 계산해서 얻어 낸 값이다. 표본에서 구한 평균, 분산, 표준편차 이런 것들도 모두 통계량이지만 일반적으로 카이제곱값, T값, F값 등을 의미한다. 무엇이 되었든 통계량은 귀무가설이 맞다는 가정하에 생성된 확률 분포를 기반으로 특정한 값 이상을 얻을 확률을 가진다.
3. 귀무가설과 확률분포
<그림 1>과 같이 귀무가설이 맞다는 가정하에 그려진 T통계량의 발생 확률 분포가 있다고 하자.
귀무가설이 맞다면 파란색 점으로 표현되는 T통계량은 발생 확률이 비교적 높지만 빨간색 점으로 표현되는 T값는 발생할 확률이 낮다. 그런데 내가 가진 표본에서 확률이 낮은 통계량을 얻었을 때, 그 상황을 어떻게 받아들이냐가 문제가 된다.
예를 들어 어떤 이성이 나에게 일주일 동안 딱 한번 먼저 문자를 줬다고 하자. 상대가 나에게 관심이 있는지 없는지 속마음을 정확하게 알 길은 없지만 일주일 동안 한 번 받은 문자 횟수(통계량)를 근거로 판단을 내려야 한다. 친구들에게 핀잔을 듣지 않으려면 그 이성이 나에게 관심이 있다는 가설(귀무가설)을 버리는 것이 좋다.
4. 유의 수준과 1종 오류
여기서 두 가지 문제가 쟁점이 될 수 있다.
(1) 그럼 문자를 몇 개 이상 받으면 이성이 나에게 관심이 있다는 가설(혹은 믿음...)을 기각하지 않아도 될까?
(2) 비록 문자를 1개만 받았지만 혹시 그 이성이 바빠서 그랬지 않았을까?
(1)에 대한 절대적인 답은 없다. 그냥 사람들끼리 합의하는 것이다. 합의된 기준을 유의 수준이라고 한다. 사람들은 그 통계량을 얻을 확률이 5%이하일 경우(단측가설)로 합의를 해 놓은 상태다. 어떤 분야(예를 들어 의학분야)에서는 합의된 기준이 훨씬 더 낮다.
위의 예에서 이성이 나에게 관심이 있다면(귀무가설이 맞다면) 나에게 1개 이하의 문자를 보낼 확률이 3%라고 하면 합의된 수준 5% 이하이므로 가설을 기각하자는 사회적 약속을 따르는 것이다.
(2)는 일종의 희망고문이지만 인생에 기적도 있으니까 나의 판단이 틀릴 가능성을 열어 놓는 것이다. 혹시라도 나중에 그 이성가 잘 된다면 나의 판단(결정)에 오류가 있었던 것이고 그것이 바로 1종 오류다. 판단의 근거는 통계량 발생 확률 5% 이하였으니 1종 오류를 줄이고 싶으면 판단의 기준 확률을 낮추면 된다. 3%이하 혹은 1%이하로.
물론 그럴 수록 희망고문에 더 시달리고 나중에 더 크게 후회할 위험도 커진다.
'통계 이론' 카테고리의 다른 글
결정계수(R^2)의 이해 (0) | 2022.03.08 |
---|---|
가설검증과 2종오류 (0) | 2022.03.06 |
분산으로 평균차이 검증하기(분산분석) (2) | 2022.03.02 |
다중공선성(Multicollinearity)의 의미와 판별법 (0) | 2022.02.16 |
효과 크기(Effect Size)의 의미와 필요성 (2) | 2022.02.14 |
자유도(Degree of Freedom)에서 자유로워 지기 (6) | 2022.02.06 |
제곱합(Sum of Squares : SS) 공식 (0) | 2022.02.01 |
댓글