# naver search confirm # markdown number and equation 1.2 통계학 //google adsense
본문 바로가기
통계 이론

1.2 통계학

by 노마드분석가 2020. 6. 21.

그런데 지금까지 분석을 통해 발견한 사실을 실제로 활용하려는 순간 매우 중요한 문제에 부딪힙니다.

발견한 사실을 실제로 활용한다는 의미는 두 가지입니다.

어떤 정책, 행동을 결정할 때 근거로 사용하거나 과학적 명제로 주장하는 것입니다. 사실 이 문제는 데이터를 분석하고 발견한 내용을 일반화할 수 있느냐는 질문입니다.

 

5,60대의 혈압 데이터가 있다면 아마도 모든 한국인 5,60대를 측정한 데이터는 아닐 것입니다. 십중팔구 5,60대 중에서 일부만 뽑아 측정한 표본 데이터입니다.

 

예를 들어 50100명과, 60100명을 뽑아 혈압을 측정하고 60대의 혈압 평균이 160, 50대의 혈압 평균이 150이라는 결과를 얻었다고 합시다. 이렇게 일부 데이터에서 얻는 결과로부터 대한민국의 모든 60대는 모든 50대보다 혈압이 평균 10 높다고 과학적인 사실로 주장할 수 있을까요?

 

또는 이 결과를 받아들인 어떤 제약회사가 50대보다 60대에 초점을 맞춰 자사의 혈압약 마케팅을 펼쳐도 괜찮을까요? 우리가 분석한 데이터는 전체(모집단)가 아니라 일부(표본)이기 때문에 발생하는 근원적인 의문입니다.

 

 

그림 1-3 분석 결과의 일반화

 

이 질문에 답하려면 복잡하고 헷갈리는 개념들을 차근차근 하나씩 배워나가야 합니다. 질문에 답하기 위해 배우는 내용이 통계학입니다.

 

앞 문장에서 어려운 개념이 아니라 복잡하고 헷갈리는 개념들이라고 표현했습니다. 그렇게 표현한 이유는 우리가 마음으로 받아들이는 수학은 정답이 딱 떨어지는 학문이지만 통계학은 어떤 가능성을 확률적으로 추정할 뿐이기 때문입니다.

 

게다가 그 가능성을 받아들일지 말지 결정할 절대적인 기준도 없습니다. 또한 확률 자체도 우리가 생각하는 것 이상으로 심오한 개념입니다. 그래서 통계학에서 배우는 개념에 어느 정도 익숙해지기까지는 다소 시간이 걸리지만 여러분 혼자만 그런 것은 아니고 대부분의 사람들도 그렇다는 사실에 용기와 위안을 얻기 바랍니다.

 

:: 참고 ::
통계학은 일반적으로 기술 통계학(descriptive과 추론통계학(inference statistics)으로 구분합니다(9장에서 설명). 앞에서 설명한 데이터 분석이 일종의 기술 통계학이고 모델의 일반화를 검증하는 통계학이 추론 통계학입니다.통계학이라는 용어가 다소 무겁고 일상생활과 분리된 느낌을 주기 때문에 기술 통계학을 조금 더 실용적인 느낌이 나는 데이터 분석이라고 표현하고 접근합니다  

통계학에서 데이터 분석으로 발견한 사실을 일반화할 수 있을지 없을지 검토하는 과정이 가설 검증입니다.표현 그대로 발견한 사실을 일반화할 수 있다는(또는 없다는) 가정적인 결론(가설)을 세우고 그것이 맞을, 또는 틀릴 확률을 구해 확률이 높고 낮음에 따라 가설을 채택하든지 기각하든지 결정합니다.

 

다시 한번 말하지만 가설을 받아들일지 거부할지 결정하는 절대적인 기준은 없고 단지 사회적으로 합의된 기준(1%, 5% )만 있을 뿐입니다.  

 

간단하게 요약하자면 통계학은 데이터를 분석하고 발견한 사실(차이 비교, 관계 파악)을 일반화할 수 있을지 검증하는 학문입니다. 앞선 데이터 분석에서 5,60대 각 100명의 데이터로부터 60대가 50대보다 혈압 평균이 10 높다는 사실을 발견했고 설사 그것이 그동안 잘 몰랐고 새롭게 발견한 사실이라서 매우 가치가 있다 해도 통계학의 영역으로 넘어가면 이 사실을 일반화할 수 없다는 결론도 충분히 내릴 수 있습니다.  

 

반응형

'통계 이론' 카테고리의 다른 글

QQ Plot 직관적으로 이해하기  (3) 2022.01.30
도구의 신뢰도 측정(크론바흐 알파)  (1) 2022.01.26
탐색적 요인분석(EFA : Exploratory Factor Analysis)  (0) 2022.01.22
1. 5 데이터 과학  (0) 2020.06.22
1.4 인공지능  (0) 2020.06.22
1.3 머신러닝  (3) 2020.06.22
1.1 데이터 분석  (0) 2020.06.21

댓글