대략 2010년을 전후로 데이터가 새로운 산업혁명의 동력으로 주목받기 시작했습니다.
첫 신호탄은 빅데이터였고 뒤를 이어 데이터 과학, 머신러닝, 딥러닝, 인공지능과 같은 용어들이 연이어 화려하게 등장해 세간의 뜨거운 관심도 받았습니다.
이 현상을 이해당사자의 입장에서 보고 겪은 사람들은 크게 두 부류입니다.
한 부류는 학계나 업계에서 이미 예전부터 데이터를 다루고 분석해왔던 사람들입니다. 이 부류의 사람들 중 일부는 데이터를 분석한다는 본질이 달라진 것도 아닌데 우후죽순 탄생하는 용어들은 유행에 편승한 새로운 이름 짓기에 지나지 않는다고 생각합니다.
또 다른 부류는 최근 10년 사이에 이 분야에 새롭게 진입했거나 처음 공부를 시작한 사람들입니다. 이 부류는 통계라는 용어에는 익숙한데 데이터 과학, 머신러닝이 기존에 배웠던 통계와 무슨 차이가 있는지 헷갈립니다. 통계학에서 배웠던 가설검증이 데이터 과학이나 머신러닝에서는 어떻게 쓰이는지, 머신러닝에 등장하는 회귀모델이 통계 수업에서 배웠던 회귀분석과 무엇이 다른지 알쏭달쏭하기만 합니다.
근 10년 동안 데이터 활용에 기반을 둔 기술과 학문은 양적, 질적으로 폭발적으로 발전해왔고 현재는 다소 혼란스러웠던 용어와 개념도 상당히 정리가 되었으며 각 분야(또는 명칭)간의 경계와 차이점에 대해서도 어느 정도 통일된 견해가 확립되었습니다. 따라서 이 분야를 공부하려는 사람들은 데이터 활용을 중심에 두고 각 분야가 어떻게 연결되어 있는지 먼저 이해하는 것이 앞으로의 공부에 도움이 됩니다. 전체 모습을 파악해야 중간에 길을 잃지 않고 최대한 효율적인 방법으로 최종 목적지에 도달할 수 있기 때문입니다.
# 1.1 데이터 분석
우리는 흔히 데이터를 분석해서 통찰(insight)을 얻어야 한다고 주장합니다. 국어 사전은 통찰(洞察)이라는 단어를 예리한 관찰력으로 사물을 꿰뚫어 봄이라고 설명합니다. 그런데 꿰뚫어 본다의 표현이 추상적이라 여전히 의미가 모호합니다.
데이터 분석에서 통찰을 얻는다는 표현은 잘 드러나지 않아 모르던 사실을 데이터를 분석해 발견한다로 해석할 수 있습니다. 발견할 수 있는 사실은 크게 두 가지입니다. 바로 차이와 관계입니다. 더 세부적으로 구분할 수도 있지만 여러 그룹 간의 차이를 비교하거나 여러 변수들 간의 관계를 파악하는 것으로 압축할 수 있습니다. 앞으로 배우게 될 거의 모든 내용은 차이와 관계라는 틀로 설명할 수 있습니다.
사실 우리가 미적분같은 고등 수학을 배우지만 실생활에서는 사칙연산만으로도 많은 것을 이해하고 설명할 수 있습니다. 마찬가지로 다양하고 더 복잡한 데이터 분석 기술이 있지만 대부분의 데이터 분석 상황에서는 차이를 비교하고 관계를 파악하는 것만으로 충분할 때가 많습니다.
차이 비교는 둘 이상의 그룹에 나타나는, 숫자로 표현할 수 있는 특정한 현상의 평균을 비교하거나 빈도를 비교하는 것입니다. 예를 들면 한국인 50대와 60대의 혈압 평균을 비교하거나 50대와 60대에서 고혈압 환자로 진단받은 사람 수(빈도)를 비교할 수 있습니다.
관계는 나이와 혈압이 서로 어떤 관련을 맺고 있는지 파악하는 것입니다. 보통은 나이가 많을수록 혈압도 높아질 것이므로 이 둘은 정비례 관계로 나타날 가능성이 높습니다. 아마도 2차원 X, Y 좌표에 그래프를 그려보면 나이와 혈압의 관계는 명확하게 드러날 것입니다. 여기까지는 분석이라는 말이 거창하게 느껴질 만큼 대단한 기술도 아니고 특별히 공부할 내용도 없습니다.
그러나 더 정교하게 분석하려면 추가적으로 배워야 할 내용이 있습니다. 예를 들어 성별, 거주지역 같은 데이터도 함께 있다면 연령과 성별 또는 연령과 거주지역을 동시에 고려했을 때 혈압 평균 차이가 어떻게 변하는지 볼 수 있습니다. 데이터 분석에서는 변수의 상호작용 효과라고 부릅니다.
그림 1-2 왼쪽 그림을 보면 X가 증가하면 Y도 증가하지만 또 다른 변수를 고려했을 때 증가하는 기울기가 다릅니다. 어떤 변수들을 조합하면 더 큰 차이를 발생시키는지 파악할 수 있는 것이죠.
마찬가지로 콜레스테롤 수치 데이터가 있다면 콜레스테롤 효과를 제외한 순수한 연령과 혈압의 관계를 발견할 수 있습니다. 나이가 조금 더 어려도 콜레스테롤 수치가 높으면 혈압이 높을 수 있고 나이가 많아도 콜레스테롤 수치가 낮으면 혈압이 낮을 수 있기 때문에 혈압은 나이와 콜레스테롤 효과가 혼재되어 있습니다.
그림 1-2 오른쪽 그림을 보면 X와 Y의 관계에 Z변수도 고려했을 때 Z의 효과가 통제된 X, Y의 순수한 관계(교집합 부분)를 파악할 수 있습니다. 데이터 분석에서는 이런 분석을 통제변인, 공분산분석 개념으로 설명합니다. 이렇게 여러 변수들을 동시에 고려함으로써 단순한 차이 비교, 관계 파악으로는 보이지 않던 이면의 진실이 발견될 수 있습니다. 이처럼 데이터 분석에 관한 지식을 갖추면 정교하고 다양한 분석이 가능해지며 잘 드러나지 않는 시사점을 더 빨리, 더 많이 발견할 수 있습니다.
이 블로그에서는 차이 비교와 관계 파악이라는 큰 틀에서 데이터의 이면에 숨어 있는 사실을 발견하는 다양한 분석 기법을 살펴보겠습니다.
'통계 이론' 카테고리의 다른 글
QQ Plot 직관적으로 이해하기 (3) | 2022.01.30 |
---|---|
도구의 신뢰도 측정(크론바흐 알파) (1) | 2022.01.26 |
탐색적 요인분석(EFA : Exploratory Factor Analysis) (0) | 2022.01.22 |
1. 5 데이터 과학 (0) | 2020.06.22 |
1.4 인공지능 (0) | 2020.06.22 |
1.3 머신러닝 (3) | 2020.06.22 |
1.2 통계학 (0) | 2020.06.21 |
댓글