# naver search confirm # markdown number and equation 1. 5 데이터 과학 //google adsense
본문 바로가기
통계 이론

1. 5 데이터 과학

by 노마드분석가 2020. 6. 22.

지금까지 데이터 분석에서부터 통계학, 머신러닝, 인공지능을 차례대로 소개해왔습니다. 명확하지는 않지만 이 용어들 사이에는 나름의 위계적인 관계가 있습니다.

 

그런데 데이터 과학이라는 말은 대중적으로 정착된 표현이지만 앞의 위계 구조에서 어디에 위치하는지 모호합니다. 그렇다고 데이터 분석에서부터 인공지능 스펙트럼에서 데이터 과학만의 독자적인 영역도 확실하지 않습니다.

데이터 과학이 무엇인지 구체적으로 인식하기 위해 우선 위키백과의 데이터 과학에 관한 정의를 살펴봅시다.

 

데이터 과학이란, 정형, 비정형 형태를 포함한 다양한 데이터로부터 지식과 인사이트를 추출하는데 과학적 방법론, 프로세스, 알고리즘, 시스템을 동원하는 융합분야이다

 

위의 정의에서 핵심적인 내용을 추출하면 다음과 같이 정리할 수 있습니다.

1) 데이터로부터 지식과 인사이트를 추출한다
2) 과학적 방법론, 프로세스를 동원한다.
3) 알고리즘, 시스템을 동원한다.
4) 데이터는 정형 또는 비정형 형태를 포함하는 다양한 데이터를 활용한다.
5) 융합분야이다.

1)은 데이터 분석, 통계학, 머신러닝의 공통적인 목적입니다.

2)는 수학과 통계학적 접근을 의미합니다.

3)은 컴퓨터를 이용해(프로그래밍으로) 알고리즘(모델)을 구현한다는 의미입니다.

 

1), 2), 3), 5)를 합치면 결국 데이터 과학은 데이터 분석에서부터 머신러닝에 이르는 모든 영역을 포함한다는 말입니다. 고유한 영역을 가진 각 분야를 이렇게 데이터 과학이라는 말로 하나로 묶을 수 있는 이유는 데이터 분석, 통계학, 머신러닝이 데이터 활용을 연결 고리로 밀접하게 연결되어 있기 때문입니다. 이 책에서 다른 분야와 용어를 먼저 설명하고 데이터 과학을 제일 마지막에 소개하는 이유이기도 합니다.

 

아직 언급하지 않은 4)는 데이터 과학의 방법론적인 관점에서 매우 중요합니다. 개인적으로 4)는 다음과 같이 변경되면 더 정확한 표현이라고 생각합니다.

4) 정형 또는 비정형의 다양한 데이터를 수집하고 용도와 목적에 맞게 변환한다.

컴퓨터와 인터넷이 대중적으로 보급되지 않았을 때, 분석가가 분석하는 데이터는 일반적으로 행과 열로 구성된 정형화된 테이블 형태였지만 모든 것이 디지털로 바뀐 요즘은 상상할 수 없이 많은 곳에서 다양한 형태의 데이터를 얻습니다. 예를 들어 전통적인 데이터베이스에서 SQL 구문으로 데이터를 추출할 수도 있고, 웹 사이트의 HTML 형식의 데이터, 텍스트 데이터, 이미지 데이터, 빅데이터, 음성 데이터를 다뤄야 할 수도 있습니다.

 

이렇게 다양한 형태의 데이터를 용도와 목적에 맞게 변환하는 과정도 데이터 과학의 일부입니다. 4)는 다른 말로 데이터 전처리(pre-processing)로 표현할 수 있습니다. 일반적으로 데이터 과학, 머신러닝에서 데이터 전처리가 전체 작업 시간의 70~80%를 차지한다고 말합니다. 많은 책이나 보고서 등에서 이 표현은 귀찮은 일”, “시간이 많이 걸리는 일이라는 뉘앙스로 쓰입니다.

 

 

그림 1-10 데이터 과학 범휘

 

그러나 다르게 생각하면 데이터 과학에서 데이터 전처리가 차지하는 비중이 그 만큼 크고 중요하다는 의미입니다. 취미로 하는 일이 아닌 이상 모든 일은 올바른 결과를 만들어내면서 동시에 빨리 진행되어야 바람직합니다. 전체 작업 시간의 70~80%를 차지하는 업무를 빠르고 효율적으로 진행할 수 있다면 전체 프로젝트 진행 속도가 빨라짐은 물론 의미 있는 결과를 도출할 가능성도 높아집니다. 데이터 전처리에서 절약한 시간을 분석이나 모델 구축 같은 핵심적인 업무에 더 많이 할애할 수 있기 때문이죠. 그렇기 때문에 4)는 데이터 과학자가 갖추어야 할 핵심 기술이자 중요한 업무 영역이며 데이터 분석가, 통계학자와는 다른 명칭을 붙이는 중요한 요인이기도 합니다.

 

:: 참고 ::
데이터 전처리를 하나의 독자적인 영역으로 간주해 데이터 엔지니어링(data engineering)이라고 표현하기도 합니다

 

마지막으로 데이터 과학하면 반드시 언급되는 유명한 벤다이어그램도 살펴봅시다.그림 1-11데이터 과학을 공부하려는 사람들이 시작도 하기 전에 좌절감을 느끼게 만들어 별로 좋아하지 않지만 그림이 내포하는 정확한 의미를 전달하기 위해 언급하고 넘어가겠습니다

그림 1-11 데이터 과학자의 기술

 

그림은 데이터 과학이 데이터 분석, 통계학, 머신러닝을 모두 포함하는 융합분야라는 사실을 나타냅니다. 수학과 통계학을 알아야 이론적 원리를 이해한 상태에서 모델을 구축하거나 개선할 수 있습니다. 또한 컴퓨터 과학을 공부해야 데이터를 전처리하고 프로그래밍으로 모델을 구현할 수 있습니다. 데이터는 과학은 경제, 의료, 교육 등의 특정 분야에 적용될 것이므로 관련 분야에 대한 전문 지식이 있어야 함은 당연합니다.

 

그런데 이 그림은 세 분야를 모두 다 잘 알아야 하는 것처럼 오해를 불러일으킵니다.모든 분야를 전문가 수준으로 깊이 알기는 어렵습니다. 이 그림은 세 분야 중에서 한 분야를 깊이 공부하고 나머지 분야에서는 꼭 필요한 부분만을 우선적으로 습득해야 한다고 이해하면 됩니다. 대부분의 프로젝트는 팀을 구성해서 진행하기 때문에 다양한 배경을 가진 사람들과 협업하면서 서로 부족한 부분을 보완할 수 있습니다. 부족한 부분은 현장 경험을 통해 계속 쌓아가면 됩니다.

반응형

'통계 이론' 카테고리의 다른 글

QQ Plot 직관적으로 이해하기  (3) 2022.01.30
도구의 신뢰도 측정(크론바흐 알파)  (1) 2022.01.26
탐색적 요인분석(EFA : Exploratory Factor Analysis)  (0) 2022.01.22
1.4 인공지능  (0) 2020.06.22
1.3 머신러닝  (3) 2020.06.22
1.2 통계학  (0) 2020.06.21
1.1 데이터 분석  (0) 2020.06.21

댓글