# naver search confirm # markdown number and equation '데이터 과학' 태그의 글 목록 //google adsense
본문 바로가기

데이터 과학4

1. 5 데이터 과학 지금까지 데이터 분석에서부터 통계학, 머신러닝, 인공지능을 차례대로 소개해왔습니다. 명확하지는 않지만 이 용어들 사이에는 나름의 위계적인 관계가 있습니다. 그런데 데이터 과학이라는 말은 대중적으로 정착된 표현이지만 앞의 위계 구조에서 어디에 위치하는지 모호합니다. 그렇다고 데이터 분석에서부터 인공지능 스펙트럼에서 데이터 과학만의 독자적인 영역도 확실하지 않습니다. 데이터 과학이 무엇인지 구체적으로 인식하기 위해 우선 위키백과의 “데이터 과학”에 관한 정의를 살펴봅시다. “데이터 과학이란, 정형, 비정형 형태를 포함한 다양한 데이터로부터 지식과 인사이트를 추출하는데 과학적 방법론, 프로세스, 알고리즘, 시스템을 동원하는 융합분야이다” 위의 정의에서 핵심적인 내용을 추출하면 다음과 같이 정리할 수 있습니다... 2020. 6. 22.
1.3 머신러닝 데이터 분석에서는 여러 그룹을 비교하거나 변수들 간의 관계를 파악하고 통계학에서는 분석을 통해 얻은 가설의 일반화 가능성을 검토한다고 설명했습니다. 반면 머신러닝(Machine Learning)은 새로운 데이터를 예측하거나 분류하는 것이 주목적입니다. 먼저 현재 보유하고 있는 데이터를 이용해 모델을 만듭니다. 그런 다음 새로운 데이터를 모델에 투입하면 모델이 목적에 맞게 예측하거나 분류합니다. :: 참고 :: 앞으로 모델이라는 말을 자주 접하게 될 것입니다. 모델은 어떤 입력 값을 받아 특정한 방식으로 계산한 결과를 출력하는 수식, 함수, 또는 여러 단계로 구성된 절차(알고리즘)를 의미합니다. 그런 의미에서 아주 간단한 수식 y=ax+b도 모델이라고 부를 수 있습니다. 실생활에서 머신러닝을 가장 생생하게.. 2020. 6. 22.
1.2 통계학 그런데 지금까지 분석을 통해 발견한 사실을 실제로 활용하려는 순간 매우 중요한 문제에 부딪힙니다. 발견한 사실을 실제로 활용한다는 의미는 두 가지입니다. 어떤 정책, 행동을 결정할 때 근거로 사용하거나 과학적 명제로 주장하는 것입니다. 사실 이 문제는 데이터를 분석하고 발견한 내용을 일반화할 수 있느냐는 질문입니다. 5,60대의 혈압 데이터가 있다면 아마도 모든 한국인 5,60대를 측정한 데이터는 아닐 것입니다. 십중팔구 5,60대 중에서 일부만 뽑아 측정한 표본 데이터입니다. 예를 들어 50대 100명과, 60대 100명을 뽑아 혈압을 측정하고 60대의 혈압 평균이 160, 50대의 혈압 평균이 150이라는 결과를 얻었다고 합시다. 이렇게 일부 데이터에서 얻는 결과로부터 대한민국의 모든 60대는 모든 .. 2020. 6. 21.
1.1 데이터 분석 대략 2010년을 전후로 데이터가 새로운 산업혁명의 동력으로 주목받기 시작했습니다. 첫 신호탄은 빅데이터였고 뒤를 이어 데이터 과학, 머신러닝, 딥러닝, 인공지능과 같은 용어들이 연이어 화려하게 등장해 세간의 뜨거운 관심도 받았습니다. 이 현상을 이해당사자의 입장에서 보고 겪은 사람들은 크게 두 부류입니다. 한 부류는 학계나 업계에서 이미 예전부터 데이터를 다루고 분석해왔던 사람들입니다. 이 부류의 사람들 중 일부는 데이터를 분석한다는 본질이 달라진 것도 아닌데 우후죽순 탄생하는 용어들은 유행에 편승한 새로운 이름 짓기에 지나지 않는다고 생각합니다. 또 다른 부류는 최근 10년 사이에 이 분야에 새롭게 진입했거나 처음 공부를 시작한 사람들입니다. 이 부류는 통계라는 용어에는 익숙한데 데이터 과학, 머신러.. 2020. 6. 21.