머신러닝7 정말 쉬운 연관규칙 알고리즘 1. 들어가며 연관규칙은 장바구니 분석(market basket analysis)이라고도 하는데, 원래 마트의 거래 데이터(transaction data)를 분석하고자 하는 필요성에서 활발하게 탐구되었다. 다른 많은 머신러닝 알고리즘에 비해 연관규칙은 이해하기 쉽고, 나오는 결과물도 실용적이다. 하지만 결정적으로 공부하는 입장에서 단점은 제대로 된 거래 데이터를 만질 수 없기 때문에, 사실 연습만 하고 실전을 경험해 보기 어려운 알고리즘이기도 하다. 2. 연관규칙(association rule)이란?연관규칙을 통해 이런 일을 할 수 있다. • 쇼핑몰에서 모자를 구매하는 고객의 10%는 선글라스를 동시에 구매한다.• 최근 상담을 한 고객은 한 달 내에 핸드폰 요금제를 중단할 가능성이 일반고객의 2.. 2024. 5. 20. 1. 5 데이터 과학 지금까지 데이터 분석에서부터 통계학, 머신러닝, 인공지능을 차례대로 소개해왔습니다. 명확하지는 않지만 이 용어들 사이에는 나름의 위계적인 관계가 있습니다. 그런데 데이터 과학이라는 말은 대중적으로 정착된 표현이지만 앞의 위계 구조에서 어디에 위치하는지 모호합니다. 그렇다고 데이터 분석에서부터 인공지능 스펙트럼에서 데이터 과학만의 독자적인 영역도 확실하지 않습니다. 데이터 과학이 무엇인지 구체적으로 인식하기 위해 우선 위키백과의 “데이터 과학”에 관한 정의를 살펴봅시다. “데이터 과학이란, 정형, 비정형 형태를 포함한 다양한 데이터로부터 지식과 인사이트를 추출하는데 과학적 방법론, 프로세스, 알고리즘, 시스템을 동원하는 융합분야이다” 위의 정의에서 핵심적인 내용을 추출하면 다음과 같이 정리할 수 있습니다... 2020. 6. 22. 1.4 인공지능 머신러닝과 인공지능은 따로 구분해서 생각할 수 없기 때문에 인공지능에 대해서도 가볍게 살펴보겠습니다. 사람들이 인공지능 개념을 처음 생각했을 때는 데이터의 중요성을 인식하지 못했습니다. 인공지능 개념 자체는 1950년대부터 시작되었지만 오랫동안 기술적인 장벽에 부딪혀 고전하다가 머신러닝 기술이 비약적으로 발전하면서 새로운 활로가 생겼습니다. 즉 데이터를 활용해 인공지능을 구현할 수 있다는 전망이 보이기 시작한 것이죠. 머신러닝을 말 그대로 풀이하면 기계가 학습한다는 의미입니다. 여기서 기계는 소프트웨어, 또는 소프트웨어가 내장된 하드웨어를 의미합니다. 보통 프로그래밍된 소프트웨어가 학습한다고 표현하지는 않습니다. 소프트웨어는 개발자가 미리 지시해 둔 명령을 눈 깜짝할 사이에 수행(계산)할 뿐입니다. 학습.. 2020. 6. 22. 1.3 머신러닝 데이터 분석에서는 여러 그룹을 비교하거나 변수들 간의 관계를 파악하고 통계학에서는 분석을 통해 얻은 가설의 일반화 가능성을 검토한다고 설명했습니다. 반면 머신러닝(Machine Learning)은 새로운 데이터를 예측하거나 분류하는 것이 주목적입니다. 먼저 현재 보유하고 있는 데이터를 이용해 모델을 만듭니다. 그런 다음 새로운 데이터를 모델에 투입하면 모델이 목적에 맞게 예측하거나 분류합니다. :: 참고 :: 앞으로 모델이라는 말을 자주 접하게 될 것입니다. 모델은 어떤 입력 값을 받아 특정한 방식으로 계산한 결과를 출력하는 수식, 함수, 또는 여러 단계로 구성된 절차(알고리즘)를 의미합니다. 그런 의미에서 아주 간단한 수식 y=ax+b도 모델이라고 부를 수 있습니다. 실생활에서 머신러닝을 가장 생생하게.. 2020. 6. 22. 1.2 통계학 그런데 지금까지 분석을 통해 발견한 사실을 실제로 활용하려는 순간 매우 중요한 문제에 부딪힙니다. 발견한 사실을 실제로 활용한다는 의미는 두 가지입니다. 어떤 정책, 행동을 결정할 때 근거로 사용하거나 과학적 명제로 주장하는 것입니다. 사실 이 문제는 데이터를 분석하고 발견한 내용을 일반화할 수 있느냐는 질문입니다. 5,60대의 혈압 데이터가 있다면 아마도 모든 한국인 5,60대를 측정한 데이터는 아닐 것입니다. 십중팔구 5,60대 중에서 일부만 뽑아 측정한 표본 데이터입니다. 예를 들어 50대 100명과, 60대 100명을 뽑아 혈압을 측정하고 60대의 혈압 평균이 160, 50대의 혈압 평균이 150이라는 결과를 얻었다고 합시다. 이렇게 일부 데이터에서 얻는 결과로부터 대한민국의 모든 60대는 모든 .. 2020. 6. 21. 1.1 데이터 분석 대략 2010년을 전후로 데이터가 새로운 산업혁명의 동력으로 주목받기 시작했습니다. 첫 신호탄은 빅데이터였고 뒤를 이어 데이터 과학, 머신러닝, 딥러닝, 인공지능과 같은 용어들이 연이어 화려하게 등장해 세간의 뜨거운 관심도 받았습니다. 이 현상을 이해당사자의 입장에서 보고 겪은 사람들은 크게 두 부류입니다. 한 부류는 학계나 업계에서 이미 예전부터 데이터를 다루고 분석해왔던 사람들입니다. 이 부류의 사람들 중 일부는 데이터를 분석한다는 본질이 달라진 것도 아닌데 우후죽순 탄생하는 용어들은 유행에 편승한 새로운 이름 짓기에 지나지 않는다고 생각합니다. 또 다른 부류는 최근 10년 사이에 이 분야에 새롭게 진입했거나 처음 공부를 시작한 사람들입니다. 이 부류는 통계라는 용어에는 익숙한데 데이터 과학, 머신러.. 2020. 6. 21. 이전 1 2 다음