# naver search confirm # markdown number and equation '분류 전체보기' 카테고리의 글 목록 //google adsense
본문 바로가기

분류 전체보기84

예측 모델의 재현도(Recall)와 정밀도(Precision) 1. 들어가며 머신러닝(AI 포함) 모델의 성능은 논문을 출간할 때 SOTA(Sate of the Art) 값이 중요하긴 하지만 현업에서 적용하고 운영할 때는 다양한 이유로 무조건 높은 값을 추구할 수 만은 없다.  특히 도메인에 따라 예측 모델이 학습하는 데이터의 양과 질에서 차이가 많이 나서 어떤 분야인지에 따라 현실적으로 기대할 수 있는 모델의 성능 지표는 다르다.  2. 관심 범주가 희소할 때의 모델 성능 예측 관심 범주의 발생 빈도가 대부분 희소하면 희소한 케이스 예측을 잘하는지 체크하기 위해서는 모델의 재현도(Recall)와 정밀도(Precision) 값이 중요하다. 예를 들어 의사가 정상인과 암환자를 진단할 때 정상인을 정상인으로 잘 진단하는 못지않게 암환자를 암환자로 잘 진단하는 것이 무척.. 2025. 1. 11.
평균의로의 회귀 1. 들어가며 노벨 경제학상을 수상하기도 했던 심리학자 대니얼 카너먼(Daniel Kahneman)은 명저 '생각에 관한 생각(Thinking, Fast and Slow)'에서 평균으로의 회귀 현상에 대한 좋은 사례를 소개합니다. 그가 이스라엘 공군사관학교에서 강의를 할 때였는데, 베테랑 교관 한 명이생도들이 비행을 잘못했을 때 벌을 주면 대개 다음 비행에서 잘 한다며 보상보다 벌이 더 효과가 좋다는 주장을 합니다. 하지만 대니얼 카너먼은 그런 현상은 단지 평균으로의 회귀 현상일뿐이라고 설명합니다. 평균으로의 회귀(Regression) 현상은 '회귀분석'이라는 이름의 유래이기도 한데, 회귀분석 결과 해석과도 밀접한 관련이 있습니다. 평균으로의 회귀 현상을 설명하기 위해 가상의 데이터로 실험하고 그 결과를.. 2024. 10. 18.
대격변 AI 시대, 한 권으로 끝내는 데이터과학, 확률, 통계, AI 특강 1. 들어가며 지금껏 나는 많은 데이터 관련 책을 읽고, 공부하고, 때로는 번역서를 출간하기도 했는데, 이 책은 번역서가 아니라 내가 집필한 책이라면 정말 좋았겠다는 욕심이 날 만큼 대단한 물건이었다. 처음 원서를 받고 장 제목 위주로 쑥 내용을 훑어보았을 때는 ‘내용이 너무 쉬운 거 아닌가?’ 하는 생각이 들었지만 번역을 위해 본격적으로 한 문장씩 내용을 음미하며 읽어나가기 시작한 순 간부터 마지막 장이 끝날 때까지, 저자들이 설정한 책의 기획 의도에 맞게 저술하기 위해 들인 노력, 그리고 데이터 분석과 통계에 관한 그들의 깊은 내공에 감탄을 멈출 수 없었다.  2. 책의 특징 흔히 “쉽게 쓰는 것이 가장 어렵다”고들 말한다. 그동안 이 말에 대해 이 성적으로는 동의하고 있었지만 정확한 사례를 경험한 .. 2024. 5. 22.
정말 쉬운 연관규칙 실습 정말 쉬운 연관규칙 알고리즘1. 들어가며 연관규칙은 장바구니 분석(market basket analysis)이라고도 하는데, 원래 마트의 거래 데이터(transaction data)를 분석하고자 하는 필요성에서 활발하게 탐구되었다. 다른 많은 머신러닝 알diseny.tistory.com 1. 들어가며 연관분석에 대한 이론을 배웠다면 이제 실습을 해보자. 먼저 관련 패키지와 실습 데이터를 로드한다.  library(arules)groceries  실행하면 다음과 같은 결과가 나오는데 중요한 의미를 이미지로 캡쳐 했다.   2. 데이터 탐색 처음 다섯개의 거래와 가장 거래가 빈번한 품목을 보자 inspect(groceries[1:5]) itemFrequency(groceries[ , 1:3]) 결과는.. 2024. 5. 21.
정말 쉬운 연관규칙 알고리즘 1. 들어가며 연관규칙은 장바구니 분석(market basket analysis)이라고도 하는데, 원래 마트의 거래 데이터(transaction data)를 분석하고자 하는 필요성에서 활발하게 탐구되었다. 다른 많은 머신러닝 알고리즘에 비해 연관규칙은 이해하기 쉽고, 나오는 결과물도 실용적이다. 하지만 결정적으로 공부하는 입장에서 단점은 제대로 된 거래 데이터를 만질 수 없기 때문에, 사실 연습만 하고 실전을 경험해 보기 어려운 알고리즘이기도 하다.     2. 연관규칙(association rule)이란?연관규칙을 통해 이런 일을 할 수 있다.  • 쇼핑몰에서 모자를 구매하는 고객의 10%는 선글라스를 동시에 구매한다.• 최근 상담을 한 고객은 한 달 내에 핸드폰 요금제를 중단할 가능성이 일반고객의 2.. 2024. 5. 20.
출구조사는 왜 틀리는가? 최근 두 번의 선거(20대 대선, 22대 대선)에서 출구 조사가 화제였습니다. 이에 대해 브런치에 쓴 글입니다.  출구조사는 왜 틀리는가?통계를 잘 모르는 사람들도 표본(샘플)이라는 말은 잘 안다. 전체를 조사할 수 없으니 일부만 뽑아서 조사하기 위해 필요하다. 추출한다, 또는 뽑는다는 말이 사물에는 잘 적용된다. 예를 들어brunch.co.kr 2024. 4. 27.