1. 들어가며
머신러닝(AI 포함) 모델의 성능은 논문을 출간할 때 SOTA(Sate of the Art) 값이 중요하긴 하지만 현업에서 적용하고 운영할 때는 다양한 이유로 무조건 높은 값을 추구할 수 만은 없다. 특히 도메인에 따라 예측 모델이 학습하는 데이터의 양과 질에서 차이가 많이 나서 어떤 분야인지에 따라 현실적으로 기대할 수 있는 모델의 성능 지표는 다르다.
2. 관심 범주가 희소할 때의 모델 성능
예측 관심 범주의 발생 빈도가 대부분 희소하면 희소한 케이스 예측을 잘하는지 체크하기 위해서는 모델의 재현도(Recall)와 정밀도(Precision) 값이 중요하다. 예를 들어 의사가 정상인과 암환자를 진단할 때 정상인을 정상인으로 잘 진단하는 못지않게 암환자를 암환자로 잘 진단하는 것이 무척 중요하다.
처음 이 개념(재현도와 정밀도)을 접하는 사람들에게 제가 자주 비유하는 사례는 어부의 그물이다. 어부가 잡고 싶은 생선이 돔이라면(즉 예측하고 싶은 것이 돔이라면) 그물을 크고 넓게 펼치면 돔도 많이 잡히지만 다른 잡어들도 섞여들기 마련이다. 적당한 크기의 그물로 순도 높게 딱 돔만 잡고 싶지만 그러면 잡을 수 있는 돔의 숫자도 줄어든다. 즉 상충관계(trade off)가 있다.
1️⃣ 재현도 : 그물(모델)을 던져 현재 바다 속에 있는 전체 돔 중에 몇 %를 잡을 수 있을까?
2️⃣ 정밀도 : 한번 그물을 던져 잡은 물고기 중에 돔의 비율은 얼마인가?
3. 현실에서의 재현도와 정밀도
재현도는 당연히 100%에 가까우면 좋은 것이고, 정밀도가 이 모델을 현실에서 사용할지를 가늠하는 중요한 기준이 되는 경우가 많다. 일종의 ROI 인셈이다. 모델을 구축하는데 드는 비용대비 얼마나 모델을 사용함으로써 효용을 얻는지가 중요하다. 예를 들어 내가 있는 교육 분야에서는 중도에 자퇴하거나 제적 당하는 학생들을 방지하는 것이 중요하고, 이런 학생들을 중도탈락자라고 해서 관리를 한다.
전체 학생 중에서 중도탈락 비율이 대략 10%라면 한 명의 학생에 대해 임의로 판단하면 그 판단이 맞을 확률이 10%라는 말이다. 그런데 만약 모델을 이용했을 때 그 판단이 맞을 확률이 80%라면 모델없이 임의로 판단할 때에 비해 8배나 효용 가치가 높으니 충분히 현실에서 써 볼만한 가치가 있는 것이다. 글 속에 힌트가 있는데 교육 현장에서는 대략 정밀도 80% 이상을 목표 기준치로 보고 있는데, 분야에 따라서는 훨씬 더 높은 정밀도를 요구하기도 한다.

'통계 이론' 카테고리의 다른 글
평균의로의 회귀 (2) | 2024.10.18 |
---|---|
대격변 AI 시대, 한 권으로 끝내는 데이터과학, 확률, 통계, AI 특강 (0) | 2024.05.22 |
상관계수의 크기에 대한 감 잡기 (0) | 2024.04.22 |
로지스틱회귀와 친구되기(2) (0) | 2022.04.26 |
로지스틱회귀와 친구되기(1) (0) | 2022.04.26 |
분산분석(ANOVA) 이해하는 가장 좋은 방법(3) (0) | 2022.04.25 |
분산분석(ANOVA) 이해하는 가장 좋은 방법(2) (4) | 2022.04.22 |
댓글