통계 이론48 신뢰구간을 이해하는 가장 좋은 방법 1. 들어가며설문조사 결과 “후보 A의 지지율은 52%, 신뢰구간 95%, ±3%”라는 말을 본 적이 있을 것이다. 또는 “이 제품의 평균 만족도는 4.1점이고, 95% 신뢰구간은 (3.8, 4.4)다”처럼 결과에 범위를 붙여 말하기도 한다. 이때 등장하는 신뢰구간(Confidence Interval) 은 통계 추론에서 핵심적인 개념이다. 하지만 “95% 확신한다”는 말이 '모집단 평균이 이 안에 있다'는 뜻인가? 아니면 '표본에서 이런 결과가 나올 확률이 95%라는 뜻인가?' 헷갈리기 쉽다.이 글에서는 신뢰구간이 무엇이고, 왜 필요한지, 어떻게 해석해야 하는지를 정확하고 직관적으로 정리해본다.2. 왜 신뢰구간이 필요한가우리는 보통 전체 모집단을 조사하지 못하고 일부 표본만을 조사한다.예를 들어, 전체 .. 2025. 3. 22. 카이제곱 검정을 이해하는 가장 좋은 방법 1. 들어가며데이터 분석을 하다 보면 "두 범주형 변수 사이에 관련이 있을까?"를 알고 싶은 경우가 생긴다. 예를 들어, 성별에 따라 제품 선호도가 다른가? 교육 수준에 따라 투표 성향이 다른가?와 같은 질문이다. 이때 사용하는 대표적인 통계적 방법이 카이제곱 검정(Chi-Square Test) 이다. 평균을 다루는 t검정이나 ANOVA와 달리, 카이제곱 검정은 빈도(frequency) 를 이용해 검정한다는 점에서 독특하다.2. 왜 평균 대신 빈도로 검정할까?t검정이나 ANOVA는 연속형 변수(예: 키, 몸무게, 점수 등)의 평균 차이를 비교할 때 사용한다. 하지만 범주형 변수는 '사과', '바나나', '포도'처럼 이산적이고 순서 없는 값이기 때문에 평균 자체가 의미 없다. 예를 들어 남자 30명 중 2.. 2025. 3. 22. 상관분석(Correlation Analysis)을 이해하는 가장 좋은 방법 1. 들어가며데이터 분석을 하다 보면 A와 B가 관련이 있는지 알고 싶을 때가 있다. 예를 들어, 공부 시간과 시험 성적, 운동량과 체중 변화, 광고비와 매출 간의 관계를 알고 싶은 경우가 그렇다. 이때 두 변수 간의 관련성을 수치로 나타내는 분석이 바로 상관분석(Correlation Analysis) 이다. 많은 사람들이 "상관관계가 있다"는 말을 쉽게 하지만, 이것이 정확히 어떤 의미이고 어떻게 계산하며 어떻게 해석해야 하는지는 모호할 수 있다. 이번 글에서는 상관분석의 의미와 해석 방법을 함께 정리해보자.2. 상관이란 무엇인가?상관관계란, 두 변수의 값이 얼마나 함께 움직이는지를 나타내는 개념이다. A가 증가하면 B도 증가하거나(A와 B가 같은 방향), A가 증가할 때 B는 감소한다면(서로 반대 방.. 2025. 3. 22. 예측 모델의 재현도(Recall)와 정밀도(Precision) 1. 들어가며 머신러닝(AI 포함) 모델의 성능은 논문을 출간할 때 SOTA(Sate of the Art) 값이 중요하긴 하지만 현업에서 적용하고 운영할 때는 다양한 이유로 무조건 높은 값을 추구할 수 만은 없다. 특히 도메인에 따라 예측 모델이 학습하는 데이터의 양과 질에서 차이가 많이 나서 어떤 분야인지에 따라 현실적으로 기대할 수 있는 모델의 성능 지표는 다르다. 2. 관심 범주가 희소할 때의 모델 성능 예측 관심 범주의 발생 빈도가 대부분 희소하면 희소한 케이스 예측을 잘하는지 체크하기 위해서는 모델의 재현도(Recall)와 정밀도(Precision) 값이 중요하다. 예를 들어 의사가 정상인과 암환자를 진단할 때 정상인을 정상인으로 잘 진단하는 못지않게 암환자를 암환자로 잘 진단하는 것이 무척.. 2025. 1. 11. 평균의로의 회귀 1. 들어가며 노벨 경제학상을 수상하기도 했던 심리학자 대니얼 카너먼(Daniel Kahneman)은 명저 '생각에 관한 생각(Thinking, Fast and Slow)'에서 평균으로의 회귀 현상에 대한 좋은 사례를 소개합니다. 그가 이스라엘 공군사관학교에서 강의를 할 때였는데, 베테랑 교관 한 명이생도들이 비행을 잘못했을 때 벌을 주면 대개 다음 비행에서 잘 한다며 보상보다 벌이 더 효과가 좋다는 주장을 합니다. 하지만 대니얼 카너먼은 그런 현상은 단지 평균으로의 회귀 현상일뿐이라고 설명합니다. 평균으로의 회귀(Regression) 현상은 '회귀분석'이라는 이름의 유래이기도 한데, 회귀분석 결과 해석과도 밀접한 관련이 있습니다. 평균으로의 회귀 현상을 설명하기 위해 가상의 데이터로 실험하고 그 결과를.. 2024. 10. 18. A/B 테스트를 통한 통계적 사고 과정 따라가기 1. 들어가며추론 통계는 기술 통계에서 얻은 결과를 전체 모집단 차원으로 확대해서 그 결과를 일반화할 수 있는지 타진해보는 과정이다. 개인적으로 추론 통계의 핵심을 이해하는데는 두 집단의 비교 사례가 가장 좋다고 생각한다. 실제로 통계를 잘 모르는 디자인 전공 학생들에게 통계의 핵심을 어떻게 잘 전달할까 고민하다가 다음과 같은 과정으로 설명하면 좋겠다고 생각해서 나온 글이다. 2. A/B 테스트에서 묻는 질문어떤 디자인이 더 좋은 디자인인가?에 대한 질문에는 과학적으로 답할 수 없다. 왜냐하면 주관적인 영역이기 때문이다. 하지만 어떤 디자인이 목표를 달성하는데 더 좋은가? 라는 질문으로 바뀌면 정답을 구할 수 있다. 여기서 목표란 쇼핑몰의 구매전환율, 특정 메뉴 클릭 비율, 사이트 재방문 비율 등이다... 2024. 10. 2. 이전 1 2 3 4 5 ··· 8 다음