추론통계10 표본 크기 결정법을 이해하는 가장 좋은 방법 1. 들어가며“조사 대상은 몇 명이면 충분할까?”“샘플이 너무 적으면 통계적으로 의미가 없지 않을까?”“그렇다고 너무 많이 조사하면 시간도 비용도 낭비인데...” 통계 분석을 하다 보면 '얼마나 많은 데이터를 모아야 하는가?' 라는 질문에 자주 부딪힌다. 바로 이때 필요한 개념이 표본 크기 결정(Sample Size Calculation) 이다. 신뢰구간, 유의수준, 검정력 등과 깊이 연결된 개념으로, 데이터를 얼마나 모을지 전략적으로 결정하기 위해 꼭 알아야 할 통계 기초다.2. 왜 표본 크기 결정이 중요한가표본이 너무 적으면 결과가 흔들리고 신뢰할 수 없고, 표본이 너무 많으면 불필요한 시간을 쓰고, 자원을 낭비하게 된다.작은 표본 문제: 통계적 유의성을 확보하기 어렵고, 신뢰구간이 넓어진다.너무 큰.. 2025. 3. 22. A/B 테스트를 통한 통계적 사고 과정 따라가기 1. 들어가며추론 통계는 기술 통계에서 얻은 결과를 전체 모집단 차원으로 확대해서 그 결과를 일반화할 수 있는지 타진해보는 과정이다. 개인적으로 추론 통계의 핵심을 이해하는데는 두 집단의 비교 사례가 가장 좋다고 생각한다. 실제로 통계를 잘 모르는 디자인 전공 학생들에게 통계의 핵심을 어떻게 잘 전달할까 고민하다가 다음과 같은 과정으로 설명하면 좋겠다고 생각해서 나온 글이다. 2. A/B 테스트에서 묻는 질문어떤 디자인이 더 좋은 디자인인가?에 대한 질문에는 과학적으로 답할 수 없다. 왜냐하면 주관적인 영역이기 때문이다. 하지만 어떤 디자인이 목표를 달성하는데 더 좋은가? 라는 질문으로 바뀌면 정답을 구할 수 있다. 여기서 목표란 쇼핑몰의 구매전환율, 특정 메뉴 클릭 비율, 사이트 재방문 비율 등이다... 2024. 10. 2. 출구조사는 왜 틀리는가? 최근 두 번의 선거(20대 대선, 22대 대선)에서 출구 조사가 화제였습니다. 이에 대해 브런치에 쓴 글입니다. 출구조사는 왜 틀리는가?통계를 잘 모르는 사람들도 표본(샘플)이라는 말은 잘 안다. 전체를 조사할 수 없으니 일부만 뽑아서 조사하기 위해 필요하다. 추출한다, 또는 뽑는다는 말이 사물에는 잘 적용된다. 예를 들어brunch.co.kr 2024. 4. 27. 로지스틱회귀와 친구되기(1) 선형회귀분석 밑바닥부터 이해하기관련글 상관관계와 상관계수 1. 들어가며 연속형 변수 x, y의 관계는 상관관계(correlation) 분석을 통해 2가지 사실을 알 수 있다. 관계의 방향 관계의 강도 보통 관계의 방향은 그래프를 그려 확인diseny.tistory.com 1. 들어가며회귀분석에서는 결과변수가 연속형 변수이었지만 결과변수가 범주형 변수일 때도 있다. 아래 표는 공부 시간, 시험 성적, 합격 여부(합격 : 1, 불합격 : 0) 데이터이다. 공부시간시험성적합격여부12501260…………..127023002310…………..910019991 아래 1>의 왼쪽 그래프는 결과 변수인 시험 성적이 연속형 변수이고 0부터 100까지 여러 범위에 걸쳐 분포하지만 오른쪽 그림은 결과 변수가 범주형 변수라서.. 2022. 4. 26. 분산분석(ANOVA) 이해하는 가장 좋은 방법(3) 1. 들어가며이전글(아래 참고)은 세 집단의 차이를 비교하는 일원분산분석(one way anova)을 설명했다. 분산분석(ANOVA) 이해하는 가장 좋은 방법(2)※ 이전글 분산분석(ANOVA) 이해하는 가장 좋은 방법(1) 1. 들어가며 세 집단 이상의 비교에는 아노바(ANOVA)를 이용하는데 ANOVA는 Analysis of Variance의 줄임말이며 우리말로는 분산분석이다. 두 집단이diseny.tistory.com 이번에는 세 집단마다 하위 범주가 있는 경우를 생각해 보자. 통계학 용어로 하자면 독립변수가 2개 존재하는 이원분산분석(two way nova)을 의미한다. 아래 표를 보면 A, B, C 세 집단에 하위 범주인 성별(남, 녀)이 구분되어 있다. A, B, C를 편의상 혈액형이라고 하.. 2022. 4. 25. 분산분석(ANOVA) 이해하는 가장 좋은 방법(1) 1. 들어가며세 집단 이상의 비교에는 아노바(ANOVA)를 이용하는데 ANOVA는 Analysis of Variance의 줄임말이며 우리말로는 분산분석이다. 두 집단이든 세 집단이든 각 집단의 평균을 비교해, 어디가 제일 높고 낮은지 확인하면 충분하다. 그런데 표본 데이터에서의 차이가 통계적으로 유의한지 검증해야 표본의 결과를 일반화할 수 있는데 이때 분산을 이용해 통계적 유의성을 검증하기 때문에 분산분석이라고 부른다. 두 집단 비교에서는 평균 차이를 이용했지만 세 집단 이상에서는 분산으로 통계적 유의성을 확인한다는 것에 유의해야 한다. 2. 두 집단의 평균 차이를 여러 번 하지 못하는 이유A, B, C 세 집단이 있다면 A : B, A : C, B : C를 각각 비교하면 되지 않겠냐고 생각할 수.. 2022. 4. 22. 이전 1 2 다음