# naver search confirm # markdown number and equation 효과 크기(Effect Size)의 의미와 필요성 //google adsense
본문 바로가기
통계 이론

효과 크기(Effect Size)의 의미와 필요성

by 노마드분석가 2022. 2. 14.

1. 들어가며

기초 추론 통계 방법 중, 두 집단의 평균차이 검증(T-test)이 있다. 두 표본의 평균 차이가 모집단 차원에서도 있는 것인지 아니면 표본에서만 우연히 차이가 있는지 검증하는 방법이다. 많이 알려진 사실이지만 이 검증 방법은 원리상 표본이 충분히 크면 대부분 통계적으로 유의하다고 나온다. 그래서 통계적 유의성 뿐만 아니라 효과크기(Effect Size) 값도 함께 제시되는 것이 좋다.

 

관련글

 

t-test 밑바닥부터 이해하기

※ 관련글 확률, 확률변수 그리고 확률분포 1. 들어가며 통계학은 기술통계와 추론통계로 구분되는데, 기술통계와 추론통계를 연결해주는 것이 확률분포이다. 그런데 확률분포를 이해하기 위해

diseny.tistory.com

2. 효과크기란?

효과 크기 값은 Cohen's D라고 부르며 공식은 아래와 같이 간단하다. 

 

효과크기(d)  = ①두 표본 집단의 평균 차이 / ②추정된 표준편차

 

분자 ①은 두 표본 a, b 평균의 차이를 의미하기 때문에 쉽게 이해가 되지만 분모 ②는 부연 설명이 조금 필요한데, 표본 평균 차이의 분포를 알아야 한다. 

 

3. 표본 평균 차이의 분포 

정규분포하는 모집단 A에서 표본 a 그룹을 추출해 평균을 구하고, 정규분포하는 모집단 B에서 표본 b 그룹을 추출해서 평균을 구해,

 

mean(a) - mean(b) = (평균차이)

 

라는 값을 계산한다고 하고, 이 작업을 여러번 반복하면 다양한 평균차이 값을 나올 것이다. 이 평균 차이 분포를 <그림 1>로 표현할 수 있다. 이때 이 분포 상에서 위 식의 분모 ②는 이 분포의 표준편차를 의미한다. 수식적으로는 표본 a, b의 합동분산이다.  

 

[그림 1] 두 표본 평균 차이의 분포

 

4. 효과크기의 의미

효과크기 공식의 분자와 분모를 알았으니 이제 의미를 이해해보자. 만약 효과크기 = 1이면, 공식에 의해 분자와 분모가 같은 값이다. 

 

효과크기(d)  = ①두 표본 집단의 평균 차이 / ②추정된 표준편차 = 1 이면, 

①두 표본 집단의 평균 차이 = ②추정된 표준편차

 

두 표본의 평균차이가 평균 차이 분포에서의 표준편차와 같다는 말이므로 아래 <그림 2>와 같은 상황을 가정할 수 있다. 아래 그림의 빨간색 화살표(표준편차)의 크기는 <그림 1>의 빨간색 화살표와 동일하다.  

 

[그림 2] 두 모집단의 분포 형태

임의추출된 표본은 모집단을 닮았으므로 표본의 모집단은 빨간 화살표 크기 만큼 평균이 떨어져 있는 것이고, 이때 알려진 정규분포의 특성에 의해 A, B 분포가 위 그림과 같은 형태일 때, 겹치는 부분이 대략 61.7%이다.

 

따라서 효과크기의 의미를 일반적으로 정리하면, 

  • 효과크기(d) 값이 크면, 두 집단이 겹치는 부분이 작아 결론적으로 두 집단은 많이 다른 것이고,
  • 효과크기(d) 값이 작으면, 두 집단이 겹치는 부분이 많아서 두 집단은 많이 비슷하다는 말이다.  

일반적으로 효과크기(d)가 0.2 보다 작으면 작은 크기, 0.5이면 중간 크기, 0.8 이상은 큰 효과라고 말한다.  

 

5. 요약 및 결론 

T-test는 <그림 2>에서 표현하는 것 처럼 모집단에서도 평균 차이가 있는지 검증하는 것인데, 아주 미세한 차이가 있어도 어쨋거나 차이가 있는 것이기 때문에 표본이 많으면 통계적 유의성은 쉽게 획득할 수 있다. 그런데 실제 현실에서는 평균의 차이가 있다는 사실 자체가 중요한 것이 아니라 그 차이가 맥락상 얼마나 의미있게 큰지가 중요하다. 그런 의미를 파악하기 위해 사용하는 값이 효과크기이다.  

 

아래 글에서는 실제 R을 이용해 t-test와 효과크기 계산까지 하는 과정을 설명해 놓았다.

 

R을 이용한 t-test와 효과 크기 계산

관련글 t-test 밑바닥부터 이해하기 ※ 관련글 확률, 확률변수 그리고 확률분포 1. 들어가며 통계학은 기술통계와 추론통계로 구분되는데, 기술통계와 추론통계를 연결해주는 것이 확률분포이다.

diseny.tistory.com

 

반응형

댓글