# naver search confirm # markdown number and equation 자유도(Degree of Freedom)에서 자유로워 지기 //google adsense
본문 바로가기
통계 이론

자유도(Degree of Freedom)에서 자유로워 지기

by 노마드분석가 2022. 2. 6.

1. 들어가며

자유도는 통계학을 공부하다 보면 아마 제일 처음 만나는 알쏭달쏭한 개념이다. 최초로 등장하는 시기는 표본분산을 구할 때다. 표본으로 모분산을 추정할 때는 표본의 개수(n)가 아니라 자유도(n-1)로 제곱합(SS)를 나눠야 한다는 법칙.

 

2. 이상한 나라의 자유도

자유도에 대한 의문을 해결하고자 여러 정보를 찾다보면 책이나, 강의 등에서 대부분 왜 이름이 자유도(degree of freedom)인가?에 대한 설명은 많다. 위의 식에서 표본평균이 들어가는데, 이 표본평균을 계산해내기 위해 자유롭게 선택할 수 있는 표본의 개수가 자유도라는 것이다. 아...그런 자유를 말하는구나.. 그런데 더 근본적인 의문, 즉 "왜 공식에 자유도가 들어가야만 하는가?"에 관한 설명은 별로 없다. 

 

3. 해결책

어떤 내용을 학습할 때는 100% 이해는 못하더라도 대략적으로라도 논리적 흐름이 수긍되어야 다음 단계로 넘어가기에도 좋고 불편한 마음이 해소된다. 표본으로 모수를 추정할 때 자유도를 사용해야만 한다는데 그러한 논리를 받아들이는 방법에는 두 가지가 있다.

 

 

  • 그림으로 이해하기
  • 수식에 압살되어 찍소리 못하고 받아들이기

4. 그림으로 이해하기 

아래 그림처럼 모집단에서 임의 추출된 표본은 자연스레 모집단보다는 데이터간의 편차가 작다. 왜냐하면 모집단에서 평균에 가까운 값이 확률적으로 표본으로 많이 추출될 것이기 때문이다. 모집단의 양 극단 값이 덜 뽑힐 것이므로 퍼짐의 정도는 표본이 모집단 보다 좁다.

 

 

따라서 표본 데이터로 구한 분산으로 모분산을 추정할 때는 최대한 근접하게 추정하기 위해 분모를 작게 만들어(즉 n-1로 나눠서) 추정값이 더 커지도록 보정할 필요가 있다. 

 

5. 수식으로 해결하기  

그림으로 이해하는 방법은 그냥저냥 받아들이고 넘어갈 수 있는 수준이지만 왜 (n-2)는 안되냐는 등의 의문이 따라올 수 밖에 없다. 다음 방법은 결과로부터 따져 봤더니 그런 원인이 있어야 할 수 밖에 없다는 논리로 해결하는 것이다. 

위의 식은 표본분산의 기대값은 모분산(σ^2)과 동일하다는 공식이다. 정식으로 표현하자면 불편추정값이다. 이런 결과가 성립하기 위해서는 식에 자유도가 들어가야 한다고 증명되어 있으니 받아들이는 것이다. 아멘. 

 

6. 수식에 대한 이해

평균은 모두가 알 것이고 기대값은 확률변수의 평균을 말한다. 즉 데이터를 다룰 때는 평균이고 확률변수를 다룰 때는 기댓값으로 부른다. 모집단에서 n개의 데이터를 임의추출해서 분산을 구한다고 하면 그런 시행을 한번 할 때 마다 값(분산)은 달라질테니 변수라고 볼 수 있고, 값은 달라지겠지만 어떤 값이 많이 나오고 적게 나올지 확률이 붙어 있으니 확률변수인 것이다. 위의 공식은 이 확률변수를 무한히 시행한다고 가정하면 그 평균이 바로 모분산이더라는 것이다. 단 식에 n이 아니라 자유도(n-1)를 넣었을 때만 

 

7. 자유도의 수식 정의

물론 자유도는 n-1만 있지 않다. n개의 표본을 이용해 모수를 불편 추정할 때, 모수(ex 모분산) 대신 표본 통계량(ex 표본평균)을 사용하면 이를 제약조건이라고 하는데,

자유도 = (표본의 개수 제약 조건의 수)

로 정의한다. 이 말은 추정하려는 모수에 따라 자유도도 n-1, n-2 또는 n-k가 될 수 있다는 의미다.  구하는 모수마다 위에서 본 식과 같은 종류의 증명식이 있을텐데, 하나의 유형을 통해 논리적인 흐름을 받아 들였다면 굳이 힘들게 다른 식을 매번 증명할 필요는 없을 듯.   

 

8. 부스터 샷

믿음이 더 필요한 사람들은 위 식의 증명 과정을 따라가는 순례자의 길을 떠나면 된다. 식 중간에 점핑하는 부분에는 연결 고리를 넣어 두었다. 

관련글

 

제곱합(Sum of Squares : SS) 공식

1. 기본개념 X = { x1 , x2 , ………, xn  } 일 때 , 데이터 X의 분산을 구하는 공식은 다음과 같다. 중학교(고등학교?)에서 배우는 식이다. 위의 식에서 분자 부분을 제곱합(Sum of Squares : SS)이라고 부

diseny.tistory.com

 

반응형

댓글