관련글
1. 들어가며
회귀모델은 표본 데이터에 가장 잘 적합(fitted)된 모델이다. 이 말은 표본 데이터를 구성하는 모든 관측값이 회귀 모델을 구축하는데 사용되었다는 의미이다. 그런데 표본 중에 표본 데이터의 전체적인 특징과 크게 벗어나는 관측값이 포함되어 있다면 이런 값들을 모델을 만드는데 사용해야 할지 고민해 보아야 한다. 예를 들어 대한민국 20대의 평균 생활비를 추정하기 위해 표본을 1,000명 뽑았을 때, 그 표본에 재벌 자녀가 포함되어 있다면 표본으로 만든 회귀계수의 추정 오차가 클 수가 있을 것이다.
2. 이상값(outlier) VS 영향력 있는 관측값(influential value)
표본의 전체적인 특징과 많이 다른 개별 데이터 포인트는 이상값과 영향력 있는 값으로 구분할 수 있다. 두 값의 개념은 다음과 같다.
- 이상값 : 회귀모델 예측값과 크게 차이가 있는 값. 즉 잔차가 큰 값
- 영향력 있는 값 : 대부분의 표본과 많이 동떨어져 있는 값. 즉 회귀계수를 크게 변동시키는 값
이상값는 이해하는데 어려움이 없지만 영향력 있는 값은 추가적인 설명이 필요하다. <그림 1>을 통해 이상값과 영향력 있는 값의 차이를 살펴보자. 먼저 왼쪽 (a) 그래프에서 파란점은 선형회귀모델(대각선)과 상당히 많이 떨어져 있다. 따라서 다른 어떤 점보다 잔차가 크기 때문에 이상값으로 판단할 수 있다.
반면 오른쪽 (b)의 빨간점은 표본 그룹과 다소 멀리 떨어져 있고, 빨간점의 위치 때문에 대각선의 기울기(회귀모델 계수)에 큰 영향을 미치고 있다. 뭉쳐있는 그룹의 개별 관측값이 기울기에 미치는 영향보다 떨어져 있는 하나의 빨간점이 기울기 결정에 너무 큰 영향력을 발휘하고 있는 것이다.
3. 이상값 판별 기준
일반적으로 이상값은 표준잔차 보다 +, - 3보다 클 경우 일단 이상값으로 의심할 수 있다. 상대적으로 이상값 판정은 어렵지 않다.
4. 영향력 있는 값 판별 기준
개별 데이터의 영항력을 판단할 때 레버리지(leverage)라는 지표를 사용한다. <그림 2>에서 붉은색 계열의 레버리지를 생각해 보자. 왼쪽의 분홍색 점과 오른쪽의 빨간색 점은 기울기를 아래로 끌어 당기는 힘이 다르다는 것을 알 수 있다. 시소를 생각하거나 지렛대를 생각하면 된다.
일반적으로 레버리지 값을 계산할 때 Cook's Distance(cook의 거리) 방법을 이용한다. 이름의 유래에서 보듯 미국의 통계학자 Dennis Cook 이라는 사람이 만든 방법이다. 공식은 아래와 같다.
공식에서 왼쪽 항의 D는 i번째 관측값(데이터 포인트)의 cook 거리를 의미한다. 오른쪽 항에서 분자는 i번째 개별값을 포함한 회귀 모델의 예측값과 i번째 개별값을 제외한 회귀 모델의 예측값과의 차이를 모든 개별 값 만큼 계산해서 합한 값이다. 분모는 회귀계수의 개수(p) + 1과 회귀모델의 평균제곱오차와의 곱이다.
일반적으로 D값이 클 때는 해당 데이터를 모델 구축에 제외하는데 기준은 D> 4/n 또는 D>4/(n - p -1) 일 때다. 여기에서 n은 표본의 개수, p는 회귀모델의 회귀계수이다.
5. 이상값과 영향력있는 값 제외
이상값과 영향력 있는 값의 개념을 그림을 통해 구분하기는 했지만 그 경계가 확실한 것은 아니다. 따라서 R로 회귀분석을 했을 때는 잔차 VS 레버리지 도표를 제공하는데 이 두가지 기준으로 모델에서 제외할 값을 결정하게 된다. <그림 3>은 이전글 R 회귀분석 에서 Residuals vs Leverage 그래프만 따로 떼어낸 것이다.
세로축은 표준화된 잔차이고 오른쪽은 다른 지표로 계산된 레버리지, 빨간색 점선은 cook's distance이다. 결론적으로 3개의 지표를 통해 종합적으로 모델에서 제외할 개별 데이터 포인트(관측값)을 결정하게 된다. 그래프에서는 18, 82, 117 데이터 포인트가 문제가 될 수 있음을 보여주는데, cook's distance 기준을 벗어나는 값 즉, 빨간색 점선 밖으로 나간 값은 없다. 117값이 아슬아슬하게 경계선상에 있는데, 일반적으로 cook's distance 기준을 벗어나는 개별 값은 표준화된 잔차, 레버리지값 모두 기준을 벗어나는 경우다.
분석가의 판단에 따라 문제가 될 수 있는 개별 값을 제외하고 모델을 만든 후 적합도 등의 지수가 얼마나 증가하는지 확인하고 최종적으로 결정한다.
'통계 이론' 카테고리의 다른 글
F분포 어디에 쓰일까? (5) | 2022.04.21 |
---|---|
카이제곱 분포 이해하기 (4) | 2022.04.19 |
확률, 확률변수 그리고 확률분포 (2) | 2022.04.18 |
회귀진단 (0) | 2022.04.13 |
선형회귀분석 밑바닥부터 이해하기 (0) | 2022.04.01 |
상관관계와 상관계수 (0) | 2022.03.31 |
확인적 요인분석(CFA : Confirmatory Factor Analysis) (0) | 2022.03.30 |
댓글