# naver search confirm # markdown number and equation 회귀진단 //google adsense
본문 바로가기
통계 이론

회귀진단

by 노마드분석가 2022. 4. 13.

 

 

선형회귀분석 밑바닥부터 이해하기

관련글 상관관계와 상관계수 1. 들어가며 두 연속형 변수 X, Y에서 X가 변함에 따라 Y가 어떻게 변하는지 분석한다면 Y는 결과변수(반응변수)로 부르고 X는 설명변수(독립변수)로 부른다. 회귀 분

diseny.tistory.com

 

R 회귀분석

관련글 선형회귀분석 밑바닥부터 이해하기 선형회귀분석 밑바닥부터 이해하기 관련글 상관관계와 상관계수 1. 들어가며 두 연속형 변수 X, Y에서 X가 변함에 따라 Y가 어떻게 변하는지 분석한다

diseny.tistory.com

 

1. 들어가며

회귀모델을 만들었다면 회귀분석을 하기 위한 기본 가정을 점검해야 한다. 보통은 회귀모델의 예측값과 실제 값과의 오차인 잔차(residual)를 분석하여 진단한다. 회귀분석모델에서 잔차에 대한 기본 가정은 다음과 같다. 

 

y = a + bx + e

 

위 식에서 e는 다음과 같은 성질을 지녀야 한다. 

 

  • 독립성 : e1, e2, -------, en은 서로 독립이다. 
  • 정규성 : e1, e2, -------, en는 정규 분포한다. 
  • 등분산성 : e1, e2, -------, en에서 오차의 분산은 동일하다. 
  • 공선성배제(다중회귀에서만)

이러한 가정들이 필요한 이유는 표본에서 구한 회귀모델의 a, b를 이용해 모집단의 α와 β를 올바르게 추정하기 위함이다. 

 

2.  독립성 가정 

예를 들어 회귀모델에 x1, x2, -----, xn을 투입하고 e1, e2, -------, en을 구했을 때, e1, e2, -------, en가 서로 상관관계가 없어야 한다는 의미이다. 실질적으로는 x값이 시간적, 또는 공간적으로 서로 연관성이 있을 때 잔차도 체계적인 상관성을 갖게 될 수 있다. 보통은 오차항의 자기상관 관계를 살펴보는데 Durbin-Watson 검정 방법이 있다. 

 

3. 정규성 

회귀모델에서 오차는 평균이 0이고 분산은 모분산인 정규분포를 이룬다는 것을 전제로 한다.  아래 그림은 오차의 정규성을 설명하는 전형적인 그림인데 x=25, x=45에서의 회귀모델 예측값과 실제값의 차이(오차)는 평균 0을 중심으로 대칭하는 분포를 나타내야 한다는 의미다.  

 

출처 : https://sphweb.bumc.bu.edu/otlt/MPH-Modules/BS/R/R5_Correlation-Regression/R5_Correlation-Regression4.html

 

3. 등분산성

회귀모델에서 특정한 값 xi와 xn에서의 오차의 분산은 동일해야 한다는 의미다. 위의 그림에서도 각 x 값에서 오차는 정규분포하면서 동시에 분산(정규분포 곡선의 퍼짐 정도)도 동일한 것으로 가정하고 있다. 

4. R 통계분석에서의 오차의 가정 검증

R은 회귀모델을 만든 후 계산된 잔차들을 이용해 몇 가지 그래프를 제공한다. 아래 그림은 R에서 제공하는 전형적인 회귀진단 그래프인데 왼쪽 위 그래프(Residuals vs Fitted)는 오차의 등분산성, 오른쪽 위 그래프(Normal Q-Q)는 오차의 정규성을 검증하는 차트다. 아래 왼쪽 그래프(Sacle-Location)는 왼쪽 위 그래프의 y축 잔차를 표준화시킨 것으로 동일한 내용을 담고 있다. 아래 오른쪽 그래프(Residuals vs Leverage)는 이상값 및 특이값을 검증하는데 활용된다. 따라서 실질적으로 위의 두 그래프만 (Residuals vs Fitted, Normal Q-Q)보면 오차의 등분산성과 정규성을 확인할 수 있다.   

 

 

Residuals vs Fitted 그래프에서는 X축 Fitted values의 변화와 Y축 Residuals의 변화가 서로 평행하며 특별한 추세를 갖지 않으면 된다. 아래 그림에서 A는 등분산성을 만족하며 B의 경우에는 일정한 추세가 있으므로 등분산성을 만족시키지 못라고 있다. 

 

출처 : Strengthening statistical usage in marine ecology: Linear regression Inna Boldina, Peter G. Beninger

 

Normal Q-Q 그래프는 데이터 포이트가 대각선 위에 위치하면, 정규분포하는 오차이고 대각선을 많이 벗어나면 정규분포하지 않는 것을 의미하는데, 이 부분은 관련글을 참고하기 바란다. 

 

 

QQ Plot 직관적으로 이해하기

1. 기본 개념 QQ 플롯(Quantile-Quantile Plot)의 Quantile은 분위수라는 의미인데, 분위수는 데이터를 오름차순(내림차순)정렬한 뒤, 전체 데이터를 특정 개수로 나눌 때 기준이 되는 수다. 예를 들어 4분

diseny.tistory.com

 

5. 정규성 검정

QQ plot으로 대략적인 오차의 정규성을 판단할 수 있지만 구체적인 수치로 검증을 해야할 때는 Shapiro-Wilk의 정규성 검정을 하는 방법이 있다. R에서는 shapiro.test 함수가 이 기능을 제공한다. Shapiro-Wilk 정규성 검정 방법에서 귀무가설은 "데이터는 정규분포를 따른다"이다. p-value를 기준으로 정규성에 어긋나는지 판단할 수 있다. 

 

 

 

이상값과 영향력 있는 관측값 탐지

관련글 회귀진단 회귀진단 관련글 선형회귀분석 밑바닥부터 이해하기 선형회귀분석 밑바닥부터 이해하기 관련글 상관관계와 상관계수 1. 들어가며 두 연속형 변수 X, Y에서 X가 변함에 따라 Y가

diseny.tistory.com

 

 

반응형

댓글