1. 기본개념
아래의 식과 같이 둘 이상의 변수(x1, x2, ...., xn)를 투입한 선형회귀 분석을 다중회귀 분석이라고 한다.
일반적으로 하나의 설명변수(x1)는 다른 설명변수(x2)와 독립적으로 반응변수(y)에 영향을 미친다고 보지만 두 변수가 상호작용을 일으켜 반응변수(y)에 더 크게 영향을 미칠 수 있다.
예를 들어 어떤 공장에서 생산되는 제품의 수를 반응변수(y)라고 하면 반응변수(y)는 근로자의 수(x1)와 공장설비(x2)에 영향을 받을 것이다. 그런데 근로자의 수(x1)가 늘어나도 공장설비(x2)가 받쳐주지 않으면 작업 효율이 높지 않다. 즉, 공장설비(x2)가 늘어나면서 동시에 근로자 수(x1)가 늘어나면 이 두개의 변수가 시너지 효과를 일으켜 생산 제품 수에 더 크게 영향을 미치게 될 것으로 예상가능하다.
2. 상호작용항
상호작용항이 포함된 다중회귀식은 아래와 같다. 원래의 식에 두 변수(x1, x2)를 곱하고 계수(β3)를 곱한 항을 추가하면 된다.
상호작용항의 의미를 수식으로만 음미해 보자. 위의 식에서 x1이 공통인 부분을 다시 정리하면 아래와 같이 바뀐다.
원래는 x1이 한 단위 변하면 계수(β1)만큼 y에 영향을 주었지만 이제 x1이 변하면 (β1+β2*x2)만큼 영향을 주게 되었다.
x1의 계수가 β1--->(β1+β2*x2)으로 바뀐 것이다. 그런데 바뀐 계수에 x2가 포함되어 있다. 따라서 x2가 증가하면서 x1이 증가하면 반응변수 y에 더 크게 영향을 주게 되었다.
3. 질적변수를 포함하는 상호작용항
위의 사례는 x1, x2가 둘다 연속형 변수였을 때의 이야기다. x2가 질적변수일 때의 경우를 보자.
x2가 질적변수라면 x2=0 또는 x2=1 뿐이다.
(1)상호작용항이 없을 때
식이 x2를 포함하지만 값이 0 또는 1이므로 x2의 값에 따라 y의 절편이 다를 뿐 기울기는 같다.
(2)상호작용항이 있을 때
x2의 값에 따라 절편이 β2만큼 차이가 나고 기울기도 다르다. 즉 x2 값이 1이면서 x1과 상호작용이 있을 경우 절편도 크고 x1이 증가할 때 y에 미치는 기울기의 크기도 더 크다는 것을 알 수 있다.
4. 상호작용효과의 효과와 통계적 유의성
상호작용 효과가 있는지는 모델의 결정계수(R2)값이 상호작용항이 없을 때에 비해 증가했는지 보면 되고 통계적으로 유의한지는 상호작용항 회귀계수 t 검정을 통해서 판정하면 된다.
계수 | 표준편차 | t-통계량 | P값 | |
절편 | 6.75 | 0.25 | 27 | < 0.000 |
x1 | 0.6 | 0.3 | 12 | <0.0000 |
x2 | 0.8 | 0.2 | 3 | <0.0004 |
x1*x2 | 0.5 | 0.1 | 18 | < 0.001 |
Reference
An Introduction to Statistical Learning: with Applications in R (by Gareth James , Daniela Witten , et al.)
관련글
'통계 이론' 카테고리의 다른 글
효과 크기(Effect Size)의 의미와 필요성 (2) | 2022.02.14 |
---|---|
자유도(Degree of Freedom)에서 자유로워 지기 (6) | 2022.02.06 |
제곱합(Sum of Squares : SS) 공식 (0) | 2022.02.01 |
QQ Plot 직관적으로 이해하기 (3) | 2022.01.30 |
도구의 신뢰도 측정(크론바흐 알파) (1) | 2022.01.26 |
탐색적 요인분석(EFA : Exploratory Factor Analysis) (0) | 2022.01.22 |
1. 5 데이터 과학 (0) | 2020.06.22 |
댓글