1. 들어가며
데이터 분석을 하다 보면 A와 B가 관련이 있는지 알고 싶을 때가 있다. 예를 들어, 공부 시간과 시험 성적, 운동량과 체중 변화, 광고비와 매출 간의 관계를 알고 싶은 경우가 그렇다. 이때 두 변수 간의 관련성을 수치로 나타내는 분석이 바로 상관분석(Correlation Analysis) 이다. 많은 사람들이 "상관관계가 있다"는 말을 쉽게 하지만, 이것이 정확히 어떤 의미이고 어떻게 계산하며 어떻게 해석해야 하는지는 모호할 수 있다. 이번 글에서는 상관분석의 의미와 해석 방법을 함께 정리해보자.
2. 상관이란 무엇인가?
상관관계란, 두 변수의 값이 얼마나 함께 움직이는지를 나타내는 개념이다. A가 증가하면 B도 증가하거나(A와 B가 같은 방향), A가 증가할 때 B는 감소한다면(서로 반대 방향), 두 변수는 서로 관련이 있다고 말할 수 있다. 그런데, 단순히 같이 움직인다는 ‘느낌’만으로는 부족하다. 그래서 우리는 그 움직임의 정도를 상관계수(correlation coefficient) 라는 수치로 표현한다.
3. 상관계수의 의미
대표적인 상관계수는 피어슨 상관계수(Pearson’s r) 이다. 이 값은 -1부터 +1 사이의 값을 가지며 다음과 같이 해석된다:
- r = +1 : 완벽한 양의 상관관계 (A↑ → B↑)
- r = -1 : 완벽한 음의 상관관계 (A↑ → B↓)
- r = 0 : 전혀 상관없음
예를 들어 r = 0.8이라면 "상당히 강한 양의 상관관계가 있다"고 해석한다. 단, 상관은 인과가 아님에 주의해야 한다. 즉, A와 B가 함께 움직인다고 해서 A가 B를 원인으로 만든다는 뜻은 아니다.
4. 상관계수는 어떻게 계산할까?
피어슨 상관계수의 계산식은 다음과 같다:
$$ r=\frac{공분산(X, Y)}{표준편차(X) \cdot 표준편차(Y)} $$
여기서 중요한 개념이 하나 등장한다: 공분산(covariance).
공분산은 두 변수의 변동이 같은 방향인지 아닌지를 나타내는 값이다. 단, 공분산은 원래 단위의 영향을 받기 때문에 크기 비교가 어렵다. 이를 보정하기 위해 표준편차로 나눈 것이 상관계수다.
5. 예시로 이해하기
예를 들어, 다음과 같은 데이터가 있다고 하자. 공부시간(X)과 시험성적(Y)
1시간 | 50점 |
2시간 | 60점 |
3시간 | 70점 |
4시간 | 85점 |
이 경우 공부 시간이 늘어날수록 시험 성적이 높아지는 양상이 보인다. 실제로 상관계수를 계산하면 r ≈ 0.98 정도로, 매우 강한 양의 상관관계가 나타난다.
6. 통계적 유의성 검정
그렇다면 이 상관계수가 단순히 표본에서의 우연한 결과인지, 아니면 모집단에서도 성립하는지 검정하려면 어떻게 할까?
이때는 상관계수에 대한 유의성 검정을 수행한다.
- 귀무가설(H0): "두 변수는 상관이 없다" (r = 0)
- 대립가설(H1): "두 변수는 상관이 있다" (r ≠ 0)
t-통계량을 이용해 계산한 후, 유의수준 0.05 등 기준에 따라 해석하면 된다.
7. 마치며
상관분석은 두 변수 간의 관계를 파악하는 아주 유용한 도구이지만, 상관이 곧 인과라는 오해는 항상 경계해야 한다. 또한 상관계수가 0이라고 해서 관계가 전혀 없다고 단정할 수는 없다. 비선형(non-linear) 관계일 수도 있기 때문이다.
'통계 이론' 카테고리의 다른 글
표본 크기 결정법을 이해하는 가장 좋은 방법 (0) | 2025.03.22 |
---|---|
신뢰구간을 이해하는 가장 좋은 방법 (1) | 2025.03.22 |
카이제곱 검정을 이해하는 가장 좋은 방법 (0) | 2025.03.22 |
예측 모델의 재현도(Recall)와 정밀도(Precision) (0) | 2025.01.11 |
평균의로의 회귀 (2) | 2024.10.18 |
A/B 테스트를 통한 통계적 사고 과정 따라가기 (0) | 2024.10.02 |
대격변 AI 시대, 한 권으로 끝내는 데이터과학, 확률, 통계, AI 특강 (0) | 2024.05.22 |
댓글