# naver search confirm # markdown number and equation 상관계수의 크기에 대한 감 잡기 //google adsense
본문 바로가기
통계 이론

상관계수의 크기에 대한 감 잡기

by 노마드분석가 2024. 4. 22.

 

 

상관관계와 상관계수

1. 들어가며 연속형 변수 x, y의 관계는 상관관계(correlation) 분석을 통해 2가지 사실을 알 수 있다. 관계의 방향 관계의 강도 보통 관계의 방향은 그래프를 그려 확인하고, 관계의 강도는 그래프로

diseny.tistory.com

 

1. 들어가며

상관계수 값은 공식에 의해 -1에서 +1 사이에 있다는 것은 잘 알고 있는 사실이다. 그렇다면 실제 현장에서 어느 정도면 상관계수가 크다, 또는 작다고 말할 수 있을까? 우선 상관계수의 값과 산점도와의 관계를 유심히 살펴보는 것이 중요하다. 산점도를 보면 두 데이터(변수)가 시각적으로 어느 정도 관계가 강한지 대략 눈으로 볼 수 있기 때문이다. 

 

위키피디아에 나오는 꽤 유용한 그림을 먼저 보자. 위의 첫번째 줄은 구체적인 상관계수에 따라 대략 산점도를 그렸을 때 어떤 형태인지 보여주고 있고 아래 두 행은 상관계수가 1인 것과 0인 것이 어떤 의미인지 재미있게 설명해 주고 있다. 

 

출처 : 위키피디아

 

 

2. 상관계수의 크기에 대한 사회적 합의

상관계수가 어느정도면 크다고 말할 수 있는지는 데이터의 출처에 따라 다르다. 이공계나 자연과학 쪽에서 얻을 수 있는 데이터들은 대부분 높은 상관계수를 자주 얻을 수 있지만 인문사회과학 쪽에서는 데이터가 측정하는 것이 사람에 대한 것이거나 추상적이고 정의적인 개념이기 때문에 높은 상관관계를 얻기 어렵다. 

 

인문사회과학 쪽에서는 대략 0.6을 기준으로 상관계수가 그 이상이면 강한 상관관계라고 인정한다. 그런데 실제로 설문 조사 데이터나 다른 관측 데이터를 분석해 보면 0.6이라는 숫자는 잘 만나기 어렵다. 그러니 인문사회 쪽에서 실험이나 관측 데이터를 분석했을 때 상관계수가 높지 않다고 자책할 필요는 없다. 그게 정상이다.

 

학술적인 논문을 쓴다면 0.6을 기준으로 분석 결과에 대한 주장의 논지를 약간 다르게 서술해야 할 수도 있다. 그러니까 0.6 이상이면 간단하게 서술하면 되지만 애매하게 0.4 근처에 나오면 분석 결과에 대해 이런저런 저자 나름의 의미를 추가하려고 할 것이다.    

 

3. 여담

출처가 명확하지 않지만 미국의 통계학 교과서에 미국 성인의 키와 몸무게의 상관계수가 대략 0.4라는 말이 있다. 실제로 키와 몸무게에 관한 여러 논문을 보면 대략 0.4를 기준으로 값이 퍼져있다. 위의 그림에서 0.4에 해당하는 산점도와 평소 여러분이 느끼는 키와 몸무게의 비례성에 대해 생각한다면, 어떤 데이터로 분석한 상관계수에 대해 더 구체적이고 현실적인 감을 잡을 수 있을 것이다. 

 

 

반응형

댓글