# naver search confirm # markdown number and equation R을 이용해 상관계수 구하기 //google adsense
본문 바로가기
R_데이터 분석 기술

R을 이용해 상관계수 구하기

by 노마드분석가 2022. 4. 1.

관련글

 

상관관계와 상관계수

1. 들어가며 연속형 변수 x, y의 관계는 상관관계(correlation) 분석을 통해 2가지 사실을 알 수 있다. 관계의 방향 관계의 강도 보통 관계의 방향은 그래프를 그려 확인하고, 관계의 강도는 그래프로

diseny.tistory.com

 

1. 들어가며

상관계수의 개념에 대해서는 관련글을 참고하기 바란다. 이제 R을 이용해 상관계수를 구하고 간단하게 시각화하는 방법을 정리해보자. 

 

피어슨 상관계수는 연속형 변수간에서만 구할 수 있다. 연속형이 아닌 변수간의 상관관계를 구하는 방법도 있지만 이번 포스팅에서는 연속형 변수만을 다룬다. 예제 데이터로 iris 데이터를 이용하겠다. 

 

우선 iris 데이터의 변수 구조를 살펴보자. 4개의 연속형 변수와 하나의 factor 변수로 구성되어 있다는 것을 알 수 있다. 

 

 

2. 두 변수간의 상관관계

 

기본문법은 다음과 같다. 

 

cor(변수1, 변수2)
cor.test(변수1, 변수2) # 통계적 유의성까지 표시하려면

 

cor(iris$Sepal.Length,iris$Sepal.Width)
cor.test(iris$Sepal.Length,iris$Sepal.Width)

 

결과는 아래와 같다. Sepal.Length 와 Sepal.Width간의 상관계수는 -0.117로서 거의 상관관계가 없는 것으로 나온다. 두번째, 통계적 유의성까지 같이 표시한 코드에서는 녹색 마크 부분이 둘 간의 상관성이 없다는 영(귀무)가설을 기각하지 못하는 사실을 나타내고 있다. 

 

※ 영가설 관련글 : 

 

가설검증과 1종 오류

1. 들어가며 가설을 검증한다는 말은 검증하는 사람(분석가)이 명확한 근거를 갖고 있거나 정답을 알고 있다는 뉘앙스를 가진다. 그러나 검증이라는 표현보다는 결단을 내린다는 말이 사실에 더

diseny.tistory.com

 

 

반면 아래의 Petal.Width 와 Sepal.Width간의 상관계수는 -0.366이며 영가설을 기각해야 할 정도로 p 값이 낮으므로 둘 간의 상관관계가 있다는 대안가설을 선택해야 한다. 

 

 

3. 상관관계 시각화

 

무수히 많은 시각화 방법과 패키지가 있지만 가장 대표적인 것 3가지만 소개한다. 우선 iris 데이터에는 factor 변수가 하나 포함되어 있으므로 factor 변수(5번째 열)를 제외한 새로운 데이터 프레임을 만든다. 

 

iris_new = iris[ ,-5] #5번째 열 제외

 

(1) 기본 함수 pairs로 시각화

 

pairs(iris_new)

 

 

 

(2) GGally 패키지를 이용한 시각화

 

library(GGally)
ggpairs(iris_new)

 

 

(3) corrplot 패키지를 이용한 시각화

library(corrplot)
corrplot(cor(iris_new)) #상관계수행렬 값을 함수 인수로 넣음

 

 

 

관련글

 

편상관계수(partial correlation) 구하기

1. 들어가며 일반적으로 두 변수의 상관관계는 인과관계를 의미하지 않는다. 따라서 논리적으로 인과관계가 없는 변수들 간에도 기계적으로 상관계수를 구하면 높은 상관계수가 나올 수 있다.

diseny.tistory.com

 

반응형

댓글