관련글
1. 들어가며
상관계수의 개념에 대해서는 관련글을 참고하기 바란다. 이제 R을 이용해 상관계수를 구하고 간단하게 시각화하는 방법을 정리해보자.
피어슨 상관계수는 연속형 변수간에서만 구할 수 있다. 연속형이 아닌 변수간의 상관관계를 구하는 방법도 있지만 이번 포스팅에서는 연속형 변수만을 다룬다. 예제 데이터로 iris 데이터를 이용하겠다.
우선 iris 데이터의 변수 구조를 살펴보자. 4개의 연속형 변수와 하나의 factor 변수로 구성되어 있다는 것을 알 수 있다.
2. 두 변수간의 상관관계
기본문법은 다음과 같다.
cor(변수1, 변수2) cor.test(변수1, 변수2) # 통계적 유의성까지 표시하려면 |
cor(iris$Sepal.Length,iris$Sepal.Width)
cor.test(iris$Sepal.Length,iris$Sepal.Width)
결과는 아래와 같다. Sepal.Length 와 Sepal.Width간의 상관계수는 -0.117로서 거의 상관관계가 없는 것으로 나온다. 두번째, 통계적 유의성까지 같이 표시한 코드에서는 녹색 마크 부분이 둘 간의 상관성이 없다는 영(귀무)가설을 기각하지 못하는 사실을 나타내고 있다.
※ 영가설 관련글 :
반면 아래의 Petal.Width 와 Sepal.Width간의 상관계수는 -0.366이며 영가설을 기각해야 할 정도로 p 값이 낮으므로 둘 간의 상관관계가 있다는 대안가설을 선택해야 한다.
3. 상관관계 시각화
무수히 많은 시각화 방법과 패키지가 있지만 가장 대표적인 것 3가지만 소개한다. 우선 iris 데이터에는 factor 변수가 하나 포함되어 있으므로 factor 변수(5번째 열)를 제외한 새로운 데이터 프레임을 만든다.
iris_new = iris[ ,-5] #5번째 열 제외
(1) 기본 함수 pairs로 시각화
pairs(iris_new)
(2) GGally 패키지를 이용한 시각화
library(GGally)
ggpairs(iris_new)
(3) corrplot 패키지를 이용한 시각화
library(corrplot)
corrplot(cor(iris_new)) #상관계수행렬 값을 함수 인수로 넣음
관련글
'R_데이터 분석 기술' 카테고리의 다른 글
R 주성분 분석 (0) | 2022.04.07 |
---|---|
R 다중공선성 VIF 값 계산 (0) | 2022.04.04 |
wide & long 데이터 형태 전환 (0) | 2022.04.04 |
데이터 결합(join) by dplyr 패키지 (0) | 2022.04.01 |
변수별 부분 집계 by dplyr (0) | 2022.03.31 |
R 전처리 최강자 dplyr 패키지 (0) | 2022.03.31 |
R_요인분석(psych 패키지) (0) | 2022.03.03 |
댓글