이전글
1. 들어가며
탐색적 데이터 분석(EDA : Exploratory Data Analysis)는 데이터 분석 초기 단계에서 매우 중요하다. 분석가가 데이터를 받아 처음 작업할 때는 데이터의 구조와, 특징, 분포, 결측값 등에 대해 재빨리 파악을 하고 더 깊이 분석해야 할 사항을 판단해야 한다. R을 이용해 다양한 방법으로 EDA 수행할 수 있는데, 그래픽 도구 위주의 유용한 패키지를 소개한다.
2. DataExplorer
DataExplorer 패키지에서 제공하는 몇 가지 유용한 함수들을 살펴보자.
(1) 결측값 시각화
기본적으로 결측값은 summary 함수로 파악할 수 있다.
library(MASS) # survey 데이터를 이용하기 위해
summary(survey)
결과를 보면 변수별 NA'S 개수가 출력될 것이다. 이 결측값 결과를 깔끔한 그래프로 그려주는 함수가 있다. 아래 코드를 실행하면 결측값 그래프가 생성된다.
library(DataExplorer)
plot_missing(survey)
<그림 1>을 보면 변수별 결측값 비율 값을 시각화 해준다. Pulse 변수에는 결측값이 전체 18.99%라고 나타났다.
(2) 히스토그램과 밀도 그래프
아래 코드를 실행하면 양적 변수만 자동으로 선별해 히스토그램과 밀도 함수를 그려준다.
plot_histogram(iris)
plot_density(iris)
범주형 변수(factor)는 plot_bar 함수를 이용한다. 코드를 실행하면 범주형 변수만 자동으로 선별해서 차트를 그려준다.
plot_bar(iris)
(3) 변수간 상관관계 시각화
plot_correlation는 숫자형 변수만 자동으로 추출해 상관관계를 예쁘게 그려준다.
plot_correlation(iris, type = 'continuous')
(4) 자동 Report 생성
이 패키지의 재미있는 기능 중에 create_report가 있는데, 탐색적인 분석을 자동으로 수행하고 결과를 마크다운 형식의 html 형식의 리포트를 자동 생성 해준다.
create_report(iris)
코드를 실행하면 아래와 같이 html 문서를 웹 브라우저로 자동으로 생성해 준다.
다음글
'R_패키지' 카테고리의 다른 글
R 중복값을 갖는 행(row) 데이터 제거 (0) | 2022.05.16 |
---|---|
R 결측값 시각화 (0) | 2022.05.13 |
createDummyFeatures (0) | 2022.05.02 |
excel.link (0) | 2022.03.02 |
댓글