# naver search confirm # markdown number and equation DataExplorer //google adsense
본문 바로가기
R_패키지

DataExplorer

by 노마드분석가 2022. 4. 8.

이전글

 

excel.link

1. 들어가며 R에서 전처리된 데이터, 또는 분석 결과를 엑셀로 이동해 리포트를 완성해야 할 경우가 많다. 이때 "excel.link"는 매우 간편하게 활용할 수 있는 패키지다. 2. 코드 library(excel.link) # (1) xl

diseny.tistory.com

1. 들어가며

탐색적 데이터 분석(EDA : Exploratory Data Analysis)는 데이터 분석 초기 단계에서 매우 중요하다. 분석가가 데이터를 받아 처음 작업할 때는 데이터의 구조와, 특징, 분포, 결측값 등에 대해 재빨리 파악을 하고 더 깊이 분석해야 할 사항을 판단해야 한다. R을 이용해 다양한 방법으로 EDA 수행할 수 있는데, 그래픽 도구 위주의 유용한 패키지를 소개한다.

 

2. DataExplorer

DataExplorer 패키지에서 제공하는 몇 가지 유용한 함수들을 살펴보자. 

 

(1) 결측값 시각화

 

기본적으로 결측값은 summary 함수로 파악할 수 있다. 

 

library(MASS) # survey 데이터를 이용하기 위해
summary(survey)

 

결과를 보면 변수별 NA'S 개수가 출력될 것이다. 이 결측값 결과를 깔끔한 그래프로 그려주는 함수가 있다. 아래 코드를 실행하면 결측값 그래프가 생성된다.  

 

library(DataExplorer)
plot_missing(survey)

 

[그림 1] 결측값 시각화

<그림 1>을 보면 변수별 결측값 비율 값을 시각화 해준다. Pulse 변수에는 결측값이 전체 18.99%라고 나타났다. 

 

(2) 히스토그램과 밀도 그래프

 

아래 코드를 실행하면 양적 변수만 자동으로 선별해 히스토그램과 밀도 함수를 그려준다. 

 

plot_histogram(iris) 
plot_density(iris)

 

 

범주형 변수(factor)는 plot_bar 함수를 이용한다. 코드를 실행하면 범주형 변수만 자동으로 선별해서 차트를 그려준다. 

 

plot_bar(iris)

 

 

(3) 변수간 상관관계 시각화

 

plot_correlation는 숫자형 변수만 자동으로 추출해 상관관계를 예쁘게 그려준다.

 

plot_correlation(iris, type = 'continuous')

 

 

(4) 자동 Report 생성

 

이 패키지의 재미있는 기능 중에 create_report가 있는데, 탐색적인 분석을 자동으로 수행하고 결과를 마크다운 형식의 html 형식의 리포트를 자동 생성 해준다. 

 

create_report(iris)

 

코드를 실행하면 아래와 같이 html 문서를 웹 브라우저로 자동으로 생성해 준다. 

 

다음글

 

createDummyFeatures

1. 들어가며 통계분석이나 머신러닝에서 범주형 변수(질적변수)를 더미 변수로 변경해야 할 일이 많다. 이때 간편하게 활용할 수 있는 패키지가 "mlr"이며 createDummyFeatures 함수가 그 기능을 한다. 2

diseny.tistory.com

 

반응형

'R_패키지' 카테고리의 다른 글

R 중복값을 갖는 행(row) 데이터 제거  (0) 2022.05.16
R 결측값 시각화  (0) 2022.05.13
createDummyFeatures  (0) 2022.05.02
excel.link  (0) 2022.03.02

댓글