# naver search confirm # markdown number and equation R 결측값 시각화 //google adsense
본문 바로가기
R_패키지

R 결측값 시각화

by 노마드분석가 2022. 5. 13.

이전글

 

createDummyFeatures

이전글 DataExplorer 1. 들어가며 탐색적 데이터 분석(EDA : Exploratory Data Analysis)는 데이터 분석 초기 단계에서 매우 중요하다. 분석가가 데이터를 받아 처음 작업할 때는 데이터의 구조와, 특징, 분포,

diseny.tistory.com

1. 들어가며

일반적으로 summary(데이터프레임) 명령어로 각 변수의 결측값(Na's) 수를 확인할 수 있지만 변수별 결측값 수 또는 비율을 간편하게 시각화할 수 있는 패키지가 있다. 그러한 기능을 제공하는 naniar 패키지 활용법에 대해 알아보자.

 

2. 패키지 및 문법

library(ggplot2)
library(naniar)
gg_miss_var(airquality)

 

R 내장 데이터인 "airquality"의 변수별 결측값 개수를 그래프로 확인할 수 있다. 코드를 실행하면 아래와 같은 결과를 얻는다. 

 

[그림 1] 변수별 결측값 개수

 

<그림 1>은 결측값의 개수를 나타내는데 전체 데이터 중 결측값의 비율을 나타낼 수도 있다. 

 

gg_miss_var(airquality,show_pct = TRUE) # show_pct = TRUE

 

[그림 2] %로 바뀐 결측값 시각화

 

3. 변수 조합에 의한 결측값 시각화

위의 <그림 1>과 <그림 2>는 전체 데이터에서의 결측값 비율과 개수를 나타내었는데, 특정한 범주의 변수별로 결측값을 표시할 수도 있다. 아래 코드는 airquality 데이터에서 Month 변수 기준으로 결측값 현황을 시각화 한다. 

 

gg_miss_var(airquality, Month)

[그림 3] 변수별 결측값 개수

 

만약 변수별로 결측값을 시각화하여 비교한다면 %로 표시하는 것이 더 나은 방법일 것이고 각 변수별 % 범위를 동일하게 설정하는 것이 좋을 것이다. 다음과 같은 코드를 실행하면 비교하기에 더 편리하다

 

gg_miss_var(airquality, Month, show_pct = TRUE) + ylim(0, 100)

 

[그림 4] 변수별 결측값 비율

 

다음글

 

R 중복값을 갖는 행(row) 데이터 제거

1. 들어가며 데이터 분석과정에서 중복된 값을 제거해야 할 일이 종종있다. 이런 작업을 수행하는 방법은 다양하지만 dplyr 패키지의 distinct 함수를 이용한 방법을 소개한다. 2. 샘플 데이터 생성 l

diseny.tistory.com

 

Reference
https://www.rdocumentation.org/packages/naniar/versions/0.6.1/topics/gg_miss_var
반응형

'R_패키지' 카테고리의 다른 글

R 중복값을 갖는 행(row) 데이터 제거  (0) 2022.05.16
createDummyFeatures  (0) 2022.05.02
DataExplorer  (0) 2022.04.08
excel.link  (0) 2022.03.02

댓글