이전글
1. 들어가며
일반적으로 summary(데이터프레임) 명령어로 각 변수의 결측값(Na's) 수를 확인할 수 있지만 변수별 결측값 수 또는 비율을 간편하게 시각화할 수 있는 패키지가 있다. 그러한 기능을 제공하는 naniar 패키지 활용법에 대해 알아보자.
2. 패키지 및 문법
library(ggplot2)
library(naniar)
gg_miss_var(airquality)
R 내장 데이터인 "airquality"의 변수별 결측값 개수를 그래프로 확인할 수 있다. 코드를 실행하면 아래와 같은 결과를 얻는다.
<그림 1>은 결측값의 개수를 나타내는데 전체 데이터 중 결측값의 비율을 나타낼 수도 있다.
gg_miss_var(airquality,show_pct = TRUE) # show_pct = TRUE
3. 변수 조합에 의한 결측값 시각화
위의 <그림 1>과 <그림 2>는 전체 데이터에서의 결측값 비율과 개수를 나타내었는데, 특정한 범주의 변수별로 결측값을 표시할 수도 있다. 아래 코드는 airquality 데이터에서 Month 변수 기준으로 결측값 현황을 시각화 한다.
gg_miss_var(airquality, Month)
만약 변수별로 결측값을 시각화하여 비교한다면 %로 표시하는 것이 더 나은 방법일 것이고 각 변수별 % 범위를 동일하게 설정하는 것이 좋을 것이다. 다음과 같은 코드를 실행하면 비교하기에 더 편리하다
gg_miss_var(airquality, Month, show_pct = TRUE) + ylim(0, 100)
다음글
Reference
https://www.rdocumentation.org/packages/naniar/versions/0.6.1/topics/gg_miss_var
반응형
'R_패키지' 카테고리의 다른 글
R 중복값을 갖는 행(row) 데이터 제거 (0) | 2022.05.16 |
---|---|
createDummyFeatures (0) | 2022.05.02 |
DataExplorer (0) | 2022.04.08 |
excel.link (0) | 2022.03.02 |
댓글