# naver search confirm # markdown number and equation createDummyFeatures //google adsense
본문 바로가기
R_패키지

createDummyFeatures

by 노마드분석가 2022. 5. 2.

이전글

 

DataExplorer

1. 들어가며 탐색적 데이터 분석(EDA : Exploratory Data Analysis)는 데이터 분석 초기 단계에서 매우 중요하다. 분석가가 데이터를 받아 처음 작업할 때는 데이터의 구조와, 특징, 분포, 결측값 등에 대

diseny.tistory.com

 

1. 들어가며

통계분석이나 머신러닝에서 범주형 변수(질적변수)를 더미 변수로 변경해야 할 일이 많다. 이때 간편하게 활용할 수 있는 패키지가 "mlr"이며 createDummyFeatures 함수가 그 기능을 한다. 

 

2. 예제 데이터

iris 데이터를 활용해 보자. 많이 알려져 있듯이 iris 데이터에는 Species라는 범주형 변수가 존재한다. 이 범주형 변수를 더미 변수로 바꿔보자. 

 

head(iris)

 

iris 데이터의 첫 5행을 보면 모두 Species가 setosa 라는 것을 알 수 있다. 

 

 

3. 더미 변수 변환

이제 iris 데이터의 Species 열만 추출해 더미 변수를 만들자. 

 

library(mlr) #필요한 패키지
#iris의 5번째 열(Species)만 추출한 데이터 프레임을 더미 변수로 변환
fact.Species = createDummyFeatures(iris[ , 5])
head(fact.Species)

 

결과를 보면 더미변수가 만들어졌고 첫 5행의 데이터는 setosa 값만 1이고 나머지 변수는 0이라는 것을 알 수 있다. 

 

 

아래 코드와 같이 Species 변수를 더미 변수로 바꾼 후 기존 iris 데이터와 결합하여 통계 모델이나 머신러닝 모델을 구축할 수 있는 데이터로 전처리할 수 있다. 

 

iris_convert = cbind(iris[ , -5],fact.Species) 
head(iris_convert)

 

다음글

 

R 결측값 시각화

1. 들어가며 일반적으로 summary(데이터프레임) 명령어로 각 변수의 결측값(Na's) 수를 확인할 수 있지만 변수별 결측값 수 또는 비율을 간편하게 시각화할 수 있는 패키지가 있다. 그러한 기능을 제

diseny.tistory.com

 

반응형

'R_패키지' 카테고리의 다른 글

R 중복값을 갖는 행(row) 데이터 제거  (0) 2022.05.16
R 결측값 시각화  (0) 2022.05.13
DataExplorer  (0) 2022.04.08
excel.link  (0) 2022.03.02

댓글