이전글
1. 들어가며
통계분석이나 머신러닝에서 범주형 변수(질적변수)를 더미 변수로 변경해야 할 일이 많다. 이때 간편하게 활용할 수 있는 패키지가 "mlr"이며 createDummyFeatures 함수가 그 기능을 한다.
2. 예제 데이터
iris 데이터를 활용해 보자. 많이 알려져 있듯이 iris 데이터에는 Species라는 범주형 변수가 존재한다. 이 범주형 변수를 더미 변수로 바꿔보자.
head(iris)
iris 데이터의 첫 5행을 보면 모두 Species가 setosa 라는 것을 알 수 있다.
3. 더미 변수 변환
이제 iris 데이터의 Species 열만 추출해 더미 변수를 만들자.
library(mlr) #필요한 패키지
#iris의 5번째 열(Species)만 추출한 데이터 프레임을 더미 변수로 변환
fact.Species = createDummyFeatures(iris[ , 5])
head(fact.Species)
결과를 보면 더미변수가 만들어졌고 첫 5행의 데이터는 setosa 값만 1이고 나머지 변수는 0이라는 것을 알 수 있다.
아래 코드와 같이 Species 변수를 더미 변수로 바꾼 후 기존 iris 데이터와 결합하여 통계 모델이나 머신러닝 모델을 구축할 수 있는 데이터로 전처리할 수 있다.
iris_convert = cbind(iris[ , -5],fact.Species)
head(iris_convert)
다음글
반응형
'R_패키지' 카테고리의 다른 글
R 중복값을 갖는 행(row) 데이터 제거 (0) | 2022.05.16 |
---|---|
R 결측값 시각화 (0) | 2022.05.13 |
DataExplorer (0) | 2022.04.08 |
excel.link (0) | 2022.03.02 |
댓글