# naver search confirm # markdown number and equation 'R전처리' 태그의 글 목록 //google adsense
본문 바로가기

R전처리3

R 중복값을 갖는 행(row) 데이터 제거 이전글 R 결측값 시각화 1. 들어가며 일반적으로 summary(데이터프레임) 명령어로 각 변수의 결측값(Na's) 수를 확인할 수 있지만 변수별 결측값 수 또는 비율을 간편하게 시각화할 수 있는 패키지가 있다. 그러한 기능을 제 diseny.tistory.com 1. 들어가며 데이터 분석과정에서 중복된 값을 제거해야 할 일이 종종있다. 이런 작업을 수행하는 방법은 다양하지만 dplyr 패키지의 distinct 함수를 이용한 방법을 소개한다. 2. 샘플 데이터 생성 library(dplyr) A = c(2,2,4,4,4,5) B = c(2,2,4,4,8,10) C = c(2,2,5,6,7,5) ABC = data.frame(A,B,C) ABC 코드를 실행하면 다음과 같은 데이터 프레임을 얻을 수 있다. .. 2022. 5. 16.
wide & long 데이터 형태 전환 1. 들어가며 데이터를 분석하기 전에 데이터의 형태를 변환해야 하는 일은 매우 빈번하게 발생한다. 특히 ggplot2 패키지를 이용해 데이터를 시각화할 때는 데이터의 형태를 긴(long) 형태로 바꿔야 하는 일이 많다. 데이터 전처리에서 필수적으로 익혀야 wide & long 데이터 프레임 변환에 대해 알아보자. 2. wide & long 형태란? 하나의 행에 여러가지 값을 담고 있는 데이터 프레임을 wide 형태라고 볼 수 있다. 아래 은 wide 형태와 long 형태의 데이터 프레임 예를 보여준다. 일반적으로 wide 형태의 포맷에 익숙하지만 분석의 목적에 따라 long 형태로 바꿔야 할 일이 자주 발생한다. 이때 사용할 수 있는 R 패키지는 다양한데, 가장 대표적인 reshape2 패키지를 이용해 .. 2022. 4. 4.
변수별 부분 집계 by dplyr 이전글 R 전처리 최강자 dplyr 패키지 1. 들어가며 본격적인 데이터 분석에 들어가기 전에 분석가의 요구와 필요에 맞게 데이터를 조작할 필요가 있다. 이런 과정을 데이터 전처리(data pre processing)이라고 하는데, R은 풍부한 기본 기능 diseny.tistory.com 1. 들어가며 이전 글에서 R 데이터 전처리에 많이 활용되는 dplyr 패키지의 기본적인 용법 5가지를 살펴보았다. 이번에는 dplyr 패키지에서 특정한 변수를 기준으로 부분 집계(aggregation)를 하는 방법에 대해 알아보자. 부분 집계는 의외로 데이터 분석에서 많이 사용되는 작업이다. 2. 데이터 프레임에서 랜덤하게 행 데이터 추출 dplyr 패키지는 데이터 프레임에서 랜덤하게 행(row)을 추출하는 아주 간편.. 2022. 3. 31.