# naver search confirm # markdown number and equation '부분집계' 태그의 글 목록 //google adsense
본문 바로가기

부분집계3

wide & long 데이터 형태 전환 1. 들어가며 데이터를 분석하기 전에 데이터의 형태를 변환해야 하는 일은 매우 빈번하게 발생한다. 특히 ggplot2 패키지를 이용해 데이터를 시각화할 때는 데이터의 형태를 긴(long) 형태로 바꿔야 하는 일이 많다. 데이터 전처리에서 필수적으로 익혀야 wide & long 데이터 프레임 변환에 대해 알아보자. 2. wide & long 형태란? 하나의 행에 여러가지 값을 담고 있는 데이터 프레임을 wide 형태라고 볼 수 있다. 아래 은 wide 형태와 long 형태의 데이터 프레임 예를 보여준다. 일반적으로 wide 형태의 포맷에 익숙하지만 분석의 목적에 따라 long 형태로 바꿔야 할 일이 자주 발생한다. 이때 사용할 수 있는 R 패키지는 다양한데, 가장 대표적인 reshape2 패키지를 이용해 .. 2022. 4. 4.
변수별 부분 집계 by dplyr 이전글 R 전처리 최강자 dplyr 패키지 1. 들어가며 본격적인 데이터 분석에 들어가기 전에 분석가의 요구와 필요에 맞게 데이터를 조작할 필요가 있다. 이런 과정을 데이터 전처리(data pre processing)이라고 하는데, R은 풍부한 기본 기능 diseny.tistory.com 1. 들어가며 이전 글에서 R 데이터 전처리에 많이 활용되는 dplyr 패키지의 기본적인 용법 5가지를 살펴보았다. 이번에는 dplyr 패키지에서 특정한 변수를 기준으로 부분 집계(aggregation)를 하는 방법에 대해 알아보자. 부분 집계는 의외로 데이터 분석에서 많이 사용되는 작업이다. 2. 데이터 프레임에서 랜덤하게 행 데이터 추출 dplyr 패키지는 데이터 프레임에서 랜덤하게 행(row)을 추출하는 아주 간편.. 2022. 3. 31.
범주별 다변수 통계량 계산(by 함수) 1. 들어가며 다변수를 범주별로 평균, 분산 등의 값을 계산하고 싶을 때가 있다. 예를 들어 R 내장 데이터 mtcars의 경우 cyl별(4, 6, 8) mpg, disp, hp 변수의 평균을 계산해야 하는 경우다. by 함수를 이용해 간단하게 계산 가능하다 2. 코드 cars = mtcars[ , c("mpg","disp","hp")] # mpg, disp, hp 변수 추출 후 cars에 저장 by(cars, mtcars$cyl, apply, 2, mean) # (2) (2) 코드의 주석 # by = 함수, # cars = 분석할 데이터 프레임 # mtcars$cyl =범주, # apply = 데이터 프레임의 열 또는 행에 특정 함수 일괄 적용 # 2 = 데이터 프레임 열에 적용, 1은 행에 적용 # .. 2022. 3. 3.