# naver search confirm # markdown number and equation 범주별 다변수 통계량 계산(by 함수) //google adsense
본문 바로가기
R_데이터 분석 기술

범주별 다변수 통계량 계산(by 함수)

by 노마드분석가 2022. 3. 3.

1. 들어가며

다변수를 범주별로 평균, 분산 등의 값을 계산하고 싶을 때가 있다. 예를 들어 R 내장 데이터 mtcars의 경우 cyl별(4, 6, 8) mpg, disp, hp 변수의 평균을 계산해야 하는 경우다.  by 함수를 이용해 간단하게 계산 가능하다

2. 코드

cars = mtcars[ , c("mpg","disp","hp")] # mpg, disp, hp 변수 추출 후 cars에 저장
by(cars, mtcars$cyl, apply, 2, mean)   # (2)

 

(2) 코드의 주석

# by = 함수, 

# cars = 분석할 데이터 프레임

# mtcars$cyl =범주,

# apply = 데이터 프레임의 열 또는 행에 특정 함수 일괄 적용

# 2 = 데이터 프레임 열에 적용, 1은 행에 적용

# mean = 열에 적용할 함수, 여기서는 평균, 만약 표준편차면 sd

 

3. 결과값

코드를 실행하면 아래와 같은 결과가 나온다

 

 

 

4. 내장 함수 aggregate 이용

 

내장함수 aggregate를 이용할 수도 있는데 어쩐지 문법이 약간 복잡한 느낌이 들어 개인적으로 잘 이용하지는 않지만 동일한 결과를 얻어 낸다. 

 

aggregate(mtcars[c("mpg","disp","hp")], by=list(cylinders=mtcars$cyl),mean)

 

 

반응형

댓글