# naver search confirm # markdown number and equation 'r' 태그의 글 목록 //google adsense
본문 바로가기

r7

정말 쉬운 연관규칙 실습 정말 쉬운 연관규칙 알고리즘1. 들어가며 연관규칙은 장바구니 분석(market basket analysis)이라고도 하는데, 원래 마트의 거래 데이터(transaction data)를 분석하고자 하는 필요성에서 활발하게 탐구되었다. 다른 많은 머신러닝 알diseny.tistory.com 1. 들어가며 연관분석에 대한 이론을 배웠다면 이제 실습을 해보자. 먼저 관련 패키지와 실습 데이터를 로드한다.  library(arules)groceries  실행하면 다음과 같은 결과가 나오는데 중요한 의미를 이미지로 캡쳐 했다.   2. 데이터 탐색 처음 다섯개의 거래와 가장 거래가 빈번한 품목을 보자 inspect(groceries[1:5]) itemFrequency(groceries[ , 1:3]) 결과는.. 2024. 5. 21.
R 전처리 최강자 dplyr 패키지 1. 들어가며 본격적인 데이터 분석에 들어가기 전에 분석가의 요구와 필요에 맞게 데이터를 조작할 필요가 있다. 이런 과정을 데이터 전처리(data pre processing)이라고 하는데, R은 풍부한 기본 기능과 함수를 제공하지만 초보자들에게는 dplyr 패키지가 가장 직관적이고 배우기 쉽다. 따라서 R의 기본 기능보다 먼저 dplyr 패키지를 활용법을 학습하는 것을 강력하게 권장한다. 아울러 SQL 문법과도 비슷해 개발자 출신 분석가들은 더 익숙할 수도 있다. 2. dplyr 패키지의 주요 기능 filter : 데이터 프레임에서 필요한 행(row)만 추출하는 기능 select : 데이터 프레임에서 필요한 열(column)만 추출하는 기능 arrange : 데이터 프레임을 기준 열(column)에 맞춰.. 2022. 3. 31.
상관관계와 상관계수 1. 들어가며연속형 변수 x, y의 관계는 상관관계(correlation) 분석을 통해 2가지 사실을 알 수 있다. 관계의 방향관계의 강도 보통 관계의 방향은 그래프를 그려 확인하고, 관계의 강도는 그래프로도 확인 가능하지만 구체적인 값을 계산한다. 관계의 방향과 강도를 파악하는 방법에 대해 살펴보자.  2. 관계의 방향관계의 방향은 3가지 경우로 나뉜다. 은 일반적인 3가지 경우의 관계를 나타내고 있다.  산점도를 그리고 추세선을 그어보면 대략의 방향성이 나오는데 제일 왼쪽 그래프는 x, y가 양의 상관관계(postive), 두 번째 그래프는 x, y가 음의 상관관계(negative), 제일 오른쪽 그래프는 x, y가 아무런 상관성이 없다는 의미다.   3. 관계의 강도관계의 방향성을 알았다면 어느 정.. 2022. 3. 31.
3. aes 요소 추가 이전글 2. 데이터 타입과 차트 종류 이전글 1. ggplot2 기본구조 1. 들어가며 목적지를 향해 떠나기 전에 좋은 지도를 갖추는 것은 필수적이다. 데이터 시각화를 하기 전에 먼저 주어진 데이터로 어떤 차트를 그릴 수 있는지 파악하고 diseny.tistory.com 1. 들어가며 ggplot2의 기본 구조는 아래와 같다. ggplot(data="데이터명", aes(x="변수명", y="변수명")) + geom 함수 여기에서 aes는 특정한 데이터(변수)를 척도에 맵핑 시킬 때 쓰는 명령어다. library(ggplot2) ggplot(data=iris, aes(x=Sepal.Length, y=Petal.Length)) + geom_point() 위의 코드는 iris 데이터의 Sepal.Length .. 2022. 3. 10.
2. 데이터 타입과 차트 종류 이전글 1. ggplot2 기본구조 1. 들어가며 데이터 시각화의 목적은 크게 두가지이다. 탐색적 데이터 분석 : 데이터의 특징을 빠르게 파악하고 숨겨진 사실을 쉽게 발견하기 위해 사람의 인지적 능력을 촉진시키기 위한 목적 diseny.tistory.com 1. 들어가며 목적지를 향해 떠나기 전에 좋은 지도를 갖추는 것은 필수적이다. 데이터 시각화를 하기 전에 먼저 주어진 데이터로 어떤 차트를 그릴 수 있는지 파악하고 있어야 한다. ggplot2에서도 마찬가지로 데이터와 그릴 수 있는 차트의 맵핑 관계를 알고 있다면 더 효율적으로 시각화 작업을 할 수 있다. 2. 변수의 조합과 차트 종류 변수의 종류와 변수간 조합으로 그릴 수 있는 차트가 결정된다. 차트가 결정되면 그 다음에 할 일은 차트를 더 보기 좋.. 2022. 3. 7.
범주별 다변수 통계량 계산(by 함수) 1. 들어가며 다변수를 범주별로 평균, 분산 등의 값을 계산하고 싶을 때가 있다. 예를 들어 R 내장 데이터 mtcars의 경우 cyl별(4, 6, 8) mpg, disp, hp 변수의 평균을 계산해야 하는 경우다. by 함수를 이용해 간단하게 계산 가능하다 2. 코드 cars = mtcars[ , c("mpg","disp","hp")] # mpg, disp, hp 변수 추출 후 cars에 저장 by(cars, mtcars$cyl, apply, 2, mean) # (2) (2) 코드의 주석 # by = 함수, # cars = 분석할 데이터 프레임 # mtcars$cyl =범주, # apply = 데이터 프레임의 열 또는 행에 특정 함수 일괄 적용 # 2 = 데이터 프레임 열에 적용, 1은 행에 적용 # .. 2022. 3. 3.