r8 상관분석(Correlation Analysis)을 이해하는 가장 좋은 방법 1. 들어가며데이터 분석을 하다 보면 A와 B가 관련이 있는지 알고 싶을 때가 있다. 예를 들어, 공부 시간과 시험 성적, 운동량과 체중 변화, 광고비와 매출 간의 관계를 알고 싶은 경우가 그렇다. 이때 두 변수 간의 관련성을 수치로 나타내는 분석이 바로 상관분석(Correlation Analysis) 이다. 많은 사람들이 "상관관계가 있다"는 말을 쉽게 하지만, 이것이 정확히 어떤 의미이고 어떻게 계산하며 어떻게 해석해야 하는지는 모호할 수 있다. 이번 글에서는 상관분석의 의미와 해석 방법을 함께 정리해보자.2. 상관이란 무엇인가?상관관계란, 두 변수의 값이 얼마나 함께 움직이는지를 나타내는 개념이다. A가 증가하면 B도 증가하거나(A와 B가 같은 방향), A가 증가할 때 B는 감소한다면(서로 반대 방.. 2025. 3. 22. 정말 쉬운 연관규칙 실습 정말 쉬운 연관규칙 알고리즘1. 들어가며 연관규칙은 장바구니 분석(market basket analysis)이라고도 하는데, 원래 마트의 거래 데이터(transaction data)를 분석하고자 하는 필요성에서 활발하게 탐구되었다. 다른 많은 머신러닝 알diseny.tistory.com 1. 들어가며 연관분석에 대한 이론을 배웠다면 이제 실습을 해보자. 먼저 관련 패키지와 실습 데이터를 로드한다. library(arules)groceries 실행하면 다음과 같은 결과가 나오는데 중요한 의미를 이미지로 캡쳐 했다. 2. 데이터 탐색 처음 다섯개의 거래와 가장 거래가 빈번한 품목을 보자 inspect(groceries[1:5]) itemFrequency(groceries[ , 1:3]) 결과는.. 2024. 5. 21. R 전처리 최강자 dplyr 패키지 1. 들어가며 본격적인 데이터 분석에 들어가기 전에 분석가의 요구와 필요에 맞게 데이터를 조작할 필요가 있다. 이런 과정을 데이터 전처리(data pre processing)이라고 하는데, R은 풍부한 기본 기능과 함수를 제공하지만 초보자들에게는 dplyr 패키지가 가장 직관적이고 배우기 쉽다. 따라서 R의 기본 기능보다 먼저 dplyr 패키지를 활용법을 학습하는 것을 강력하게 권장한다. 아울러 SQL 문법과도 비슷해 개발자 출신 분석가들은 더 익숙할 수도 있다. 2. dplyr 패키지의 주요 기능 filter : 데이터 프레임에서 필요한 행(row)만 추출하는 기능 select : 데이터 프레임에서 필요한 열(column)만 추출하는 기능 arrange : 데이터 프레임을 기준 열(column)에 맞춰.. 2022. 3. 31. 상관관계와 상관계수 1. 들어가며연속형 변수 x, y의 관계는 상관관계(correlation) 분석을 통해 2가지 사실을 알 수 있다. 관계의 방향관계의 강도 보통 관계의 방향은 그래프를 그려 확인하고, 관계의 강도는 그래프로도 확인 가능하지만 구체적인 값을 계산한다. 관계의 방향과 강도를 파악하는 방법에 대해 살펴보자. 2. 관계의 방향관계의 방향은 3가지 경우로 나뉜다. 은 일반적인 3가지 경우의 관계를 나타내고 있다. 산점도를 그리고 추세선을 그어보면 대략의 방향성이 나오는데 제일 왼쪽 그래프는 x, y가 양의 상관관계(postive), 두 번째 그래프는 x, y가 음의 상관관계(negative), 제일 오른쪽 그래프는 x, y가 아무런 상관성이 없다는 의미다. 3. 관계의 강도관계의 방향성을 알았다면 어느 정.. 2022. 3. 31. 3. aes 요소 추가 이전글 2. 데이터 타입과 차트 종류 이전글 1. ggplot2 기본구조 1. 들어가며 목적지를 향해 떠나기 전에 좋은 지도를 갖추는 것은 필수적이다. 데이터 시각화를 하기 전에 먼저 주어진 데이터로 어떤 차트를 그릴 수 있는지 파악하고 diseny.tistory.com 1. 들어가며 ggplot2의 기본 구조는 아래와 같다. ggplot(data="데이터명", aes(x="변수명", y="변수명")) + geom 함수 여기에서 aes는 특정한 데이터(변수)를 척도에 맵핑 시킬 때 쓰는 명령어다. library(ggplot2) ggplot(data=iris, aes(x=Sepal.Length, y=Petal.Length)) + geom_point() 위의 코드는 iris 데이터의 Sepal.Length .. 2022. 3. 10. 2. 데이터 타입과 차트 종류 이전글 1. ggplot2 기본구조 1. 들어가며 데이터 시각화의 목적은 크게 두가지이다. 탐색적 데이터 분석 : 데이터의 특징을 빠르게 파악하고 숨겨진 사실을 쉽게 발견하기 위해 사람의 인지적 능력을 촉진시키기 위한 목적 diseny.tistory.com 1. 들어가며 목적지를 향해 떠나기 전에 좋은 지도를 갖추는 것은 필수적이다. 데이터 시각화를 하기 전에 먼저 주어진 데이터로 어떤 차트를 그릴 수 있는지 파악하고 있어야 한다. ggplot2에서도 마찬가지로 데이터와 그릴 수 있는 차트의 맵핑 관계를 알고 있다면 더 효율적으로 시각화 작업을 할 수 있다. 2. 변수의 조합과 차트 종류 변수의 종류와 변수간 조합으로 그릴 수 있는 차트가 결정된다. 차트가 결정되면 그 다음에 할 일은 차트를 더 보기 좋.. 2022. 3. 7. 이전 1 2 다음