전체 글94 의사결정나무(decision tree) 관련글 선형회귀분석 밑바닥부터 이해하기관련글 상관관계와 상관계수 상관관계와 상관계수 1. 들어가며 연속형 변수 x, y의 관계는 상관관계(correlation) 분석을 통해 2가지 사실을 알 수 있다. 관계의 방향 관계의 강도 보통 관계의 방향은diseny.tistory.com1. 들어가며선형회귀모델 분석을 통해 수치형 변수를 예측하거나 수치형 변수의 결과에 영향을 미치는 X(반응변수)가 무엇인지 파악할 수 있다. 그러나 정확한 수치를 예측한다는 것은 현실적으로 어렵기 때문에 회귀분석은 Y값(결과변수)의 변화에 영향을 미치는 여러 개의 변수를 발견하고 그 영향력을 비교하는 목적으로 주로 사용된다. 반면 범주형 변수 예측은 어떤 변수가 어떤 범주에 속할지 예측하는 것으로서, 예를 들면 은행에 어떤 고객이.. 2022. 4. 15. 이상값과 영향력 있는 관측값 탐지 관련글 회귀진단 관련글 선형회귀분석 밑바닥부터 이해하기 선형회귀분석 밑바닥부터 이해하기 관련글 상관관계와 상관계수 1. 들어가며 두 연속형 변수 X, Y에서 X가 변함에 따라 Y가 어떻게 변하는지 분석한다 diseny.tistory.com 1. 들어가며 회귀모델은 표본 데이터에 가장 잘 적합(fitted)된 모델이다. 이 말은 표본 데이터를 구성하는 모든 관측값이 회귀 모델을 구축하는데 사용되었다는 의미이다. 그런데 표본 중에 표본 데이터의 전체적인 특징과 크게 벗어나는 관측값이 포함되어 있다면 이런 값들을 모델을 만드는데 사용해야 할지 고민해 보아야 한다. 예를 들어 대한민국 20대의 평균 생활비를 추정하기 위해 표본을 1,000명 뽑았을 때, 그 표본에 재벌 자녀가 포함되어 있다면 표본으로 만든 회귀.. 2022. 4. 14. 회귀진단 선형회귀분석 밑바닥부터 이해하기관련글 상관관계와 상관계수 1. 들어가며 두 연속형 변수 X, Y에서 X가 변함에 따라 Y가 어떻게 변하는지 분석한다면 Y는 결과변수(반응변수)로 부르고 X는 설명변수(독립변수)로 부른다. 회귀 분diseny.tistory.com R 회귀분석관련글 선형회귀분석 밑바닥부터 이해하기 선형회귀분석 밑바닥부터 이해하기 관련글 상관관계와 상관계수 1. 들어가며 두 연속형 변수 X, Y에서 X가 변함에 따라 Y가 어떻게 변하는지 분석한다diseny.tistory.com 1. 들어가며회귀모델을 만들었다면 회귀분석을 하기 위한 기본 가정을 점검해야 한다. 보통은 회귀모델의 예측값과 실제 값과의 오차인 잔차(residual)를 분석하여 진단한다. 회귀분석모델에서 잔차에 대한 기본 가정은 다.. 2022. 4. 13. R 회귀분석 관련글 선형회귀분석 밑바닥부터 이해하기 관련글 상관관계와 상관계수 1. 들어가며 두 연속형 변수 X, Y에서 X가 변함에 따라 Y가 어떻게 변하는지 분석한다면 Y는 결과변수(반응변수)로 부르고 X는 설명변수(독립변수)로 부른다. 회귀 분 diseny.tistory.com 1. 들어가며 R 프로그래밍을 통해 실제로 회귀분석을 해보자. SPSS나 SAS를 주로 사용했던 사회과학 계열 출신들은 코딩 방식이 처음에는 헷갈리고 시간이 많이 걸릴 수 있지만 일단 익숙해지면 GUI 방식의 통계 소프트웨어보다 훨씬 더 편리하게 사용할 수 있을 것이다. 2. 예제 데이터 : airquality 회귀분석 실습 데이터는 R 내장 데이터인 airquality를 사용한다. "?airquality"라고 입력하고 엔터를 치면 해당.. 2022. 4. 13. DataExplorer 이전글 excel.link 1. 들어가며 R에서 전처리된 데이터, 또는 분석 결과를 엑셀로 이동해 리포트를 완성해야 할 경우가 많다. 이때 "excel.link"는 매우 간편하게 활용할 수 있는 패키지다. 2. 코드 library(excel.link) # (1) xl diseny.tistory.com 1. 들어가며 탐색적 데이터 분석(EDA : Exploratory Data Analysis)는 데이터 분석 초기 단계에서 매우 중요하다. 분석가가 데이터를 받아 처음 작업할 때는 데이터의 구조와, 특징, 분포, 결측값 등에 대해 재빨리 파악을 하고 더 깊이 분석해야 할 사항을 판단해야 한다. R을 이용해 다양한 방법으로 EDA 수행할 수 있는데, 그래픽 도구 위주의 유용한 패키지를 소개한다. 2. DataE.. 2022. 4. 8. R 교차표 작성 1. 들어가며 데이터 분석 또는 보고서 작성시 범주형 데이터의 빈도(frequency)를 교차표(cross table)로 작성해야 할 경우가 많다. 주로 엑셀로 작업을 하는 경우가 많지만 간단하게 R 코드로 작업하는 법을 알아보자. 2. 예제 데이터 R 패키지는 특정한 기능을 수행하는 함수들의 집합이지만 대부분 내장 데이터 셋을 포함하고 있다. 특정 패키지에 포함된 내장 데이터를 보기 위해서는 아래와 같이 코딩하면 된다. data(package="MASS") # 인자에 패키지 이름을 적는다 내장 데이터 중에서 survey 데이터의 구조를 보자. str(survey) 12개의 변수와 237개의 행 데이터를 포함하고 있다. 12개의 변수 중 Sex, W.Hnd, Fold, Clap, Exer, Smoke, .. 2022. 4. 8. R 주성분 분석 1. 들어가며 주성분 분석(PCA : Principal Component Analysis)은 데이터에 변수가 많을 때 변수의 수를 축약하는 방법이다. 은 세 개의 데이터를 x축(공부시간), y축(성적)으로 표현한 그래프다. 세 개의 데이터(영희, 민주, 철이)는 x축 기준으로도 분산(값 차이)이 존재하고 y축으로도 분산이 존재하는 것을 알 수 있다. 그런데 이 데이터는 처럼 새로운 변수 Z1축과 Z2축을 만들어 그래프로 나타낼 수 있다. 를 보면 사실상 Z1 축으로 데이터의 차이를 거의 다 설명할 수 있고 Z2축으로는 세 데이터의 분산(차이)이 매우 작기 때문에 Z2 변수는 세 데이터의 차이를 드러내지 않는다. 즉 필요없는 변수라고 볼 수 있다. 이렇게 세 개의 데이터(영희, 민주, 철이)를 공부시간, .. 2022. 4. 7. R 다중공선성 VIF 값 계산 관련글 다중공선성(Multicollinearity)의 의미와 판별법 관련글 선형회귀분석 밑바닥부터 이해하기 관련글 상관관계와 상관계수 상관관계와 상관계수 1. 들어가며 연속형 변수 x, y의 관계는 상관관계(correlation) 분석을 통해 2가지 사실을 알 수 있다. diseny.tistory.com 1. 들어가며 관련글에서 다중공선성에 대한 이론적인 내용을 소개했으므로 이제 R을 이용해 VIF(분산팽창지수)를 계산하는 방법을 살펴보자. 2. library(car)이용 iris 데이터에서 Species 변수를 제외한 나머지 변수들로 다중회귀모델을 만들어 보자. reg_iris = lm(Sepal.Length ~ Sepal.Width + Petal.Length + Petal.Width, data=iri.. 2022. 4. 4. 이전 1 ··· 3 4 5 6 7 8 9 ··· 12 다음