# naver search confirm # markdown number and equation 'R_데이터 분석 기술' 카테고리의 글 목록 (2 Page) //google adsense
본문 바로가기

R_데이터 분석 기술19

R 랜덤포레스트(randomforest) 관련글 R_의사결정나무 분석(rpart) 관련글 의사결정나무(decision tree) 관련글 선형회귀분석 밑바닥부터 이해하기 관련글 상관관계와 상관계수 상관관계와 상관계수 1. 들어가며 연속형 변수 x, y의 관계는 상관관계(correlation) 분석을 diseny.tistory.com 1. 들어가며 실전에서 분류 목적으로 의사결정나무 알고리즘을 사용하는 경우는 드물다. 왜냐하면 과적합면에서 다소 취약하기 때문이다. 따라서 이를 보완하는 방법 중에 하나인 랜덤포레스트를 많이 이용한다. 실제 R을 이용해 랜덤포레스트 모델을 구축하는 방법을 알아보자. 2. 예제 데이터 library(caret) # GermanCredit 데이터를 활용하기 위해 library(randomForest) data(German.. 2022. 5. 3.
R_의사결정나무 분석(rpart) 관련글 의사결정나무(decision tree) 관련글 선형회귀분석 밑바닥부터 이해하기 관련글 상관관계와 상관계수 상관관계와 상관계수 1. 들어가며 연속형 변수 x, y의 관계는 상관관계(correlation) 분석을 통해 2가지 사실을 알 수 있다. diseny.tistory.com 1. 들어가며 R 코드를 이용해 실제로 의사결정나무분석을 해보자. 의사결정나무 알고리즘으로 irisi 데이터의 Species 범주(setosa, versicolor, virginica)를 분류한다. 2. 데이터 분할 iris 데이터를 70%의 학습데이터와 30%의 테스트 데이터로 랜덤하게 분할한다. 그런데 분할 이전에 먼저 전체 데이터에서 Species 범주에 해당하는 데이터의 비율을 확인해야 한다. 왜냐하면 임의 분할된 학.. 2022. 5. 2.
R 회귀분석 관련글 선형회귀분석 밑바닥부터 이해하기 관련글 상관관계와 상관계수 1. 들어가며 두 연속형 변수 X, Y에서 X가 변함에 따라 Y가 어떻게 변하는지 분석한다면 Y는 결과변수(반응변수)로 부르고 X는 설명변수(독립변수)로 부른다. 회귀 분 diseny.tistory.com 1. 들어가며 R 프로그래밍을 통해 실제로 회귀분석을 해보자. SPSS나 SAS를 주로 사용했던 사회과학 계열 출신들은 코딩 방식이 처음에는 헷갈리고 시간이 많이 걸릴 수 있지만 일단 익숙해지면 GUI 방식의 통계 소프트웨어보다 훨씬 더 편리하게 사용할 수 있을 것이다. 2. 예제 데이터 : airquality 회귀분석 실습 데이터는 R 내장 데이터인 airquality를 사용한다. "?airquality"라고 입력하고 엔터를 치면 해당.. 2022. 4. 13.
R 교차표 작성 1. 들어가며 데이터 분석 또는 보고서 작성시 범주형 데이터의 빈도(frequency)를 교차표(cross table)로 작성해야 할 경우가 많다. 주로 엑셀로 작업을 하는 경우가 많지만 간단하게 R 코드로 작업하는 법을 알아보자. 2. 예제 데이터 R 패키지는 특정한 기능을 수행하는 함수들의 집합이지만 대부분 내장 데이터 셋을 포함하고 있다. 특정 패키지에 포함된 내장 데이터를 보기 위해서는 아래와 같이 코딩하면 된다. data(package="MASS") # 인자에 패키지 이름을 적는다 내장 데이터 중에서 survey 데이터의 구조를 보자. str(survey) 12개의 변수와 237개의 행 데이터를 포함하고 있다. 12개의 변수 중 Sex, W.Hnd, Fold, Clap, Exer, Smoke, .. 2022. 4. 8.
R 주성분 분석 1. 들어가며 주성분 분석(PCA : Principal Component Analysis)은 데이터에 변수가 많을 때 변수의 수를 축약하는 방법이다. 은 세 개의 데이터를 x축(공부시간), y축(성적)으로 표현한 그래프다. 세 개의 데이터(영희, 민주, 철이)는 x축 기준으로도 분산(값 차이)이 존재하고 y축으로도 분산이 존재하는 것을 알 수 있다. 그런데 이 데이터는 처럼 새로운 변수 Z1축과 Z2축을 만들어 그래프로 나타낼 수 있다. 를 보면 사실상 Z1 축으로 데이터의 차이를 거의 다 설명할 수 있고 Z2축으로는 세 데이터의 분산(차이)이 매우 작기 때문에 Z2 변수는 세 데이터의 차이를 드러내지 않는다. 즉 필요없는 변수라고 볼 수 있다. 이렇게 세 개의 데이터(영희, 민주, 철이)를 공부시간, .. 2022. 4. 7.
R 다중공선성 VIF 값 계산 관련글 다중공선성(Multicollinearity)의 의미와 판별법 관련글 선형회귀분석 밑바닥부터 이해하기 관련글 상관관계와 상관계수 상관관계와 상관계수 1. 들어가며 연속형 변수 x, y의 관계는 상관관계(correlation) 분석을 통해 2가지 사실을 알 수 있다. diseny.tistory.com 1. 들어가며 관련글에서 다중공선성에 대한 이론적인 내용을 소개했으므로 이제 R을 이용해 VIF(분산팽창지수)를 계산하는 방법을 살펴보자. 2. library(car)이용 iris 데이터에서 Species 변수를 제외한 나머지 변수들로 다중회귀모델을 만들어 보자. reg_iris = lm(Sepal.Length ~ Sepal.Width + Petal.Length + Petal.Width, data=iri.. 2022. 4. 4.