전체 글94 R 확인적 요인분석(CFA) 1. 들어가며 R을 이용해 확인적 요인분석(Comfirmatory Factor Analysis)을 해보자. 데이터는 설문 조사 데이터를 이용한다. 2. 데이터 구조 파악 예제 데이터는 68개의 행 데이터와 12개의 변수로 구성된 데이터프레임이다. 요인과 관측변수의 관계는 다음과 같다. 요인A = A1 + A2 + A3 + A4 + A5 + A6 요인B = B1 + B2 + B3 + B4 + B5 + B6 3. R 코드 실행 library(lavaan) # CFA 분석을 위한 패키지 library(semPlot) # 구조도를 그리기 위한 패키지 cfa_sample = read.csv("cfa_sample.csv") # 데이터 입력 cfa_model = ' Construct_A =~ A1 + A2 + A3 .. 2022. 5. 13. R 크론바흐 알파 값 계산 관련글 도구의 신뢰도 측정(크론바흐 알파) 관련글 탐색적 요인분석(EFA : Exploratory Factor Analysis) 1. 기본개념 사회과학이나 심리학에서는 직접적으로 측정할 수 없는 변수를 잠재 변수(latent variable), 요인(factor), 구인(construct), 구성 개념.. diseny.tistory.com 1. 들어가며 R을 이용해 Cronbach alpha(내적 일치도) 값을 구하는 방법은 다양하지만 가장 많이 사용하는 psych 패키지를 이용하는 방법을 살펴보자. 2. 예제 데이터 실제 설문 조사 데이터를 활용해 보자. 샘플은 68개의 행 데이터와 5개의 변수를 포함하는 설문 조사 데이터다. 다섯개의 변수(Q1 ~ Q5)는 하나의 구성개념(construct)을 묻는 .. 2022. 5. 13. R 결측값 시각화 이전글 createDummyFeatures 이전글 DataExplorer 1. 들어가며 탐색적 데이터 분석(EDA : Exploratory Data Analysis)는 데이터 분석 초기 단계에서 매우 중요하다. 분석가가 데이터를 받아 처음 작업할 때는 데이터의 구조와, 특징, 분포, diseny.tistory.com 1. 들어가며 일반적으로 summary(데이터프레임) 명령어로 각 변수의 결측값(Na's) 수를 확인할 수 있지만 변수별 결측값 수 또는 비율을 간편하게 시각화할 수 있는 패키지가 있다. 그러한 기능을 제공하는 naniar 패키지 활용법에 대해 알아보자. 2. 패키지 및 문법 library(ggplot2) library(naniar) gg_miss_var(airquality) R 내장 데이터.. 2022. 5. 13. R을 이용한 t-test와 효과 크기 계산 관련글 t-test 밑바닥부터 이해하기 ※ 관련글 확률, 확률변수 그리고 확률분포 1. 들어가며 통계학은 기술통계와 추론통계로 구분되는데, 기술통계와 추론통계를 연결해주는 것이 확률분포이다. 그런데 확률분포를 이해하기 위해 diseny.tistory.com 1. 들어가며 위의 관련글에서 두 표본(독립표본)의 평균 차이 검증에 대한 이론을 살펴보았다. 이제 R을 이용해 t-test를 실행하고 효과 크기(effect size)를 간편하게 산출해보자. 2. 예제 데이터 데이터는 UC Irvine Machine Learning Repository에서 제공하는 adult 데이터를 활용한다. 아래 코드는 웹 사이트에서 데이터를 읽어 들이고 변수 이름을 지정한다. adult 2022. 5. 4. R 랜덤포레스트(randomforest) 관련글 R_의사결정나무 분석(rpart) 관련글 의사결정나무(decision tree) 관련글 선형회귀분석 밑바닥부터 이해하기 관련글 상관관계와 상관계수 상관관계와 상관계수 1. 들어가며 연속형 변수 x, y의 관계는 상관관계(correlation) 분석을 diseny.tistory.com 1. 들어가며 실전에서 분류 목적으로 의사결정나무 알고리즘을 사용하는 경우는 드물다. 왜냐하면 과적합면에서 다소 취약하기 때문이다. 따라서 이를 보완하는 방법 중에 하나인 랜덤포레스트를 많이 이용한다. 실제 R을 이용해 랜덤포레스트 모델을 구축하는 방법을 알아보자. 2. 예제 데이터 library(caret) # GermanCredit 데이터를 활용하기 위해 library(randomForest) data(German.. 2022. 5. 3. createDummyFeatures 이전글 DataExplorer 1. 들어가며 탐색적 데이터 분석(EDA : Exploratory Data Analysis)는 데이터 분석 초기 단계에서 매우 중요하다. 분석가가 데이터를 받아 처음 작업할 때는 데이터의 구조와, 특징, 분포, 결측값 등에 대 diseny.tistory.com 1. 들어가며 통계분석이나 머신러닝에서 범주형 변수(질적변수)를 더미 변수로 변경해야 할 일이 많다. 이때 간편하게 활용할 수 있는 패키지가 "mlr"이며 createDummyFeatures 함수가 그 기능을 한다. 2. 예제 데이터 iris 데이터를 활용해 보자. 많이 알려져 있듯이 iris 데이터에는 Species라는 범주형 변수가 존재한다. 이 범주형 변수를 더미 변수로 바꿔보자. head(iris) iris 데.. 2022. 5. 2. R_의사결정나무 분석(rpart) 관련글 의사결정나무(decision tree) 관련글 선형회귀분석 밑바닥부터 이해하기 관련글 상관관계와 상관계수 상관관계와 상관계수 1. 들어가며 연속형 변수 x, y의 관계는 상관관계(correlation) 분석을 통해 2가지 사실을 알 수 있다. diseny.tistory.com 1. 들어가며 R 코드를 이용해 실제로 의사결정나무분석을 해보자. 의사결정나무 알고리즘으로 irisi 데이터의 Species 범주(setosa, versicolor, virginica)를 분류한다. 2. 데이터 분할 iris 데이터를 70%의 학습데이터와 30%의 테스트 데이터로 랜덤하게 분할한다. 그런데 분할 이전에 먼저 전체 데이터에서 Species 범주에 해당하는 데이터의 비율을 확인해야 한다. 왜냐하면 임의 분할된 학.. 2022. 5. 2. 로지스틱회귀와 친구되기(2) 이전글 로지스틱회귀와 친구되기(1) 관련글 선형회귀분석 밑바닥부터 이해하기 관련글 상관관계와 상관계수 1. 들어가며 연속형 변수 x, y의 관계는 상관관계(correlation) 분석을 통해 2가지 사실을 알 수 있다. 관계의 방향 관계의 강 diseny.tistory.com 1. 들어가며 이전글에서 로지스틱회귀 모델이 필요한 이유를 설명했다. 이번 글에서는 로지스틱회귀 모델 수식에 대해 살펴보자. 수식이 만들어지는 원리를 알아두면 로지스틱 회귀를 해석하는데 도움이 될 것이다. 아래 데이터는 이전글에서 설명했던 데이터와 동일하다. 시간 성적 합격 불합격 총인원 합격확률 0 25 1 17 18 0.06 1 30 1 15 16 0.06 2 40 1 14 15 0.07 3 50 3 20 23 0.13 4 75.. 2022. 4. 26. 이전 1 2 3 4 5 6 7 ··· 12 다음