r데이터분석9 R 크론바흐 알파 값 계산 관련글 도구의 신뢰도 측정(크론바흐 알파) 관련글 탐색적 요인분석(EFA : Exploratory Factor Analysis) 1. 기본개념 사회과학이나 심리학에서는 직접적으로 측정할 수 없는 변수를 잠재 변수(latent variable), 요인(factor), 구인(construct), 구성 개념.. diseny.tistory.com 1. 들어가며 R을 이용해 Cronbach alpha(내적 일치도) 값을 구하는 방법은 다양하지만 가장 많이 사용하는 psych 패키지를 이용하는 방법을 살펴보자. 2. 예제 데이터 실제 설문 조사 데이터를 활용해 보자. 샘플은 68개의 행 데이터와 5개의 변수를 포함하는 설문 조사 데이터다. 다섯개의 변수(Q1 ~ Q5)는 하나의 구성개념(construct)을 묻는 .. 2022. 5. 13. R 결측값 시각화 이전글 createDummyFeatures 이전글 DataExplorer 1. 들어가며 탐색적 데이터 분석(EDA : Exploratory Data Analysis)는 데이터 분석 초기 단계에서 매우 중요하다. 분석가가 데이터를 받아 처음 작업할 때는 데이터의 구조와, 특징, 분포, diseny.tistory.com 1. 들어가며 일반적으로 summary(데이터프레임) 명령어로 각 변수의 결측값(Na's) 수를 확인할 수 있지만 변수별 결측값 수 또는 비율을 간편하게 시각화할 수 있는 패키지가 있다. 그러한 기능을 제공하는 naniar 패키지 활용법에 대해 알아보자. 2. 패키지 및 문법 library(ggplot2) library(naniar) gg_miss_var(airquality) R 내장 데이터.. 2022. 5. 13. R 교차표 작성 1. 들어가며 데이터 분석 또는 보고서 작성시 범주형 데이터의 빈도(frequency)를 교차표(cross table)로 작성해야 할 경우가 많다. 주로 엑셀로 작업을 하는 경우가 많지만 간단하게 R 코드로 작업하는 법을 알아보자. 2. 예제 데이터 R 패키지는 특정한 기능을 수행하는 함수들의 집합이지만 대부분 내장 데이터 셋을 포함하고 있다. 특정 패키지에 포함된 내장 데이터를 보기 위해서는 아래와 같이 코딩하면 된다. data(package="MASS") # 인자에 패키지 이름을 적는다 내장 데이터 중에서 survey 데이터의 구조를 보자. str(survey) 12개의 변수와 237개의 행 데이터를 포함하고 있다. 12개의 변수 중 Sex, W.Hnd, Fold, Clap, Exer, Smoke, .. 2022. 4. 8. R 주성분 분석 1. 들어가며 주성분 분석(PCA : Principal Component Analysis)은 데이터에 변수가 많을 때 변수의 수를 축약하는 방법이다. 은 세 개의 데이터를 x축(공부시간), y축(성적)으로 표현한 그래프다. 세 개의 데이터(영희, 민주, 철이)는 x축 기준으로도 분산(값 차이)이 존재하고 y축으로도 분산이 존재하는 것을 알 수 있다. 그런데 이 데이터는 처럼 새로운 변수 Z1축과 Z2축을 만들어 그래프로 나타낼 수 있다. 를 보면 사실상 Z1 축으로 데이터의 차이를 거의 다 설명할 수 있고 Z2축으로는 세 데이터의 분산(차이)이 매우 작기 때문에 Z2 변수는 세 데이터의 차이를 드러내지 않는다. 즉 필요없는 변수라고 볼 수 있다. 이렇게 세 개의 데이터(영희, 민주, 철이)를 공부시간, .. 2022. 4. 7. R 다중공선성 VIF 값 계산 관련글 다중공선성(Multicollinearity)의 의미와 판별법 관련글 선형회귀분석 밑바닥부터 이해하기 관련글 상관관계와 상관계수 상관관계와 상관계수 1. 들어가며 연속형 변수 x, y의 관계는 상관관계(correlation) 분석을 통해 2가지 사실을 알 수 있다. diseny.tistory.com 1. 들어가며 관련글에서 다중공선성에 대한 이론적인 내용을 소개했으므로 이제 R을 이용해 VIF(분산팽창지수)를 계산하는 방법을 살펴보자. 2. library(car)이용 iris 데이터에서 Species 변수를 제외한 나머지 변수들로 다중회귀모델을 만들어 보자. reg_iris = lm(Sepal.Length ~ Sepal.Width + Petal.Length + Petal.Width, data=iri.. 2022. 4. 4. wide & long 데이터 형태 전환 1. 들어가며 데이터를 분석하기 전에 데이터의 형태를 변환해야 하는 일은 매우 빈번하게 발생한다. 특히 ggplot2 패키지를 이용해 데이터를 시각화할 때는 데이터의 형태를 긴(long) 형태로 바꿔야 하는 일이 많다. 데이터 전처리에서 필수적으로 익혀야 wide & long 데이터 프레임 변환에 대해 알아보자. 2. wide & long 형태란? 하나의 행에 여러가지 값을 담고 있는 데이터 프레임을 wide 형태라고 볼 수 있다. 아래 은 wide 형태와 long 형태의 데이터 프레임 예를 보여준다. 일반적으로 wide 형태의 포맷에 익숙하지만 분석의 목적에 따라 long 형태로 바꿔야 할 일이 자주 발생한다. 이때 사용할 수 있는 R 패키지는 다양한데, 가장 대표적인 reshape2 패키지를 이용해 .. 2022. 4. 4. 이전 1 2 다음