# naver search confirm # markdown number and equation 의미를 이해하는 통계학과 데이터 분석 //google adsense
본문 바로가기

전체 글94

R_요인분석(psych 패키지) 관련글 탐색적 요인분석(EFA : Exploratory Factor Analysis) 1. 기본개념 사회과학이나 심리학에서는 직접적으로 측정할 수 없는 변수를 잠재 변수(latent variable), 요인(factor), 구인(construct), 구성 개념 등으로 부른다. 데이터 분석 측면에서 보자면 보통 어떤 diseny.tistory.com 1. 데이터 생성 아래의 코드로 샘플 데이터 프레임을 생성한다. A = c(87, 55, 81, 42, 45, 54) B = c(92, 72, 95, 55, 87, 66) C = c(67, 82, 38, 55, 50, 82) D = c(40, 88, 35, 39, 57, 80) E = c(50, 88, 45, 50, 62, 90) color = data.fra.. 2022. 3. 3.
범주별 다변수 통계량 계산(by 함수) 1. 들어가며 다변수를 범주별로 평균, 분산 등의 값을 계산하고 싶을 때가 있다. 예를 들어 R 내장 데이터 mtcars의 경우 cyl별(4, 6, 8) mpg, disp, hp 변수의 평균을 계산해야 하는 경우다. by 함수를 이용해 간단하게 계산 가능하다 2. 코드 cars = mtcars[ , c("mpg","disp","hp")] # mpg, disp, hp 변수 추출 후 cars에 저장 by(cars, mtcars$cyl, apply, 2, mean) # (2) (2) 코드의 주석 # by = 함수, # cars = 분석할 데이터 프레임 # mtcars$cyl =범주, # apply = 데이터 프레임의 열 또는 행에 특정 함수 일괄 적용 # 2 = 데이터 프레임 열에 적용, 1은 행에 적용 # .. 2022. 3. 3.
분산으로 평균차이 검증하기(분산분석) 1. 들어가며 두 표본의 평균 차이를 검증하는 T분석 방법을 배운 뒤, 세 집단(표본) 이상을 분석하려면 분산분석(ANOVA)을 해야 한다고 배운다. 왜 평균의 차이를 분산으로 분석하는거지? 라는 의문이 들고, 또한 분산분석은 적어도 하나의 집단 평균이 다른 집단과 다르다는 것을 검증할 뿐이라는 설명도 아리송하다. 이와 같은 의문을 수식을 사용하지 않고 직관적으로 이해해 보자. 2. 총분산의 분해 분산분석을 이해하는 첫 번째 단계는 총분산의 분해다. 총분산이란 집단을 구분하지 않고 모든 표본 데이터에서 구한 분산이다. 총분산은 다음과 같이 분해된다. 총분산 = 집단내 분산 + 집단간 분산 표본 데이터를 집단별로 나누었을 때, 총분산은 집단내에서의 분산과 집단끼리의 분산으로 분리될 수 있다. 결론적으로 방.. 2022. 3. 2.
excel.link 1. 들어가며 R에서 전처리된 데이터, 또는 분석 결과를 엑셀로 이동해 리포트를 완성해야 할 경우가 많다. 이때 "excel.link"는 매우 간편하게 활용할 수 있는 패키지다. 2. 코드 library(excel.link) # (1) xl.sheet.add('new') # (2) xlrc[["a1"]] = mtcars # (3) 3. 코드 설명 # (1) 패키지 로드 # (2) 엑셀에 'new'라는 시트 생성. 시트를 지정하지 않으면 자동으로 Sheet1에 데이터가 저장된다. 이 말은 기존 엑셀 Sheet1에 어떤 데이터가 있으면 덮어 쓴다는 말이므로 주의 요망!! # (3) 엑셀의 new 시트, a1 셀을 기준으로 mtcars 데이터 이동 그 밖에 다양한 기능이 있지만 어차피 분석은 R에서하고 보고서.. 2022. 3. 2.
가설검증과 1종 오류 1. 들어가며가설을 검증한다는 말은 검증하는 사람(분석가)이 명확한 근거를 갖고 있거나 정답을 알고 있다는 뉘앙스를 가진다. 그러나 검증이라는 표현보다는 결단을 내린다는 말이 사실에 더 가깝다. 판단에 대한 기준을 갖고 있긴 하지만 그 기준 자체가 절대적인 것은 아니며 그렇기 때문에 오류 가능성이 필연적으로 존재할 수 밖에 없다.      2. 통계량통계량은 표본 데이터를 계산해서 얻어 낸 값이다. 표본에서 구한 평균, 분산, 표준편차 이런 것들도 모두 통계량이지만 일반적으로 카이제곱값, T값, F값 등을 의미한다. 무엇이 되었든 통계량은 귀무가설이 맞다는 가정하에 생성된 확률 분포를 기반으로 특정한 값 이상을 얻을 확률을 가진다.   3. 귀무가설과 확률분포과 같이 귀무가설이 맞다는 가정하에 그려진 T.. 2022. 2. 24.
다중공선성(Multicollinearity)의 의미와 판별법 관련글 선형회귀분석 밑바닥부터 이해하기 관련글 상관관계와 상관계수 상관관계와 상관계수 1. 들어가며 연속형 변수 x, y의 관계는 상관관계(correlation) 분석을 통해 2가지 사실을 알 수 있다. 관계의 방향 관계의 강도 보통 관계의 방향은 diseny.tistory.com 1. 기본개념 다중회귀분석은 점검해야 할 가정들이 꽤 많다. 그 중 하나가 다중공선성이다. 처음 학습하는 사람들은 모형에 투입되는 설명 변수간에 큰 상관 관계가 존재하면 회귀 모형 추정이 불안정해지므로 설명 변수의 분산팽창지수(VIF) 값 >10 이면 문제가 될 수 있으니 해당 변수를 모형에서 배제하라고 배운다. 다중공선성의 의미에 대해 조금 쉽게 다가가 보자. 2. 개념 하나씩 짚어 보기 (1) 모형을 만든다는 것의 의미 반.. 2022. 2. 16.
효과 크기(Effect Size)의 의미와 필요성 1. 들어가며 기초 추론 통계 방법 중, 두 집단의 평균차이 검증(T-test)이 있다. 두 표본의 평균 차이가 모집단 차원에서도 있는 것인지 아니면 표본에서만 우연히 차이가 있는지 검증하는 방법이다. 많이 알려진 사실이지만 이 검증 방법은 원리상 표본이 충분히 크면 대부분 통계적으로 유의하다고 나온다. 그래서 통계적 유의성 뿐만 아니라 효과크기(Effect Size) 값도 함께 제시되는 것이 좋다. 관련글 t-test 밑바닥부터 이해하기 ※ 관련글 확률, 확률변수 그리고 확률분포 1. 들어가며 통계학은 기술통계와 추론통계로 구분되는데, 기술통계와 추론통계를 연결해주는 것이 확률분포이다. 그런데 확률분포를 이해하기 위해 diseny.tistory.com 2. 효과크기란? 효과 크기 값은 Cohen's D.. 2022. 2. 14.
블로거 소개 아주대 교수학습개발센터 박사AI기반 적응형 학습(AI based Adaptive Learning), 학습분석(Learning Analytics) 연구 저서2021년 아무도 모르는 악당(화이트웨이브)2016년 스테파네트 아가씨를 찾아 헤맨 나날들(황금가지)2016년 VR, 가까운 미래(리디북스)역서2024년 대격변 AI 시대, 데이터로 사고하고, 데이터로 리드하라(책만)2024년 디자인, 이것만 알면 쉬워져요(with 63가지 LESSON)(책만)2020년 핵심 딥러닝 입문(책만)2020년 데이터 과학 트레이닝 북(인사이트)2020년 IT 개발자의 영어 필살기(책만)2019년 대학혁신을 위한 빅데이터와 학습분석(시그마 프레스)2019년 실체가 손에 잡히는 딥러닝(책만)2015년 데이터 시각화, 인지과학을 .. 2022. 2. 7.