# naver search confirm # markdown number and equation '데이터분석' 태그의 글 목록 //google adsense
본문 바로가기

데이터분석7

대격변 AI 시대, 한 권으로 끝내는 데이터과학, 확률, 통계, AI 특강 1. 들어가며 지금껏 나는 많은 데이터 관련 책을 읽고, 공부하고, 때로는 번역서를 출간하기도 했는데, 이 책은 번역서가 아니라 내가 집필한 책이라면 정말 좋았겠다는 욕심이 날 만큼 대단한 물건이었다. 처음 원서를 받고 장 제목 위주로 쑥 내용을 훑어보았을 때는 ‘내용이 너무 쉬운 거 아닌가?’ 하는 생각이 들었지만 번역을 위해 본격적으로 한 문장씩 내용을 음미하며 읽어나가기 시작한 순 간부터 마지막 장이 끝날 때까지, 저자들이 설정한 책의 기획 의도에 맞게 저술하기 위해 들인 노력, 그리고 데이터 분석과 통계에 관한 그들의 깊은 내공에 감탄을 멈출 수 없었다.  2. 책의 특징 흔히 “쉽게 쓰는 것이 가장 어렵다”고들 말한다. 그동안 이 말에 대해 이 성적으로는 동의하고 있었지만 정확한 사례를 경험한 .. 2024. 5. 22.
R 중복값을 갖는 행(row) 데이터 제거 이전글 R 결측값 시각화 1. 들어가며 일반적으로 summary(데이터프레임) 명령어로 각 변수의 결측값(Na's) 수를 확인할 수 있지만 변수별 결측값 수 또는 비율을 간편하게 시각화할 수 있는 패키지가 있다. 그러한 기능을 제 diseny.tistory.com 1. 들어가며 데이터 분석과정에서 중복된 값을 제거해야 할 일이 종종있다. 이런 작업을 수행하는 방법은 다양하지만 dplyr 패키지의 distinct 함수를 이용한 방법을 소개한다. 2. 샘플 데이터 생성 library(dplyr) A = c(2,2,4,4,4,5) B = c(2,2,4,4,8,10) C = c(2,2,5,6,7,5) ABC = data.frame(A,B,C) ABC 코드를 실행하면 다음과 같은 데이터 프레임을 얻을 수 있다. .. 2022. 5. 16.
로지스틱회귀와 친구되기(1) 선형회귀분석 밑바닥부터 이해하기관련글 상관관계와 상관계수 1. 들어가며 연속형 변수 x, y의 관계는 상관관계(correlation) 분석을 통해 2가지 사실을 알 수 있다. 관계의 방향 관계의 강도 보통 관계의 방향은 그래프를 그려 확인diseny.tistory.com 1. 들어가며회귀분석에서는 결과변수가 연속형 변수이었지만 결과변수가 범주형 변수일 때도 있다. 아래 표는 공부 시간, 시험 성적, 합격 여부(합격 : 1, 불합격 : 0) 데이터이다.  공부시간시험성적합격여부12501260…………..127023002310…………..910019991 아래 1>의 왼쪽 그래프는 결과 변수인 시험 성적이 연속형 변수이고 0부터 100까지 여러 범위에 걸쳐 분포하지만 오른쪽 그림은 결과 변수가 범주형 변수라서.. 2022. 4. 26.
범주별 다변수 통계량 계산(by 함수) 1. 들어가며 다변수를 범주별로 평균, 분산 등의 값을 계산하고 싶을 때가 있다. 예를 들어 R 내장 데이터 mtcars의 경우 cyl별(4, 6, 8) mpg, disp, hp 변수의 평균을 계산해야 하는 경우다. by 함수를 이용해 간단하게 계산 가능하다 2. 코드 cars = mtcars[ , c("mpg","disp","hp")] # mpg, disp, hp 변수 추출 후 cars에 저장 by(cars, mtcars$cyl, apply, 2, mean) # (2) (2) 코드의 주석 # by = 함수, # cars = 분석할 데이터 프레임 # mtcars$cyl =범주, # apply = 데이터 프레임의 열 또는 행에 특정 함수 일괄 적용 # 2 = 데이터 프레임 열에 적용, 1은 행에 적용 # .. 2022. 3. 3.
excel.link 1. 들어가며 R에서 전처리된 데이터, 또는 분석 결과를 엑셀로 이동해 리포트를 완성해야 할 경우가 많다. 이때 "excel.link"는 매우 간편하게 활용할 수 있는 패키지다. 2. 코드 library(excel.link) # (1) xl.sheet.add('new') # (2) xlrc[["a1"]] = mtcars # (3) 3. 코드 설명 # (1) 패키지 로드 # (2) 엑셀에 'new'라는 시트 생성. 시트를 지정하지 않으면 자동으로 Sheet1에 데이터가 저장된다. 이 말은 기존 엑셀 Sheet1에 어떤 데이터가 있으면 덮어 쓴다는 말이므로 주의 요망!! # (3) 엑셀의 new 시트, a1 셀을 기준으로 mtcars 데이터 이동 그 밖에 다양한 기능이 있지만 어차피 분석은 R에서하고 보고서.. 2022. 3. 2.
다중공선성(Multicollinearity)의 의미와 판별법 관련글 선형회귀분석 밑바닥부터 이해하기 관련글 상관관계와 상관계수 상관관계와 상관계수 1. 들어가며 연속형 변수 x, y의 관계는 상관관계(correlation) 분석을 통해 2가지 사실을 알 수 있다. 관계의 방향 관계의 강도 보통 관계의 방향은 diseny.tistory.com 1. 기본개념 다중회귀분석은 점검해야 할 가정들이 꽤 많다. 그 중 하나가 다중공선성이다. 처음 학습하는 사람들은 모형에 투입되는 설명 변수간에 큰 상관 관계가 존재하면 회귀 모형 추정이 불안정해지므로 설명 변수의 분산팽창지수(VIF) 값 >10 이면 문제가 될 수 있으니 해당 변수를 모형에서 배제하라고 배운다. 다중공선성의 의미에 대해 조금 쉽게 다가가 보자. 2. 개념 하나씩 짚어 보기 (1) 모형을 만든다는 것의 의미 반.. 2022. 2. 16.