# naver search confirm # markdown number and equation '데이터분석' 태그의 글 목록 //google adsense
본문 바로가기

데이터분석8

평균의로의 회귀 1. 들어가며 노벨 경제학상을 수상하기도 했던 심리학자 대니얼 카너먼(Daniel Kahneman)은 명저 '생각에 관한 생각(Thinking, Fast and Slow)'에서 평균으로의 회귀 현상에 대한 좋은 사례를 소개합니다. 그가 이스라엘 공군사관학교에서 강의를 할 때였는데, 베테랑 교관 한 명이생도들이 비행을 잘못했을 때 벌을 주면 대개 다음 비행에서 잘 한다며 보상보다 벌이 더 효과가 좋다는 주장을 합니다. 하지만 대니얼 카너먼은 그런 현상은 단지 평균으로의 회귀 현상일뿐이라고 설명합니다. 평균으로의 회귀(Regression) 현상은 '회귀분석'이라는 이름의 유래이기도 한데, 회귀분석 결과 해석과도 밀접한 관련이 있습니다. 평균으로의 회귀 현상을 설명하기 위해 가상의 데이터로 실험하고 그 결과를.. 2024. 10. 18.
대격변 AI 시대, 한 권으로 끝내는 데이터과학, 확률, 통계, AI 특강 1. 들어가며 지금껏 나는 많은 데이터 관련 책을 읽고, 공부하고, 때로는 번역서를 출간하기도 했는데, 이 책은 번역서가 아니라 내가 집필한 책이라면 정말 좋았겠다는 욕심이 날 만큼 대단한 물건이었다. 처음 원서를 받고 장 제목 위주로 쑥 내용을 훑어보았을 때는 ‘내용이 너무 쉬운 거 아닌가?’ 하는 생각이 들었지만 번역을 위해 본격적으로 한 문장씩 내용을 음미하며 읽어나가기 시작한 순 간부터 마지막 장이 끝날 때까지, 저자들이 설정한 책의 기획 의도에 맞게 저술하기 위해 들인 노력, 그리고 데이터 분석과 통계에 관한 그들의 깊은 내공에 감탄을 멈출 수 없었다.  2. 책의 특징 흔히 “쉽게 쓰는 것이 가장 어렵다”고들 말한다. 그동안 이 말에 대해 이 성적으로는 동의하고 있었지만 정확한 사례를 경험한 .. 2024. 5. 22.
R 중복값을 갖는 행(row) 데이터 제거 이전글 R 결측값 시각화 1. 들어가며 일반적으로 summary(데이터프레임) 명령어로 각 변수의 결측값(Na's) 수를 확인할 수 있지만 변수별 결측값 수 또는 비율을 간편하게 시각화할 수 있는 패키지가 있다. 그러한 기능을 제 diseny.tistory.com 1. 들어가며 데이터 분석과정에서 중복된 값을 제거해야 할 일이 종종있다. 이런 작업을 수행하는 방법은 다양하지만 dplyr 패키지의 distinct 함수를 이용한 방법을 소개한다. 2. 샘플 데이터 생성 library(dplyr) A = c(2,2,4,4,4,5) B = c(2,2,4,4,8,10) C = c(2,2,5,6,7,5) ABC = data.frame(A,B,C) ABC 코드를 실행하면 다음과 같은 데이터 프레임을 얻을 수 있다. .. 2022. 5. 16.
로지스틱회귀와 친구되기(1) 선형회귀분석 밑바닥부터 이해하기관련글 상관관계와 상관계수 1. 들어가며 연속형 변수 x, y의 관계는 상관관계(correlation) 분석을 통해 2가지 사실을 알 수 있다. 관계의 방향 관계의 강도 보통 관계의 방향은 그래프를 그려 확인diseny.tistory.com 1. 들어가며회귀분석에서는 결과변수가 연속형 변수이었지만 결과변수가 범주형 변수일 때도 있다. 아래 표는 공부 시간, 시험 성적, 합격 여부(합격 : 1, 불합격 : 0) 데이터이다.  공부시간시험성적합격여부12501260…………..127023002310…………..910019991 아래 1>의 왼쪽 그래프는 결과 변수인 시험 성적이 연속형 변수이고 0부터 100까지 여러 범위에 걸쳐 분포하지만 오른쪽 그림은 결과 변수가 범주형 변수라서.. 2022. 4. 26.
범주별 다변수 통계량 계산(by 함수) 1. 들어가며 다변수를 범주별로 평균, 분산 등의 값을 계산하고 싶을 때가 있다. 예를 들어 R 내장 데이터 mtcars의 경우 cyl별(4, 6, 8) mpg, disp, hp 변수의 평균을 계산해야 하는 경우다. by 함수를 이용해 간단하게 계산 가능하다 2. 코드 cars = mtcars[ , c("mpg","disp","hp")] # mpg, disp, hp 변수 추출 후 cars에 저장 by(cars, mtcars$cyl, apply, 2, mean) # (2) (2) 코드의 주석 # by = 함수, # cars = 분석할 데이터 프레임 # mtcars$cyl =범주, # apply = 데이터 프레임의 열 또는 행에 특정 함수 일괄 적용 # 2 = 데이터 프레임 열에 적용, 1은 행에 적용 # .. 2022. 3. 3.
excel.link 1. 들어가며 R에서 전처리된 데이터, 또는 분석 결과를 엑셀로 이동해 리포트를 완성해야 할 경우가 많다. 이때 "excel.link"는 매우 간편하게 활용할 수 있는 패키지다. 2. 코드 library(excel.link) # (1) xl.sheet.add('new') # (2) xlrc[["a1"]] = mtcars # (3) 3. 코드 설명 # (1) 패키지 로드 # (2) 엑셀에 'new'라는 시트 생성. 시트를 지정하지 않으면 자동으로 Sheet1에 데이터가 저장된다. 이 말은 기존 엑셀 Sheet1에 어떤 데이터가 있으면 덮어 쓴다는 말이므로 주의 요망!! # (3) 엑셀의 new 시트, a1 셀을 기준으로 mtcars 데이터 이동 그 밖에 다양한 기능이 있지만 어차피 분석은 R에서하고 보고서.. 2022. 3. 2.