통계 이론37 평균의로의 회귀 1. 들어가며 노벨 경제학상을 수상하기도 했던 심리학자 대니얼 카너먼(Daniel Kahneman)은 명저 '생각에 관한 생각(Thinking, Fast and Slow)'에서 평균으로의 회귀 현상에 대한 좋은 사례를 소개합니다. 그가 이스라엘 공군사관학교에서 강의를 할 때였는데, 베테랑 교관 한 명이생도들이 비행을 잘못했을 때 벌을 주면 대개 다음 비행에서 잘 한다며 보상보다 벌이 더 효과가 좋다는 주장을 합니다. 하지만 대니얼 카너먼은 그런 현상은 단지 평균으로의 회귀 현상일뿐이라고 설명합니다. 평균으로의 회귀(Regression) 현상은 '회귀분석'이라는 이름의 유래이기도 한데, 회귀분석 결과 해석과도 밀접한 관련이 있습니다. 평균으로의 회귀 현상을 설명하기 위해 가상의 데이터로 실험하고 그 결과를.. 2024. 10. 18. 대격변 AI 시대, 한 권으로 끝내는 데이터과학, 확률, 통계, AI 특강 1. 들어가며 지금껏 나는 많은 데이터 관련 책을 읽고, 공부하고, 때로는 번역서를 출간하기도 했는데, 이 책은 번역서가 아니라 내가 집필한 책이라면 정말 좋았겠다는 욕심이 날 만큼 대단한 물건이었다. 처음 원서를 받고 장 제목 위주로 쑥 내용을 훑어보았을 때는 ‘내용이 너무 쉬운 거 아닌가?’ 하는 생각이 들었지만 번역을 위해 본격적으로 한 문장씩 내용을 음미하며 읽어나가기 시작한 순 간부터 마지막 장이 끝날 때까지, 저자들이 설정한 책의 기획 의도에 맞게 저술하기 위해 들인 노력, 그리고 데이터 분석과 통계에 관한 그들의 깊은 내공에 감탄을 멈출 수 없었다. 2. 책의 특징 흔히 “쉽게 쓰는 것이 가장 어렵다”고들 말한다. 그동안 이 말에 대해 이 성적으로는 동의하고 있었지만 정확한 사례를 경험한 .. 2024. 5. 22. 상관계수의 크기에 대한 감 잡기 상관관계와 상관계수 1. 들어가며 연속형 변수 x, y의 관계는 상관관계(correlation) 분석을 통해 2가지 사실을 알 수 있다. 관계의 방향 관계의 강도 보통 관계의 방향은 그래프를 그려 확인하고, 관계의 강도는 그래프로 diseny.tistory.com 1. 들어가며 상관계수 값은 공식에 의해 -1에서 +1 사이에 있다는 것은 잘 알고 있는 사실이다. 그렇다면 실제 현장에서 어느 정도면 상관계수가 크다, 또는 작다고 말할 수 있을까? 우선 상관계수의 값과 산점도와의 관계를 유심히 살펴보는 것이 중요하다. 산점도를 보면 두 데이터(변수)가 시각적으로 어느 정도 관계가 강한지 대략 눈으로 볼 수 있기 때문이다. 위키피디아에 나오는 꽤 유용한 그림을 먼저 보자. 위의 첫번째 줄은 구체적인 상관계수에.. 2024. 4. 22. 로지스틱회귀와 친구되기(2) 이전글 로지스틱회귀와 친구되기(1) 관련글 선형회귀분석 밑바닥부터 이해하기 관련글 상관관계와 상관계수 1. 들어가며 연속형 변수 x, y의 관계는 상관관계(correlation) 분석을 통해 2가지 사실을 알 수 있다. 관계의 방향 관계의 강 diseny.tistory.com 1. 들어가며 이전글에서 로지스틱회귀 모델이 필요한 이유를 설명했다. 이번 글에서는 로지스틱회귀 모델 수식에 대해 살펴보자. 수식이 만들어지는 원리를 알아두면 로지스틱 회귀를 해석하는데 도움이 될 것이다. 아래 데이터는 이전글에서 설명했던 데이터와 동일하다. 시간 성적 합격 불합격 총인원 합격확률 0 25 1 17 18 0.06 1 30 1 15 16 0.06 2 40 1 14 15 0.07 3 50 3 20 23 0.13 4 75.. 2022. 4. 26. 로지스틱회귀와 친구되기(1) 선형회귀분석 밑바닥부터 이해하기관련글 상관관계와 상관계수 1. 들어가며 연속형 변수 x, y의 관계는 상관관계(correlation) 분석을 통해 2가지 사실을 알 수 있다. 관계의 방향 관계의 강도 보통 관계의 방향은 그래프를 그려 확인diseny.tistory.com 1. 들어가며회귀분석에서는 결과변수가 연속형 변수이었지만 결과변수가 범주형 변수일 때도 있다. 아래 표는 공부 시간, 시험 성적, 합격 여부(합격 : 1, 불합격 : 0) 데이터이다. 공부시간시험성적합격여부12501260…………..127023002310…………..910019991 아래 1>의 왼쪽 그래프는 결과 변수인 시험 성적이 연속형 변수이고 0부터 100까지 여러 범위에 걸쳐 분포하지만 오른쪽 그림은 결과 변수가 범주형 변수라서.. 2022. 4. 26. 분산분석(ANOVA) 이해하는 가장 좋은 방법(3) 1. 들어가며이전글(아래 참고)은 세 집단의 차이를 비교하는 일원분산분석(one way anova)을 설명했다. 분산분석(ANOVA) 이해하는 가장 좋은 방법(2)※ 이전글 분산분석(ANOVA) 이해하는 가장 좋은 방법(1) 1. 들어가며 세 집단 이상의 비교에는 아노바(ANOVA)를 이용하는데 ANOVA는 Analysis of Variance의 줄임말이며 우리말로는 분산분석이다. 두 집단이diseny.tistory.com 이번에는 세 집단마다 하위 범주가 있는 경우를 생각해 보자. 통계학 용어로 하자면 독립변수가 2개 존재하는 이원분산분석(two way nova)을 의미한다. 아래 표를 보면 A, B, C 세 집단에 하위 범주인 성별(남, 녀)이 구분되어 있다. A, B, C를 편의상 혈액형이라고 하.. 2022. 4. 25. 이전 1 2 3 4 ··· 7 다음