# naver search confirm # markdown number and equation '통계 이론' 카테고리의 글 목록 //google adsense
본문 바로가기

통계 이론35

상관계수의 크기에 대한 감 잡기 상관관계와 상관계수 1. 들어가며 연속형 변수 x, y의 관계는 상관관계(correlation) 분석을 통해 2가지 사실을 알 수 있다. 관계의 방향 관계의 강도 보통 관계의 방향은 그래프를 그려 확인하고, 관계의 강도는 그래프로 diseny.tistory.com 1. 들어가며 상관계수 값은 공식에 의해 -1에서 +1 사이에 있다는 것은 잘 알고 있는 사실이다. 그렇다면 실제 현장에서 어느 정도면 상관계수가 크다, 또는 작다고 말할 수 있을까? 우선 상관계수의 값과 산점도와의 관계를 유심히 살펴보는 것이 중요하다. 산점도를 보면 두 데이터(변수)가 시각적으로 어느 정도 관계가 강한지 대략 눈으로 볼 수 있기 때문이다. 위키피디아에 나오는 꽤 유용한 그림을 먼저 보자. 위의 첫번째 줄은 구체적인 상관계수에.. 2024. 4. 22.
로지스틱회귀와 친구되기(2) 이전글 로지스틱회귀와 친구되기(1) 관련글 선형회귀분석 밑바닥부터 이해하기 관련글 상관관계와 상관계수 1. 들어가며 연속형 변수 x, y의 관계는 상관관계(correlation) 분석을 통해 2가지 사실을 알 수 있다. 관계의 방향 관계의 강 diseny.tistory.com 1. 들어가며 이전글에서 로지스틱회귀 모델이 필요한 이유를 설명했다. 이번 글에서는 로지스틱회귀 모델 수식에 대해 살펴보자. 수식이 만들어지는 원리를 알아두면 로지스틱 회귀를 해석하는데 도움이 될 것이다. 아래 데이터는 이전글에서 설명했던 데이터와 동일하다. 시간 성적 합격 불합격 총인원 합격확률 0 25 1 17 18 0.06 1 30 1 15 16 0.06 2 40 1 14 15 0.07 3 50 3 20 23 0.13 4 75.. 2022. 4. 26.
로지스틱회귀와 친구되기(1) 관련글 선형회귀분석 밑바닥부터 이해하기 관련글 상관관계와 상관계수 1. 들어가며 연속형 변수 x, y의 관계는 상관관계(correlation) 분석을 통해 2가지 사실을 알 수 있다. 관계의 방향 관계의 강도 보통 관계의 방향은 그래프를 그려 확인 diseny.tistory.com 1. 들어가며 회귀분석에서는 결과변수가 연속형 변수이었지만 결과변수가 범주형 변수일 때도 있다. 아래 표는 공부 시간, 시험 성적, 합격 여부(합격 : 1, 불합격 : 0) 데이터이다. 공부시간 시험성적 합격여부 1 25 0 1 26 0 ………….. 1 27 0 2 30 0 2 31 0 ………….. 9 100 1 9 99 1 아래 의 왼쪽 그래프는 결과 변수인 시험 성적이 연속형 변수이고 0부터 100까지 여러 범위에 걸쳐 분.. 2022. 4. 26.
분산분석(ANOVA) 이해하는 가장 좋은 방법(3) 1. 들어가며 이전글(아래 참고)은 세 집단의 차이를 비교하는 일원분산분석(one way anova)을 설명했다. 분산분석(ANOVA) 이해하는 가장 좋은 방법(2) ※ 이전글 분산분석(ANOVA) 이해하는 가장 좋은 방법(1) 1. 들어가며 세 집단 이상의 비교에는 아노바(ANOVA)를 이용하는데 ANOVA는 Analysis of Variance의 줄임말이며 우리말로는 분산분석이다. 두 집단이 diseny.tistory.com 이번에는 세 집단마다 하위 범주가 있는 경우를 생각해 보자. 통계학 용어로 하자면 독립변수가 2개 존재하는 이원분산분석(two way nova)을 의미한다. 아래 표를 보면 A, B, C 세 집단에 하위 범주인 성별(남, 녀)이 구분되어 있다. A, B, C를 편의상 혈액형이라고.. 2022. 4. 25.
분산분석(ANOVA) 이해하는 가장 좋은 방법(2) ※ 이전글 분산분석(ANOVA) 이해하는 가장 좋은 방법(1)1. 들어가며 세 집단 이상의 비교에는 아노바(ANOVA)를 이용하는데 ANOVA는 Analysis of Variance의 줄임말이며 우리말로는 분산분석이다. 두 집단이든 세 집단이든 각 집단의 평균을 비교해 어디가 제일diseny.tistory.com1. 들어가며(1)편에서는 논리적인 흐름을 깨지 않기 위해 그냥 분산이라고만 언급했지만 이제 집단간 분산과 집단내 분산을 구체적으로 계산해 보자. 계산 방법을 몰라도 분산분석의 대략적인 개념을 이해하는데는 문제가 없지만 데이터의 변동성을 정확하게 이해하는 것이 언제나 유익하다. 수식을 이해할 때는 아주 작은 규모의 데이터가 좋다. 아래 표는 A, B, C 세 집단이 각기 3개의 .. 2022. 4. 22.
분산분석(ANOVA) 이해하는 가장 좋은 방법(1) 1. 들어가며 세 집단 이상의 비교에는 아노바(ANOVA)를 이용하는데 ANOVA는 Analysis of Variance의 줄임말이며 우리말로는 분산분석이다. 두 집단이든 세 집단이든 각 집단의 평균을 비교해 어디가 제일 높고 낮은지 확인하면 충분하다. 그런데 표본 데이터에서의 차이가 통계적으로 유의한지 검증해야 표본의 결과를 일반화할 수 있는데 이때 분산을 이용해 통계적 유의성을 검증하기 때문에 분산분석이라고 부른다. 두 집단 비교에서는 평균 차이를 이용했지만 세 집단 이상에서는 분산으로 통계적 유의성을 확인한다는 것에 유의해야 한다. 2. 두 집단의 평균 차이를 여러 번 하지 못하는 이유 A, B, C 세 집단이 있다면 A : B, A : C, B : C를 각각 비교하면 되지 않겠냐고 생각할 수 있다.. 2022. 4. 22.