통계 이론37 분산분석(ANOVA) 이해하는 가장 좋은 방법(2) ※ 이전글 분산분석(ANOVA) 이해하는 가장 좋은 방법(1)1. 들어가며 세 집단 이상의 비교에는 아노바(ANOVA)를 이용하는데 ANOVA는 Analysis of Variance의 줄임말이며 우리말로는 분산분석이다. 두 집단이든 세 집단이든 각 집단의 평균을 비교해 어디가 제일diseny.tistory.com1. 들어가며(1)편에서는 논리적인 흐름을 깨지 않기 위해 그냥 분산이라고만 언급했지만 이제 집단간 분산과 집단내 분산을 구체적으로 계산해 보자. 계산 방법을 몰라도 분산분석의 대략적인 개념을 이해하는데는 문제가 없지만 데이터의 변동성을 정확하게 이해하는 것이 언제나 유익하다. 수식을 이해할 때는 아주 작은 규모의 데이터가 좋다. 아래 표는 A, B, C 세 집단이 각기 3개의 .. 2022. 4. 22. 분산분석(ANOVA) 이해하는 가장 좋은 방법(1) 1. 들어가며세 집단 이상의 비교에는 아노바(ANOVA)를 이용하는데 ANOVA는 Analysis of Variance의 줄임말이며 우리말로는 분산분석이다. 두 집단이든 세 집단이든 각 집단의 평균을 비교해, 어디가 제일 높고 낮은지 확인하면 충분하다. 그런데 표본 데이터에서의 차이가 통계적으로 유의한지 검증해야 표본의 결과를 일반화할 수 있는데 이때 분산을 이용해 통계적 유의성을 검증하기 때문에 분산분석이라고 부른다. 두 집단 비교에서는 평균 차이를 이용했지만 세 집단 이상에서는 분산으로 통계적 유의성을 확인한다는 것에 유의해야 한다. 2. 두 집단의 평균 차이를 여러 번 하지 못하는 이유A, B, C 세 집단이 있다면 A : B, A : C, B : C를 각각 비교하면 되지 않겠냐고 생각할 수.. 2022. 4. 22. t-test 밑바닥부터 이해하기 확률, 확률변수 그리고 확률분포1. 들어가며 통계학은 기술통계와 추론통계로 구분되는데, 기술통계와 추론통계를 연결해주는 것이 확률분포이다. 그런데 확률분포를 이해하기 위해서는 먼저 확률을 알아야 하고 그 다음에 확diseny.tistory.com 1. 들어가며t-test는 일반적으로 가장 처음 배우는 기초 추론 통계 분석 방법이자 실질적으로 가장 많이 쓰이는 분석방법이다. t-test는 두 집단의 평균 차이를 비교한다. 예를 들어 남녀간의 연봉 차이, 지역별 소득 차이, 흡연자와 비흡연자의 혈압 차이 등 집단을 비교해야 할 일이 무척 많다. 그런데 집단간의 평균 비교는 그냥 두 집단의 평균을 계산하면 어느 쪽 평균이 더 높은지 금방 알 수 있기 때문에 분석이라는 단어가 과분할 정도로 간단한 작업이다. .. 2022. 4. 21. F분포 어디에 쓰일까? ※이전글 카이제곱 분포 관련글 확률, 확률변수 그리고 확률분포 1. 들어가며 통계학은 기술통계와 추론통계로 구분되는데, 기술통계와 추론통계를 연결해주는 것이 확률분포이다. 그런데 확률분포를 이해하기 위해서 diseny.tistory.com 1. 들어가며 당연한 말이지만 F분포는 F값의 확률분포라는 의미다. 그럼 F값이 무엇인지부터 알아야 한다. 2개의 확률변수 X, Y에 대해 각 확률변수를 다음과 같이 정의한다. 위의 식1, 식2에서 X, Y는 카이제곱 값을 자유도로 나눈 형태다. ※관련글 자유도(Degree of Freedom)에서 자유로워 지기 1. 들어가며 자유도는 통계학을 공부하다 보면 아마 제일 처음 만나는 알쏭달쏭한 개념이다. 최초로 등장하는 시기는 표본분산을 구할 때다. 표본으로 모분산을 추.. 2022. 4. 21. 카이제곱 분포 이해하기 확률, 확률변수 그리고 확률분포1. 들어가며 통계학은 기술통계와 추론통계로 구분되는데, 기술통계와 추론통계를 연결해주는 것이 확률분포이다. 그런데 확률분포를 이해하기 위해서는 먼저 확률을 알아야 하고 그 다음에 확diseny.tistory.com 1. 들어가며위의 관련글에서 확률분포는 추론 통계를 위해 필요한 이론이라고 설명했다. 기초 통계 수준에서 가장 많이 쓰이는 확률분포는 정규분포와 t분포, 카이제곱분포, F분포이다. 상대적으로 정규분포와 t분포는 이해하기 어렵지 않은데 카이제곱분포와 F분포는 조금 생각을 해봐야 한다. 이번 포스팅에서는 카이제곱 분포에 대해 알아보자. 2. 카이제곱 분포처럼 표준정규분포를 따르는 확률변수 집합에서 m개의 확률변수를 “독립적”으로 추출하는 경우를 생각해 보자. 독립.. 2022. 4. 19. 확률, 확률변수 그리고 확률분포 1. 들어가며통계학은 기술통계와 추론통계로 구분되는데, 기술통계와 추론통계를 연결해주는 것이 확률분포이다. 그런데 확률분포를 이해하기 위해서는 먼저 확률을 알아야 하고 그 다음에 확률변수를 알아야 최종적으로 확률분포를 이해할 수 있다. 대부분 대학에서 "확률과 통계"라는 이름으로 통계와 확률을 같이 배우는 이유는 우리가 배우는 통계의 핵심이 추론 통계이기 때문이다. 2. 확률과 확률변수어떤 사건(event) A가 발생할 확률은 사건 A가 발생할 수 있는 확실함의 정도를 의미한다. 특정한 시행(예를 들면 주사위를 한 번 던지는 경우)에 일어날 수 있는 모든 경우의 수가 n가지이고 사건 A가 발생할 수 있는 경우의 수가 a가지 일 때 사건 A가 일어날 확률은 다음과 같다. P(A) = a/n “.. 2022. 4. 18. 이전 1 2 3 4 5 ··· 7 다음