# naver search confirm # markdown number and equation '통계 이론' 카테고리의 글 목록 (4 Page) //google adsense
본문 바로가기

통계 이론37

표준편차와 추론 통계 관련글 가설검증과 1종 오류 1. 들어가며 가설을 검증한다는 말은 검증하는 사람(분석가)이 명확한 근거를 갖고 있거나 정답을 알고 있다는 뉘앙스를 가진다. 그러나 검증이라는 표현보다는 결단을 내린다는 말이 사실에 더 diseny.tistory.com 가설검증과 2종오류 지난글 가설검증과 1종 오류 1. 들어가며 지난 글에서 가설검증과 1종오류에 대해 다뤘다. 이제 2종 오류에 대해 생각해보자. 1종 오류는 귀무가설이 맞는데도 귀무가설을 기각하는 오류다. 반변, diseny.tistory.com 1. 들어가며 통계학은 기술통계(descriptive statistics)와 추론 통계(inference statistics)로 나뉜다. 표본(sample) 데이터의 특징만 분석하는 것이 기술통계라면 표본 데이터에.. 2022. 3. 24.
ROC 곡선 아주 쉽게 이해하기 1. 들어가며 통계 또는 머신러닝 모델을 만든 후에는 모델의 성능을 측정해야 한다. 대표적인 성능 측정 방법으로 혼동행렬과 ROC곡선이 있다. 혼동행렬표가 이해하기 쉬운데 반해 ROC 곡선은 직관적으로 이해하기에 다소 어렵다. ROC 곡선을 의미를 그림을 통해 쉽게 이해해보자. ※ 관련글 : 혼동행렬(confusion matrix) 1. 들어가며 이분형 예측 통계(머신러닝) 모델은 예측의 성능을 측정하는 기준이 필요하다. 이때 가장 대표적으로 이용되는 측정 지표가 혼동행렬표이다. 혼동행렬표로부터 모델의 성능을 측정 diseny.tistory.com 2. 전형적인 ROC 곡선 출처 : https://www.ncbi.nlm.nih.gov/books/NBK549564/figure/ch12.Fig6/ 위의 은 .. 2022. 3. 21.
결정계수(R^2)의 이해 관련글 선형회귀분석 밑바닥부터 이해하기 관련글 상관관계와 상관계수 상관관계와 상관계수 1. 들어가며 연속형 변수 x, y의 관계는 상관관계(correlation) 분석을 통해 2가지 사실을 알 수 있다. 관계의 방향 관계의 강도 보통 관계의 방향은 diseny.tistory.com 1. 들어가며 선형회귀분석에서 모델의 적합도를 판단할 때, 결정계수(R^2)값이 중요한 판단 근거가 된다. 결정계수(R squared)의 의미에 대해 살펴보자. 2. 모델의 의미 예를 들어 과 같이 A ~ G(7명) 학생의 수학성적을 Y라고 했을 때 이 값들을 Y축 기준으로 나열해보자. 수학성적(Y)이라는 데이터를 이용해 구할 수 있는 것은 평균(88)과 표준편차(5.8)뿐이다. 그런데 각 학생들의 공부시간 데이터가 존재하고 .. 2022. 3. 8.
가설검증과 2종오류 지난글 가설검증과 1종 오류 1. 들어가며 가설을 검증한다는 말은 검증하는 사람(분석가)이 명확한 근거를 갖고 있거나 정답을 알고 있다는 뉘앙스를 가진다. 그러나 검증이라는 표현보다는 결단을 내린다는 말이 사실에 더 diseny.tistory.com 1. 들어가며 지난 글에서 가설검증과 1종오류에 대해 다뤘다. 이제 2종 오류에 대해 생각해보자. 1종 오류는 귀무가설이 맞는데도 귀무가설을 기각하는 오류다. 반변, 2종 오류는 귀무가설이 틀렸는데 귀무가설을 기각하지 않는 오류다. 2. 유치한 외우기 1종오류와 2종오류는 설명을 들었을 때는 어렵지 않게 이해가 되는데 나중에 기억하려면 조금 헷갈린다. 그래서 유치하지만 아래와 같은 단어로 외워 두면 좋다. 더 깊은 이해는 핵심 개념의 탄탄한 암기가 바탕이 되.. 2022. 3. 6.
분산으로 평균차이 검증하기(분산분석) 1. 들어가며 두 표본의 평균 차이를 검증하는 T분석 방법을 배운 뒤, 세 집단(표본) 이상을 분석하려면 분산분석(ANOVA)을 해야 한다고 배운다. 왜 평균의 차이를 분산으로 분석하는거지? 라는 의문이 들고, 또한 분산분석은 적어도 하나의 집단 평균이 다른 집단과 다르다는 것을 검증할 뿐이라는 설명도 아리송하다. 이와 같은 의문을 수식을 사용하지 않고 직관적으로 이해해 보자. 2. 총분산의 분해 분산분석을 이해하는 첫 번째 단계는 총분산의 분해다. 총분산이란 집단을 구분하지 않고 모든 표본 데이터에서 구한 분산이다. 총분산은 다음과 같이 분해된다. 총분산 = 집단내 분산 + 집단간 분산 표본 데이터를 집단별로 나누었을 때, 총분산은 집단내에서의 분산과 집단끼리의 분산으로 분리될 수 있다. 결론적으로 방.. 2022. 3. 2.
가설검증과 1종 오류 1. 들어가며가설을 검증한다는 말은 검증하는 사람(분석가)이 명확한 근거를 갖고 있거나 정답을 알고 있다는 뉘앙스를 가진다. 그러나 검증이라는 표현보다는 결단을 내린다는 말이 사실에 더 가깝다. 판단에 대한 기준을 갖고 있긴 하지만 그 기준 자체가 절대적인 것은 아니며 그렇기 때문에 오류 가능성이 필연적으로 존재할 수 밖에 없다.      2. 통계량통계량은 표본 데이터를 계산해서 얻어 낸 값이다. 표본에서 구한 평균, 분산, 표준편차 이런 것들도 모두 통계량이지만 일반적으로 카이제곱값, T값, F값 등을 의미한다. 무엇이 되었든 통계량은 귀무가설이 맞다는 가정하에 생성된 확률 분포를 기반으로 특정한 값 이상을 얻을 확률을 가진다.   3. 귀무가설과 확률분포과 같이 귀무가설이 맞다는 가정하에 그려진 T.. 2022. 2. 24.