# naver search confirm # markdown number and equation 의미를 이해하는 통계학과 데이터 분석 //google adsense
본문 바로가기

전체 글94

자유도(Degree of Freedom)에서 자유로워 지기 1. 들어가며 자유도는 통계학을 공부하다 보면 아마 제일 처음 만나는 알쏭달쏭한 개념이다. 최초로 등장하는 시기는 표본분산을 구할 때다. 표본으로 모분산을 추정할 때는 표본의 개수(n)가 아니라 자유도(n-1)로 제곱합(SS)를 나눠야 한다는 법칙. 2. 이상한 나라의 자유도 자유도에 대한 의문을 해결하고자 여러 정보를 찾다보면 책이나, 강의 등에서 대부분 왜 이름이 자유도(degree of freedom)인가?에 대한 설명은 많다. 위의 식에서 표본평균이 들어가는데, 이 표본평균을 계산해내기 위해 자유롭게 선택할 수 있는 표본의 개수가 자유도라는 것이다. 아...그런 자유를 말하는구나.. 그런데 더 근본적인 의문, 즉 "왜 공식에 자유도가 들어가야만 하는가?"에 관한 설명은 별로 없다. 3. 해결책 어.. 2022. 2. 6.
제곱합(Sum of Squares : SS) 공식 1. 기본개념 X = { x1 , x2 , ………, xn } 일 때 , 데이터 X의 분산을 구하는 공식은 다음과 같다. 중학교(고등학교?)에서 배우는 식이다. 위의 식에서 분자 부분을 제곱합(Sum of Squares : SS)이라고 부르는데 통계학에서 배우는 공식이나 증명에 이 제곱합이 제법 많이 등장한다. 통계학은 데이터의 차이에서 인사이트를 도출하는 학문이므로 제곱합이 많이 사용되는 것은 당연하다. 그런데 위의 식에서는 제곱합 계산에 평균(μ)이 들어가 있다. 컴퓨터로 분산을 구할 것이므로 상관은 없지만, 평균이 정수가 아니면 소수점 이하 자리 때문에 계산이 복잡해진다. 또한 통계학의 많은 공식에서 제곱합을 다룰 때 다른 식을 이용한다. 갑자기 다른 식이 등장해 학생들이 당황할 때가 많다. 2. 제.. 2022. 2. 1.
다중회귀 분석에서 상호작용의 의미 1. 기본개념 아래의 식과 같이 둘 이상의 변수(x1, x2, ...., xn)를 투입한 선형회귀 분석을 다중회귀 분석이라고 한다. 일반적으로 하나의 설명변수(x1)는 다른 설명변수(x2)와 독립적으로 반응변수(y)에 영향을 미친다고 보지만 두 변수가 상호작용을 일으켜 반응변수(y)에 더 크게 영향을 미칠 수 있다. 예를 들어 어떤 공장에서 생산되는 제품의 수를 반응변수(y)라고 하면 반응변수(y)는 근로자의 수(x1)와 공장설비(x2)에 영향을 받을 것이다. 그런데 근로자의 수(x1)가 늘어나도 공장설비(x2)가 받쳐주지 않으면 작업 효율이 높지 않다. 즉, 공장설비(x2)가 늘어나면서 동시에 근로자 수(x1)가 늘어나면 이 두개의 변수가 시너지 효과를 일으켜 생산 제품 수에 더 크게 영향을 미치게 될.. 2022. 1. 31.
QQ Plot 직관적으로 이해하기 1. 기본 개념QQ 플롯(Quantile-Quantile Plot)의 Quantile은 분위수라는 의미인데, 분위수는 데이터를 오름차순(내림차순)정렬한 뒤, 전체 데이터를 특정 개수로 나눌 때 기준이 되는 수다. 예를 들어 4분위수라고 하면 전체 데이터를 25%, 50%, 75%, 100%로 4등분한다는 것이다. 그렇다면 QQ 플롯을 말 그대로 표현하면 X, Y 축 척도가 분위수라는 의미인데, 개인적으로는 분위수 보다는 누적 분포 개념으로 생각하는 편이 QQ 플롯을 더 이해하기 쉽다고 생각한다.  2. QQ 플롯 활용QQ 플롯은 보통 3가지 목적으로 이용된다. 주어진 데이터가 정규분포하는지 판단주어진 두 세트의 데이터가 같은 분포인지 판단회귀분석 등에서 잔차의 정규성 판단그런데 사실 위의 3가지 목적은 .. 2022. 1. 30.
도구의 신뢰도 측정(크론바흐 알파) 관련글 탐색적 요인분석(EFA : Exploratory Factor Analysis) 1. 기본개념 사회과학이나 심리학에서는 직접적으로 측정할 수 없는 변수를 잠재 변수(latent variable), 요인(factor), 구인(construct), 구성 개념 등으로 부른다. 데이터 분석 측면에서 보자면 보통 어떤 diseny.tistory.com 1. 기본개념 직접 측정할 수 없는 어떤 개념을 간접적으로 측정하는 도구(설문)를 만들었다면 도구의 신뢰성과 타당성이 검증되어야 한다. 개인적으로 신뢰성과 타당성을 설명할 때 체중계 예를 좋아한다. 체중계가 몸무게를 측정하지 않고 혈압이나 키를 잰다면 타당성이 없는 측정 도구다. 체중계가 만들어진 목적이 체중을 재는 것이므로 체중을 측정한다면 타당성이 있는 도.. 2022. 1. 26.
2. 이분형 문항 반응 특성 곡선 원리 이전글 1. 문항반응이론(IRT) 개요 1. 기본개념 문항반응이론(Item Resposne Theory)은 여러 사람들이 여러 문항에 응답한 데이터를 분석해 응답자의 능력 개별 문항(문제)의 난이도/변별력/추측도 를 측정하는 분석 이론이다. 문항(item) diseny.tistory.com 1. 들어가며 이분형 문항 반응(dichotomous response)이란 문제(문항)에 대한 응답 범주가 2가지라는 의미다. 어떤 문제의 정오답 데이터가 전형적인 이분형 문항 반응이다. 어떤 사람이 어떤 문항(문제)를 맞출 확률은 2가지 요소에 의해 결정된다. 하나는 문제의 난이도이고, 다른 하나의 문제를 푸는 사람의 능력이다. 즉 능력과 난이도의 함수이다. 은 세 문제(P1, P2, P3)의 난이도와 푸는 사람의 .. 2022. 1. 24.
탐색적 요인분석(EFA : Exploratory Factor Analysis) 1. 기본개념 사회과학이나 심리학에서는 직접적으로 측정할 수 없는 변수를 잠재 변수(latent variable), 요인(factor), 구인(construct), 구성 개념 등으로 부른다. 데이터 분석 측면에서 보자면 보통 어떤 설문(척도)을 구성하는 문항들이 몇 개의 요인(구인)으로 묶이는지 결정하는 분석 방법이 요인 분석이다. 2. 요인분석의 종류 탐색적 요인분석(EFA : Exploratory Factor Analysis) 확인적 요인분석(CFA : Confirmatory Factor Analysis) 탐색적 요인분석은 어떤 이론이나 가설 없이 척도에 대한 응답 데이터를 분석해 설문 문항이 몇 개의 요인으로 구성되는지 살펴보는 방법이다. 반면 확인적 요인분석은 설문을 통해 얻은 데이터가 기존 이론.. 2022. 1. 22.
1. 문항반응이론(IRT) 개요 1. 기본개념 문항반응이론(Item Resposne Theory)은 여러 사람들이 여러 문항에 응답한 데이터를 분석해 응답자의 능력 개별 문항(문제)의 난이도/변별력/추측도 를 측정하는 분석 이론이다. 문항(item)이란 설문조사(survey)의 문항일 수도 있고, 시험(test)의 문제일 수도 있다. 문항반응이론은 특정한 능력(θ)을 가진 응시자가 특정한 난이도와, 변별력을 가진 특정 문항에 응답할 때 다음의 값을 추정한다. 시험 문제에서 정답을 선택할 확률 설문에서 특정 응답 범주(1, 2, 3, 4, 5)를 선택할 확률 에서 다음과 같은 사실을 확인할 수 있다. 능력이 0인 사람은 문항(문제)를 맞출 확률(세로축)이 0.5이다. 능력이 1인 사람은 문항을 맞출 확률이 > 0.5, 능력이 -1인 사람.. 2021. 4. 19.