통계학16 제곱합(Sum of Squares : SS) 공식 1. 기본개념 X = { x1 , x2 , ………, xn } 일 때 , 데이터 X의 분산을 구하는 공식은 다음과 같다. 중학교(고등학교?)에서 배우는 식이다. 위의 식에서 분자 부분을 제곱합(Sum of Squares : SS)이라고 부르는데 통계학에서 배우는 공식이나 증명에 이 제곱합이 제법 많이 등장한다. 통계학은 데이터의 차이에서 인사이트를 도출하는 학문이므로 제곱합이 많이 사용되는 것은 당연하다. 그런데 위의 식에서는 제곱합 계산에 평균(μ)이 들어가 있다. 컴퓨터로 분산을 구할 것이므로 상관은 없지만, 평균이 정수가 아니면 소수점 이하 자리 때문에 계산이 복잡해진다. 또한 통계학의 많은 공식에서 제곱합을 다룰 때 다른 식을 이용한다. 갑자기 다른 식이 등장해 학생들이 당황할 때가 많다. 2. 제.. 2022. 2. 1. QQ Plot 직관적으로 이해하기 1. 기본 개념 QQ 플롯(Quantile-Quantile Plot)의 Quantile은 분위수라는 의미인데, 분위수는 데이터를 오름차순(내림차순)정렬한 뒤, 전체 데이터를 특정 개수로 나눌 때 기준이 되는 수다. 예를 들어 4분위수라고 하면 전체 데이터를 25%, 50%, 75%, 100%로 4등분한다는 것이다. 그렇다면 QQ 플롯을 말 그대로 표현하면 X, Y 축 척도가 분위수라는 의미인데, 개인적으로는 분위수 보다는 누적 분포 개념으로 생각하는 편이 QQ 플롯을 더 이해하기 쉽다고 생각한다. 2. QQ 플롯 활용 QQ 플롯은 보통 3가지 목적으로 이용된다. 주어진 데이터가 정규분포하는지 판단 주어진 두 세트의 데이터가 같은 분포인지 판단 회귀분석 등에서 잔차의 정규성 판단 그런데 사실 위의 3가지 .. 2022. 1. 30. 1.2 통계학 그런데 지금까지 분석을 통해 발견한 사실을 실제로 활용하려는 순간 매우 중요한 문제에 부딪힙니다. 발견한 사실을 실제로 활용한다는 의미는 두 가지입니다. 어떤 정책, 행동을 결정할 때 근거로 사용하거나 과학적 명제로 주장하는 것입니다. 사실 이 문제는 데이터를 분석하고 발견한 내용을 일반화할 수 있느냐는 질문입니다. 5,60대의 혈압 데이터가 있다면 아마도 모든 한국인 5,60대를 측정한 데이터는 아닐 것입니다. 십중팔구 5,60대 중에서 일부만 뽑아 측정한 표본 데이터입니다. 예를 들어 50대 100명과, 60대 100명을 뽑아 혈압을 측정하고 60대의 혈압 평균이 160, 50대의 혈압 평균이 150이라는 결과를 얻었다고 합시다. 이렇게 일부 데이터에서 얻는 결과로부터 대한민국의 모든 60대는 모든 .. 2020. 6. 21. 1.1 데이터 분석 대략 2010년을 전후로 데이터가 새로운 산업혁명의 동력으로 주목받기 시작했습니다. 첫 신호탄은 빅데이터였고 뒤를 이어 데이터 과학, 머신러닝, 딥러닝, 인공지능과 같은 용어들이 연이어 화려하게 등장해 세간의 뜨거운 관심도 받았습니다. 이 현상을 이해당사자의 입장에서 보고 겪은 사람들은 크게 두 부류입니다. 한 부류는 학계나 업계에서 이미 예전부터 데이터를 다루고 분석해왔던 사람들입니다. 이 부류의 사람들 중 일부는 데이터를 분석한다는 본질이 달라진 것도 아닌데 우후죽순 탄생하는 용어들은 유행에 편승한 새로운 이름 짓기에 지나지 않는다고 생각합니다. 또 다른 부류는 최근 10년 사이에 이 분야에 새롭게 진입했거나 처음 공부를 시작한 사람들입니다. 이 부류는 통계라는 용어에는 익숙한데 데이터 과학, 머신러.. 2020. 6. 21. 이전 1 2 3 다음