통계분석4 R을 이용한 t-test와 효과 크기 계산 관련글 t-test 밑바닥부터 이해하기 ※ 관련글 확률, 확률변수 그리고 확률분포 1. 들어가며 통계학은 기술통계와 추론통계로 구분되는데, 기술통계와 추론통계를 연결해주는 것이 확률분포이다. 그런데 확률분포를 이해하기 위해 diseny.tistory.com 1. 들어가며 위의 관련글에서 두 표본(독립표본)의 평균 차이 검증에 대한 이론을 살펴보았다. 이제 R을 이용해 t-test를 실행하고 효과 크기(effect size)를 간편하게 산출해보자. 2. 예제 데이터 데이터는 UC Irvine Machine Learning Repository에서 제공하는 adult 데이터를 활용한다. 아래 코드는 웹 사이트에서 데이터를 읽어 들이고 변수 이름을 지정한다. adult 2022. 5. 4. 분산분석(ANOVA) 이해하는 가장 좋은 방법(3) 1. 들어가며이전글(아래 참고)은 세 집단의 차이를 비교하는 일원분산분석(one way anova)을 설명했다. 분산분석(ANOVA) 이해하는 가장 좋은 방법(2)※ 이전글 분산분석(ANOVA) 이해하는 가장 좋은 방법(1) 1. 들어가며 세 집단 이상의 비교에는 아노바(ANOVA)를 이용하는데 ANOVA는 Analysis of Variance의 줄임말이며 우리말로는 분산분석이다. 두 집단이diseny.tistory.com 이번에는 세 집단마다 하위 범주가 있는 경우를 생각해 보자. 통계학 용어로 하자면 독립변수가 2개 존재하는 이원분산분석(two way nova)을 의미한다. 아래 표를 보면 A, B, C 세 집단에 하위 범주인 성별(남, 녀)이 구분되어 있다. A, B, C를 편의상 혈액형이라고 하.. 2022. 4. 25. 상관관계와 상관계수 1. 들어가며연속형 변수 x, y의 관계는 상관관계(correlation) 분석을 통해 2가지 사실을 알 수 있다. 관계의 방향관계의 강도 보통 관계의 방향은 그래프를 그려 확인하고, 관계의 강도는 그래프로도 확인 가능하지만 구체적인 값을 계산한다. 관계의 방향과 강도를 파악하는 방법에 대해 살펴보자. 2. 관계의 방향관계의 방향은 3가지 경우로 나뉜다. 은 일반적인 3가지 경우의 관계를 나타내고 있다. 산점도를 그리고 추세선을 그어보면 대략의 방향성이 나오는데 제일 왼쪽 그래프는 x, y가 양의 상관관계(postive), 두 번째 그래프는 x, y가 음의 상관관계(negative), 제일 오른쪽 그래프는 x, y가 아무런 상관성이 없다는 의미다. 3. 관계의 강도관계의 방향성을 알았다면 어느 정.. 2022. 3. 31. 다중회귀 분석에서 상호작용의 의미 1. 기본개념 아래의 식과 같이 둘 이상의 변수(x1, x2, ...., xn)를 투입한 선형회귀 분석을 다중회귀 분석이라고 한다. 일반적으로 하나의 설명변수(x1)는 다른 설명변수(x2)와 독립적으로 반응변수(y)에 영향을 미친다고 보지만 두 변수가 상호작용을 일으켜 반응변수(y)에 더 크게 영향을 미칠 수 있다. 예를 들어 어떤 공장에서 생산되는 제품의 수를 반응변수(y)라고 하면 반응변수(y)는 근로자의 수(x1)와 공장설비(x2)에 영향을 받을 것이다. 그런데 근로자의 수(x1)가 늘어나도 공장설비(x2)가 받쳐주지 않으면 작업 효율이 높지 않다. 즉, 공장설비(x2)가 늘어나면서 동시에 근로자 수(x1)가 늘어나면 이 두개의 변수가 시너지 효과를 일으켜 생산 제품 수에 더 크게 영향을 미치게 될.. 2022. 1. 31. 이전 1 다음