# naver search confirm # markdown number and equation '데이터분석' 태그의 글 목록 //google adsense
본문 바로가기

데이터분석11

p-value의 진짜 의미 1. 들어가며가설검정 결과를 보고 "p-value가 0.03이니까 통계적으로 유의미하다", 혹은 "p-value가 0.07이라 아쉽게 유의하지 않다"는 말을 많이 들어봤을 것이다. 하지만 이때 자주 등장하는 질문이 있다:p-value가 0.03이면, 가설이 맞을 확률이 97%라는 뜻인가요?p-value가 0.05보다 작으면, 대립가설이 맞다는 뜻인가요?이 질문들, 모두 틀린 해석이다. p-value는 단순히 어떤 숫자 하나가 아니라, 가설을 검정하는 전체 논리 구조의 일부다.이번 글에서는 p-value가 정확히 무엇을 뜻하고, 무엇을 뜻하지 않는지, 통계적 사고 방식으로 이해해보자.2. p-value란 무엇인가?p-value는 귀무가설이 참이라고 가정했을 때, 지금 관찰된 통계량 이상으로 극단적인 결과가.. 2025. 3. 22.
표본 크기 결정법을 이해하는 가장 좋은 방법 1. 들어가며“조사 대상은 몇 명이면 충분할까?”“샘플이 너무 적으면 통계적으로 의미가 없지 않을까?”“그렇다고 너무 많이 조사하면 시간도 비용도 낭비인데...” 통계 분석을 하다 보면 '얼마나 많은 데이터를 모아야 하는가?' 라는 질문에 자주 부딪힌다. 바로 이때 필요한 개념이 표본 크기 결정(Sample Size Calculation) 이다. 신뢰구간, 유의수준, 검정력 등과 깊이 연결된 개념으로, 데이터를 얼마나 모을지 전략적으로 결정하기 위해 꼭 알아야 할 통계 기초다.2. 왜 표본 크기 결정이 중요한가표본이 너무 적으면 결과가 흔들리고 신뢰할 수 없고, 표본이 너무 많으면 불필요한 시간을 쓰고, 자원을 낭비하게 된다.작은 표본 문제: 통계적 유의성을 확보하기 어렵고, 신뢰구간이 넓어진다.너무 큰.. 2025. 3. 22.
평균의로의 회귀 1. 들어가며 노벨 경제학상을 수상하기도 했던 심리학자 대니얼 카너먼(Daniel Kahneman)은 명저 '생각에 관한 생각(Thinking, Fast and Slow)'에서 평균으로의 회귀 현상에 대한 좋은 사례를 소개합니다. 그가 이스라엘 공군사관학교에서 강의를 할 때였는데, 베테랑 교관 한 명이생도들이 비행을 잘못했을 때 벌을 주면 대개 다음 비행에서 잘 한다며 보상보다 벌이 더 효과가 좋다는 주장을 합니다. 하지만 대니얼 카너먼은 그런 현상은 단지 평균으로의 회귀 현상일뿐이라고 설명합니다. 평균으로의 회귀(Regression) 현상은 '회귀분석'이라는 이름의 유래이기도 한데, 회귀분석 결과 해석과도 밀접한 관련이 있습니다. 평균으로의 회귀 현상을 설명하기 위해 가상의 데이터로 실험하고 그 결과를.. 2024. 10. 18.
A/B 테스트를 통한 통계적 사고 과정 따라가기 1. 들어가며추론 통계는 기술 통계에서 얻은 결과를 전체 모집단 차원으로 확대해서 그 결과를 일반화할 수 있는지 타진해보는 과정이다. 개인적으로 추론 통계의 핵심을 이해하는데는 두 집단의 비교 사례가 가장 좋다고 생각한다. 실제로 통계를 잘 모르는 디자인 전공 학생들에게 통계의 핵심을 어떻게 잘 전달할까 고민하다가 다음과 같은 과정으로 설명하면 좋겠다고 생각해서 나온 글이다.  2. A/B 테스트에서 묻는 질문어떤 디자인이 더 좋은 디자인인가?에 대한 질문에는 과학적으로 답할 수 없다. 왜냐하면 주관적인 영역이기 때문이다. 하지만 어떤 디자인이 목표를 달성하는데 더 좋은가? 라는 질문으로 바뀌면 정답을 구할 수 있다. 여기서 목표란 쇼핑몰의 구매전환율, 특정 메뉴 클릭 비율, 사이트 재방문 비율 등이다... 2024. 10. 2.
대격변 AI 시대, 한 권으로 끝내는 데이터과학, 확률, 통계, AI 특강 1. 들어가며 지금껏 나는 많은 데이터 관련 책을 읽고, 공부하고, 때로는 번역서를 출간하기도 했는데, 이 책은 번역서가 아니라 내가 집필한 책이라면 정말 좋았겠다는 욕심이 날 만큼 대단한 물건이었다. 처음 원서를 받고 장 제목 위주로 쑥 내용을 훑어보았을 때는 ‘내용이 너무 쉬운 거 아닌가?’ 하는 생각이 들었지만 번역을 위해 본격적으로 한 문장씩 내용을 음미하며 읽어나가기 시작한 순 간부터 마지막 장이 끝날 때까지, 저자들이 설정한 책의 기획 의도에 맞게 저술하기 위해 들인 노력, 그리고 데이터 분석과 통계에 관한 그들의 깊은 내공에 감탄을 멈출 수 없었다.  2. 책의 특징 흔히 “쉽게 쓰는 것이 가장 어렵다”고들 말한다. 그동안 이 말에 대해 이 성적으로는 동의하고 있었지만 정확한 사례를 경험한 .. 2024. 5. 22.
R 중복값을 갖는 행(row) 데이터 제거 이전글 R 결측값 시각화 1. 들어가며 일반적으로 summary(데이터프레임) 명령어로 각 변수의 결측값(Na's) 수를 확인할 수 있지만 변수별 결측값 수 또는 비율을 간편하게 시각화할 수 있는 패키지가 있다. 그러한 기능을 제 diseny.tistory.com 1. 들어가며 데이터 분석과정에서 중복된 값을 제거해야 할 일이 종종있다. 이런 작업을 수행하는 방법은 다양하지만 dplyr 패키지의 distinct 함수를 이용한 방법을 소개한다. 2. 샘플 데이터 생성 library(dplyr) A = c(2,2,4,4,4,5) B = c(2,2,4,4,8,10) C = c(2,2,5,6,7,5) ABC = data.frame(A,B,C) ABC 코드를 실행하면 다음과 같은 데이터 프레임을 얻을 수 있다. .. 2022. 5. 16.