# naver search confirm # markdown number and equation 의미를 이해하는 통계학과 데이터 분석 //google adsense
본문 바로가기

전체 글94

혼동행렬(confusion matrix) 1. 들어가며 이분형 예측 통계(머신러닝) 모델은 예측의 성능을 측정하는 기준이 필요하다. 이때 가장 대표적으로 이용되는 측정 지표가 혼동행렬표이다. 혼동행렬표로부터 모델의 성능을 측정하는 4가지 값을 얻을 수 있다. 하나씩 살펴보자 2. 혼동행렬표 아래 은 혼동행렬표를 나타낸다. 왼쪽 그림의 2X2행렬표에서 [1,1]셀은 A라고 예측했는데 실제 데이터도 A인 것을 의미하고 [2,2]셀은 B라고 예측했는데 실제 데이터도 B인 경우다. 즉 O표는 예측값과 실제값이 일치하는 경우다. 반대로 X표는 예측값과 실제값이 다른 경우다. 따라서 O셀의 숫자가 많을 수록 그 모델은 성능이 좋다고 말할 수 있다. 이때 관심범주라는 개념을 알아야 한다. 관심범주란 분석가가 더 관심이 있는 범주를 의미한다. 모델이 A를 더.. 2022. 3. 30.
표준편차와 추론 통계 관련글 가설검증과 1종 오류 1. 들어가며 가설을 검증한다는 말은 검증하는 사람(분석가)이 명확한 근거를 갖고 있거나 정답을 알고 있다는 뉘앙스를 가진다. 그러나 검증이라는 표현보다는 결단을 내린다는 말이 사실에 더 diseny.tistory.com 가설검증과 2종오류 지난글 가설검증과 1종 오류 1. 들어가며 지난 글에서 가설검증과 1종오류에 대해 다뤘다. 이제 2종 오류에 대해 생각해보자. 1종 오류는 귀무가설이 맞는데도 귀무가설을 기각하는 오류다. 반변, diseny.tistory.com 1. 들어가며 통계학은 기술통계(descriptive statistics)와 추론 통계(inference statistics)로 나뉜다. 표본(sample) 데이터의 특징만 분석하는 것이 기술통계라면 표본 데이터에.. 2022. 3. 24.
ROC 곡선 아주 쉽게 이해하기 1. 들어가며통계 또는 머신러닝 모델을 만든 후에는 모델의 성능을 측정해야 한다. 대표적인 성능 측정 방법으로 혼동행렬과 ROC곡선이 있다. 혼동행렬표가 이해하기 쉬운데 반해 ROC 곡선은 직관적으로 이해하기에 다소 어렵다. ROC 곡선을 의미를 그림을 통해 쉽게 이해해보자.      혼동행렬(confusion matrix)1. 들어가며 이분형 예측 통계(머신러닝) 모델은 예측의 성능을 측정하는 기준이 필요하다. 이때 가장 대표적으로 이용되는 측정 지표가 혼동행렬표이다. 혼동행렬표로부터 모델의 성능을 측정diseny.tistory.com 2. 전형적인 ROC 곡선 출처 : https://www.ncbi.nlm.nih.gov/books/NBK549564/figure/ch12.Fig6/ 위의 은 전형적인 R.. 2022. 3. 21.
2. 노드의 중심성(centrality) 이전글 1. 네트워크 분석 개요 1. 들어가며 네트워크 분석은 다수의 점(노드)들이 선으로 연결되어 있는 망을 분석하는 방법이다. 점(노드)은 개인, 국가, 회사 등을 의미하고 점들이 선으로 연결이 되었다는 것은 거래 관계가 diseny.tistory.com 1. 들어가며 네트워크를 구성하는 여러 노드 중에서 네트워크의 중심부에 위치하는 노드도 있고 주변부에 있는 노드도 있을 것이다. 이때 네트워크에서 노드의 중심성이란 무엇인이지에 대해 다양하게 정의할 수 있다. 여러가지 중심성 개념 중에서 가장 대표적인 것 몇 가지에 대해서 알아보자. 2. 대표적인 두 가지 중심성 개념 근접 중심성(closeness centrality) 매개 중심성(betweeness centrality) (1) 근접 중심성 하나의 .. 2022. 3. 17.
1. 네트워크 분석 개요 1. 들어가며 네트워크 분석은 다수의 점(노드)들이 선으로 연결되어 있는 망을 분석하는 방법이다. 점(노드)은 개인, 국가, 회사 등을 의미하고 점들이 선으로 연결이 되었다는 것은 거래 관계가 있거나, 친구 관계를 맺고 있다거나 하는 등의 특정한 관계가 형성되어 있음을 의미한다. 2. 노드(node)와 엣지(edge) 노드는 네트워크를 구성하는 개체, 엣지는 개체 간의 연결 상태를 의미한다. 아래 에서는 네트워크에 A, B, C 노드가 존재하고 B와 C는 연결되어 있다. 3. 네트워크의 특징을 나타내는 개념들 아래 는 두 개의 서로 다른 네트워크 A, B이다. 이 둘은 생김새를 보면 다르다는 것이 분명하지만 구체적으로 그 다름(difference)을 어떤 수치로 표현할 수 있을지 살펴 보자. (1) 노드.. 2022. 3. 17.
4. 1개의 연속형 변수로 density 차트 만들기 이전글 3. aes 요소 추가 이전글 2. 데이터 타입과 차트 종류 이전글 1. ggplot2 기본구조 1. 들어가며 목적지를 향해 떠나기 전에 좋은 지도를 갖추는 것은 필수적이다. 데이터 시각화를 하기 전에 먼저 주어진 데이터로 어 diseny.tistory.com 1. 들어가며 우선 1개의 변수로 만들 수 있는 차트부터 살펴보자. 대표적으로 density, histogram 차트가 있다. 먼저 density차트부터 살펴 보자 2. 차트 기본 구조 ggplot2 기본 구조부터 시작한다. 기본구조 : ggplot( ) + geom 함수 ggplpt 함수 뒤에 + 를 붙이고 geom_density( )를 선택한다 library(ggplot2) ggplot(data=iris,aes(Sepal.Length)).. 2022. 3. 12.
3. aes 요소 추가 이전글 2. 데이터 타입과 차트 종류 이전글 1. ggplot2 기본구조 1. 들어가며 목적지를 향해 떠나기 전에 좋은 지도를 갖추는 것은 필수적이다. 데이터 시각화를 하기 전에 먼저 주어진 데이터로 어떤 차트를 그릴 수 있는지 파악하고 diseny.tistory.com 1. 들어가며 ggplot2의 기본 구조는 아래와 같다. ggplot(data="데이터명", aes(x="변수명", y="변수명")) + geom 함수 여기에서 aes는 특정한 데이터(변수)를 척도에 맵핑 시킬 때 쓰는 명령어다. library(ggplot2) ggplot(data=iris, aes(x=Sepal.Length, y=Petal.Length)) + geom_point() 위의 코드는 iris 데이터의 Sepal.Length .. 2022. 3. 10.
실체가 손에 잡히는 딥러닝(3) “이것만은 꼭 알아두자! 딥러닝의 꽃 - 가중치, 편향, 활성화 함수, 역전파” 이전글 실체가 손에 잡히는 딥러닝(2) “인간의 뇌를 모방한 신경망, 그리고 딥러닝” 1. 신경망 구성 요소를 그림으로 이해하기 이제 딥러닝의 실체를 손에 잡기 위한 마지막 과정으로 넘어가보겠습니다. 앞선 2편 글에서 설명한, 뉴런의 인공신경망 구조는 과 같습니다. 을 처럼 약간 팬시하게 변형해봤습니다. 그림 2에서 원은 하나의 뉴런을 의미하고 뉴런을 연결하는 선은 데이터가 왼쪽에서 오른쪽 방향으로, 뉴런에서 뉴런으로 전달된다는 것을 나타냅니다. 이 인공 신경망으로 데이터 1, 2가 입력된다고 합시다. 이성의 외모로 비친 첫인상으로 호감/비호감을 판단하는 사례라면 이성의 눈 색깔, 코 높이 같은 얼굴 생김생김에 관한 정보들이 입력 데이터입니다. 이 데이터가 오른쪽 방향의 다음 뉴런(h1, h2)으로 전달.. 2022. 3. 10.