# naver search confirm # markdown number and equation (1)데이터 시각화의 정의와 필요성 //google adsense
본문 바로가기
데이터 시각화

(1)데이터 시각화의 정의와 필요성

by 노마드분석가 2024. 3. 14.

 

1. 왜 데이터 시각화가 필요한가?

 

시각화는 데이터에서 메시지를 얻거나 표현하는 과정이다. 아래 그림을 보면 왼쪽의 원본 데이터(raw data)는 정보량이 많지만 구체적인 메시지가 없다. 반면 데이터를 요약하고, 요약된 정보를 시각화하면 핵심 메시지가 선명해진다. 

 

또한 시각화는 데이터에 내재하는 패턴을 지각하는데도 효과적이다. 아래와 같은 테이블 형태의 데이터는 그 자체로서 패턴을 지각하기 어렵다. 

 

반면 이런 테이블 데이터를 시각화하면 그룹 A, B, C, D가 어떤 패턴을 갖는 데이터인지 금방 지각할 수 있다. 특히 빅데이터 분석에서는 통계적 유의성보다는 이런 패턴을 찾고, 보여주는 것이 중요하다. 

2. 누구를 위해서 데이터 시각화를 하는가?

  • 탐색적 분석(EDA)을 효과적으로 하기 위해(분석가 자신을 위해). 탐색적 분석이란 특별한 가정이나 가설을 설정하지 않고 데이터의 특징을 살펴보는 작업을 의미한다. 즉 분석가 스스로를 위한 것이다.
  • 이해 당사자에게 메시지를 효과적으로 전달하거나 설득하기 위함이다. 

특히 이해 당사자에게 메시지를 전달할 때 시각화가 효과적인 것은 핵심 메시지를 쉽고/빨리/강조해서 다른 사람에게 전달할 수 있기 때문이다. 이때 핵심 메시지에 따라 시각화를 하는 구체적인 방법이 달라진다. 

 

3. 차트의 핵심 메시지를 구성하는 세가지 요소

  • 주제 : 차트가 초점을 맞추는 내용, 주제를 의미한다.
  • 데이터 타입 : 어떤 데이터 타입이냐에 따라 차트의 종류가 달라진다.
  • 데이터 관계 : 데이터에 포함된 변수들의 관계에 따라 메시지와 차트 종류가 달라진다. 

먼저, 주제에 대해 알아보자. 주제는 차트에서 전달하려는 핵심 메시지다. 예를 들어 왼쪽의 차트는 팩트를 시각화한 평이한 차트다. 그런데 이 차트에서 강조할 수 있는 메시지는 네 가지다(오른쪽 메시지). 따라서 차트가 아래 네 개의 주제 중 무엇이냐에 따라 차트의 세부 디자인은 달라질 것이다. 

 

 

둘째, 데이터의 타입에 따라 사람들이 본능적으로 관심을 갖는 주제가 다를 수 있다. 예를 들어 아래 그림과 같이 비율 데이터가 있다고 하자. 보통 이런 경우 파이 차트를 그린다.

 

https://byjus.com/maths/pie-chart-questions/

 

비율 데이터를 보면 사람들은 본능적으로 다음과 같은 내용에 관심을 갖게 된다. 

  • 가장 높은 비율과 낮은 비율에 관심을 갖는다
  • 과반(50%) 이상의 비율 아이템에 관심을 갖는다
  • 절대적인 숫자보다 순위에 민감하다
  • 면적에 상당히 영향을 받는다

위의 규칙이 절대적이라는 의미가 아니며, 중요한 것은 데이터의 타입에 따라 관심 주제가 다를 수 있다는 것이다. 

 

마지막으로, 데이터는 서로 관계를 갖는데, 이 관계에 따라 다른 형태의 차트가 필요하다. 데이터셋에 포함된 변수들의 관계는 크게 네 가지로 구분한다. 차이를 비교하거나, 방향성(관계)을 탐색하거나, 군집, 또는 분포를 파악하기 위한 차트를 선택해야 한다. 

 

 

4. 핵심 메시지에 따라 시각화의 적절성은 다르다.

 

만약 차트의 핵심 메시지가 세 변수의 차이 비교라면 아래 그림 중 왼쪽과 오른쪽에서 어떤 차트가 더 적절할까? 이 질문에 답하기 위해서는 약간의 인시 심리학적인 지식이 필요하지만, 일단 왼쪽 막대 그래프는 세 막대의 크기를 비교하기 위해 막대 끝의 X축 위치를 보아야 하는데 막대의 면적이 이런 판단에 약간의 방해 자극이 된다. 반면 오른쪽은 점의 위치만 파악하면 되므로, 인지적인 부담이 적다. 결론적으로 오른쪽 차트가 차이 비교에서는 더 적절하다. 

 

 

 

데이터 시각화와 인지 과학적 원리

데이터 시각화의 정의와 필요성 1. 왜 데이터 시각화가 필요한가? 시각화는 데이터에서 메시지를 얻거나 표현하는 과정이다. 아래 그림을 보면 왼쪽의 원본 데이터(raw data)는 정보량이 많지만 구

diseny.tistory.com

 

반응형

댓글