5. 데이터 시각화
ㅇ 데이터 시각화 : 같은 범주 안에서 많은 양의 데이터에 의미를 부여함으로써 공간에 배치된 숫자의 패턴을 인지하게 만든 것. 전통적으로 단순한 수치의 그래프나 데이터의 패턴을 파악하는 방법으로 사용되었으나 최근 빅데이터 분석에 따라 다양한 정보전달이나 상황분석을 위한 시각적 도구로 메시지 전달을 위한 시각적 표현으로 많이 사용되고 있다.
ㅇ 특성
- 인간의 정보 처리 능력을 확장시켜 정보를 직관적으로 이해할 수 있게 한다.
- 많은 데이터를 동시에 차별적으로 보여줄 수 있다. (균일하게 X)
- 다른 방식으로는 어려운 지각적 추론을 가능하게 한다.
- 보는 이로 하여금 흥미를 유발하며, 주목성이 높아지며 인간의 경험을 풍부하게 한다.
- 문자보다 친근하게 정보를 전달하며, 다양한 계층의 사람들에게 쉽게 다가갈 수 있다.
- 데이터 간의 관계와 차이를 명확하게 드러냄으로써 문자나 수치에서 발견하기 어려운 이야기를 창출
ㅇ 프로세스
- 1단계 획득(데이터의 획득) > 2단계 구조화(데이터 구조화 및 분류) > 3단계 추출(관심 데이터 추출) > 4단계 마이닝(통계적 방법 또는 데이터마이닝 기법 적용) > 5단계 시각화(바 그래프, 리스트 또는 트리 등의 기본적 시각모델 선택) > 6단계 재정의(보다 명확하게 매력적 표현으로 개선) > 7단계 상호작용(데이터 변경 또는 보이는 특징을 조작하는 방법 추가)
ㅇ 데이터 표현 : 둘 이상의 데이터 사이의 관계를 표현하는 것
- 단변수 데이터 : 단일의 수, 숫자의 집합
- 이변수 데이터 : 산점도로 표현, 시계열로서 하나의 축이 시간을 다른 축이 시간의 기능을 나타내는 것
- 삼변수 데이터 : 산점도 매트릭스로 표현, 3차원 특징을 지니고 있는 개체에 대한 데이터를 동일한 공간에서 2차원으로 제시
- 다변수 데이터 : 좌표플롯으로 표현, 평형 좌표 플롯, 스타 플롯, 산점도 매트릭스, 링크드 히스토그램, 모자이크 플롯, 아이콘으로도 표현 가능
ㅇ 시각적 표현
- 크기 : 면적, 도형 모양의 확대/축소, 직관적으로 구별할 수 있어 널리 쓰임
- 색상 : 규칙성과 특이성을 구분해 내는데 효과적
- 위치 : 지도나 가상의 장소와 데이터를 연결하여 나타냄
- 시간 : 시간 순서에 따라서 데이터를 나열, 전통적으로 많이 쓰였던 방법
ㅇ 시각화 방법
- 차트와 통계도구 : 시각화를 위한 모든 기능을 내장한 도구, 몇 번의 클릭으로 시각화가 가능, 타블로, 엑셀, 구글 스프레드 시트, Qlikview, Visualization API
- 프로그래밍 : 데이터량이 방대해짐에 따라 데이터 활용 범위도 확대되고 SW 지원범위를 벗어나는 기능이 필요할 때 시각화에 유용한 방법이다. 데이터 조작에 유리하나 자신의 목적에 맞게 코딩하기 위해 로직에 익숙해져야 한다. (D3.js, 파이썬, R WebGL)
- 지도 : 직관적인 시각화 방법으로 공간데이터 시각화에 유리, 모바일 위치정보를 이용한 빠른 데이터 탐색 도구로 발전하고 있다. (Modest Maps, Insta Atlas, 구글/야후/MS지도, Insta, Geocommons)
- 일러스트레이션 : 데이터의 그래픽을 좀 더 매끈하게 만들어준다. (Adobe Illustrator, Inkscape, Gephi, Keylines, Zlosr, it, Zoomit 등)
ㅇ 데이터 시각화 기술
- 시간 시각화 : 분절형과 연속형으로 구분, 분절형은 특정 시점 또는 구간 값을 막대그래프 등으로 표현
. 막대그래프, 누적막대그래프, 점그래프, 추세선, 스캐터플롯 등
. 시차, 트렌드, 경향성이 중요하다.
. 추세선과 스캐터플롯의 경우 상승 또는 하락에 대한 차이를 표현할 때 많이 사용한다.
. 계단식 차트는 상승 또는 하락에 대한 차이를 표현할 때 많이 사용한다.
. 경제활동과 관련된 시계열에는 국내총생산(GDP), 소비자물가지수, 수출액, 주가지수, 환율, 금리 등이 있다.
- 분포 시각화 : 전체 분포와 시간에 따른 분포로 구분. 전체 분포는 파이차트 등으로 표현, 도넛차트
. 파이차트, 도넛차트, 누적막대그래프, 인터랙티브 누적영역 그래프, 트리맵 등
. 구분단위는 분류, 세부 분류 등의 가짓수, 가능한 선택이나 결과들의 수, 샘플측정범위에서의 분류이다.
. 여러 데이터 유형과 분포 데이터의 가장 주요한 차이는 분포 데이터의 경우 전체의 부분을 나타낸다는 점이다.
. 데이터의 양 또는 크기가 어떻게 분포되어 있는지에 대한 정보를 얻기 위해 사용된다.
. 트리맵은 트리차트의 분류항목이 많아 한눈에 알아보기 어려운 단점을 보완한 표현방법이다.
- 관계 시각화 : 변수 사이의 관계를 찾는 기술. 상관관계는 스캐터 플롯 등으로 표현
. 스캐터플롯, 스캐터플롯 행렬, 버블차트 등
. 상관관계를 시각적으로 표현한 것이다.
. 스캐터플롯은 변수 간의 관계를 설명하기 위한 차트로 두 변수 간의 영향을 이해하기 쉽다.
. 히스토그램은 측정값을 몇 개의 구간으로 나누어 각 구간의 도수에 비례하는 높이로 표현한 것이다.
. 밀도플롯은 측정값을 몇 개의 구간으로 나누어 각 구간의 도수에 비례하는 높이로 표현한 것이다.
. 버블차트는 스캐터플롯에 버블의 크기를 추가하여 3가지 정보를 2차원에 표현한 것이다.
- 비교 시각화 : 여러 변수를 비교하는 기술
. 히트맵, 평행좌표 그래프, 다차원 척도법, 아웃라이어 찾기
. 히트맵 : 색상의 명암으로 값의 크기를 표현한다, 다양한 정보를 일정한 이미지 위에 열 분포 형태의 그래픽으로 표현한다.
. 스타차트 : 중심으로부터 각 평가항목의 정량화된 점수에 따른 거리로 계산하여 평가항목간 균형을 한 눈에 알아볼 수 있게 한 도표이다.
- 인포그래픽 : 인포메이션과 그래픽의 합성어로 다량의 정보를 차트, 로고, 일러스트레이션 등을 활용하여 표현. 정보, 데이터, 지식을 시각적으로 표현한 것으로 정보를 빠르고 쉽게 표현하기 위해 사용
. 차트, 지도, 다이어그램, 로고, 일러스트레이션 등
ㅇ 빅데이터 분석 가시화 기술
- R : 자바, C, 파이썬 등의 다른 프로그래밍 언어와 연결이 용이하고 MAC OS, 리눅스/유닉스, 윈도우 등 대부분의 컴퓨팅 환경에서 동작하며 구글, 페이스북, 아마존 등에서 통계분석과 데이터마이닝을 위해 사용하고 있다.
- InVis : 컴퓨팅 자원의 유연한 할당이 가능하고 다중 사용자에게 서비스를 제공하며 대용량 데이터의 시각화 인터페이스와 데이터 가공 및 시각화 오브젝트인 폴리곤의 생성 엔진으로 구성되어 있다.
< 경영빅데이터분석사2급 요약자료 다운로드 (바로가기) >
'자격증공부 > 경영빅데이터분석사2급' 카테고리의 다른 글
[경영빅데이터분석사 2급] 요약자료 바로가기 링크 모음 (0) | 2023.06.30 |
---|---|
[경영빅데이터분석사2급] 5과목 빅데이터기술 - 수집, 저장, 처리기술, 주요분석도구 (0) | 2023.04.08 |
[경영빅데이터분석사2급] 4과목 빅데이터 분석 - 데이터마이닝 (0) | 2023.04.06 |
[경영빅데이터분석사 2급] 4과목 빅데이터 분석 - 통계분석 (0) | 2023.04.05 |
[경영빅데이터분석사 2급] 4과목 빅데이터 분석 - 빅데이터분석 프로세스 개념, 플랫폼 환경 (0) | 2023.04.04 |