<빅데이터의 이해>
1. 빅데이터 특징(3V)
ㅇ Volume 크기 : 생성되는 모든 데이터 수집, 데이터양의 증가
ㅇ Variety 다양성 : 정형화된 데이터를 넘어 텍스트, 오디오, 비디오 등 모든 유형 데이터를 분석
ㅇ Velocity 속도 : 데이터의 생성속도 및 처리 속도 증가
2. 빅데이터 출현 배경
ㅇ 없었던 것이 새로 등장한 것이 아니라 기존의 데이터, 처리방식, 다루는 사람과 조직 차원에서 일어나는 변화를 의미
- 산업계 :고객 데이터의 증가 및 각종 유형의 사건 데이터 증가, 양질 전환 법칙으로 데이터 양이 많을수록 이익으로 연결된다.
- 학계 : 컴퓨터 공학, 인공지능학과 같이 데이터를 다루는 학문 증가
- 기술발전 : 데이터를 다루기 위한 기술 발전으로 클라우드 컴퓨팅 활용, 디지털화, 새로운 데이터 처리/저장/분석 기술 및 아키텍처
- 인재, 조직변화 : 데이터 중심 조직/데이터사이언티스트 요구
3. 빅데이터의 기능
ㅇ 산업혁명의 석탄과 철 : 차세대 산업으로 넘어가기 위한 밑거름 제공, 서비스 분야의 생산성르 획기적으로 끌어올림
ㅇ 21세기 원유 : 현재사회의 에너지원과 같이 새로운 시대의 에너지원 제공, 경제 성장에 필요한 정보를 제공함으로써 생산성 향상
ㅇ 렌즈 : 렌즈로 미생물을 발견한 것과 같이 기존에 모르던 새로운 가치 발견(구글 Ngram Viewer)
ㅇ 플랫폼 : 다양한 서드파티 비즈니스에 활용되면서 플랫폼 역할을 할 것으로 전망, 공동 활용 목적으로 구축된 유형물로 다양한 서비스가 창출될 수 있도록 함(페이스북 등)
4. 빅데이터에 의한 변화
ㅇ 사전처리에서 사후처리로 : 불필요한 데이터조차 버리지 않고 다양한 방법으로 조합하여 숨은 가치를 찾을 수 있다.
ㅇ 표본조사에서 전수조사로 : 조사 대상 일부분이 아닌 전체를 조사할 수 있다.
ㅇ 질보다 양 : 품질 낮은 데이터가 포함된다 하더라도 데이터 양이 많다면 분석의 정확도가 높아질 수 있다.
ㅇ 인과관계에서 상관관계로 : 상관관계로부터 찾아낼 수 있는 가치가 발생되는 현상이 포착됨에 따라 상관관계가 중시되기 시작
5. 빅데이터 가치 산정의 어려움
ㅇ 데이터 활용방식 : 데이터의 재사용, 재조합, 다목적용 데이터 개발 등이 일반화되면서 특정 데이터를 언제 어디서 누가 사용했는지 알 수 없어 무한적인 재생산 및 재배포 가능
ㅇ 가치창출방식 : 주어진 데이터가 미래에 얼마나 큰 가치를 가져올지 예측할 수 없다.
ㅇ 분석기술발전 : 불필요한 데이터들이 새로운 분석기법에 의해 높은 가치를 가질 수 있다.
6. 빅데이터 활용에 필요한 3요소
ㅇ 데이터, 기술, 인력
7. 데이터웨어하우스(DW)
ㅇ 기업 내의 의사결정지원 어플리케이션을 위한 정보 기반을 제공하는 하나의 통합된 데이터 저장 공간
ㅇ 재무, 생산, 운영 등과 같이 특정조직의 특정 업무분야에 초점을 맞춰 구축된다.
ㅇ ETL : 주기적으로 내부 및 외부 데이터베이스로부터 정보를 추출하고 정해진 규약에 따라 정보를 변환한 후 DW에 정보를 적재한다.
ㅇ DW의 4가지 특징 : 주제지향성, 통합성, 비휘발성, 시계열성
<비즈니스 모델>
1. 비즈니스 모델 캔버스
2. 빅데이터 활용기법
ㅇ 연관규칙학습 : 어떤 변수 간에 주목할 만한 상관관계가 있는지 찾아내는 방법
(ex. 마트에서 상관관계가 높은 상품을 함께 진열 – 우유&기저귀)
ㅇ 유형분석 : 어떤 특성을 가진 집단에 속하는가와 같이 새로운 데이터가 속할 범주를 찾아내는 방법
(ex. 온라인 수강생들의 특성에 따라 분류)
ㅇ 유전 알고리즘 : 선택, 변이, 교차, 대치 등의 연산을 통해 최적화가 필요한 문제 해결
(ex. 최대 시청률을 얻으려면 어떤 프로그램을 어떤 시간대에 방송해야 하는가)
ㅇ 기계학습 : 훈련 데이터로부터 학습한 특성을 활용하여 컴퓨터가 학습하고 미래 예측
(ex. 넷플릭스 영화 추천)
ㅇ 회귀분석 : 독립변수에 따라 종속변수가 수치적으로 어떻게 변하는지 파악하는 방법
(ex. 구매자의 나이가 구매 차량 타입에 어떤 영향을 미치는가?)
ㅇ 감정분석 : 특정 주제에 대한 글을 분석하여 글쓴이의 감정(긍정/부정)을 분석하는 방법
(ex. 소셜 미디어에 나타난 의견을 바탕으로 고객이 원하는 것 찾기)
ㅇ 소셜 네트워크 분석 : 사회 관계망 분석이라고도 하며, 온라인 공간에서 유저 사이의 팔로워, 팔로잉 관계를 분석하여 영향력 있는 사람을 파악하는 방법
(ex. 기업의 효율적인 마케팅, 범죄의 공범 탐색)
<위기요인과 통제방안>
1. 빅데이터 시대의 위기요인과 통제요인
ㅇ 사생활침해
- 위기요인 : 정보수집센서들의 수가 늘어나고 있고, 특정데이터가 본래 목적 외에 가공 돼 2차, 3차적 목적으로 활용될 가능성이 증가하면서 사생활 침해를 넘어 사회 경제적 위혐으로 변형
- 통제요인 : 동의에서 책임으로 개인정보 활용에 대해 개인이 매번 동의하는 것은 경제적으로 매우 비효율적이다. 개인정보 사용자에게 책임 지음으로써 개인정보 사용 주체가 적극적인 보호 장치를 강구하게 하는 효과가 발생할 것으로 기대
ㅇ 책임 원칙의 훼손
- 위기요인 : 예측기술 발전으로 정확도가 증가한만큼 분석 대상이 되는 사람들은 예측 알고리즘의 희생양이 될 가능성이 증가한다. 그러나 잠재적 위험 사항에 대해서도 책임을 추궁하는 사회로 변질할 가능성이 커 민주주의 사회 원칙을 크게 훼손할 수 있다. (ex. 범죄예측 프로그램)
- 통제요인 : 결과 기반 책임 원칙 강화
ㅇ 데이터의 오용
- 위기요인 : 일어난 일에 대한 데이터에 의존한다. 그것을 바탕으로 미래를 예측하는 것은 적지 않은 정확도를 가질 수 있지만 항상 맞을 수는 없다. 잘못된 인사이트를 얻어 비즈니스에 직접 손실을 불러올 수 있다.
- 통제요인 : 데이터 알고리즘에 대한 접근권 허용 및 객관적 인증방안 도입 필요성 제시, 이로 인해 알고리즈미스트 역할 요구
<관련 기출문제>
2023.02.14 - [자격증공부] - [ADsP] (1과목) 데이터 이해 - 데이터의 가치와 미래 기출문제
ㅇ ADsP 요약+기출문제 자료 다운로드(바로가기)
'자격증공부 > 데이터분석준전문가(ADsP)' 카테고리의 다른 글
[ADsP] (1과목) 데이터 이해 - 전략 인사이트와 데이터사이언스 요약 (0) | 2023.02.14 |
---|---|
[ADsP] (1과목) 데이터 이해 - 데이터의 가치와 미래 기출문제 (0) | 2023.02.14 |
[ADsP] (1과목) 데이터 이해 - 데이터의 이해 기출문제 (0) | 2023.02.13 |
[ADsP] (1과목) 데이터 이해 - 데이터의 이해 (0) | 2023.02.02 |
[ADsP] ADsP 데이터분석준전문가 자격증 시험 정보(2023년 기준) (0) | 2023.02.02 |