1. 빅데이터 분석 프로세스 개념
ㅇ 분석 프로세스 절차 : 데이터 수집(분석 목적 명확화 포함) > 저장 > 처리 > 분석 > 시각화 > 이용 > 폐기
ㅇ 수집 : 수집 대상 데이터 선정 > 수집 세부 계획 수립 > 데이터 수집 실행
- 수집 대상 데이터 선정 : 빅데이터 분석 성공 여부를 결정하는 매우 중요한 단계로 분석 경험이 많은 전문가 의견이 필요하다. 목적을 달성하기 위한 수집 대상의 선정(Performance 측면) 외에도 개인정보 보호 등의 관련 규제를 준수(Compliance 측면)하여야 하며, 수집비용과 같은 원가(Cost Efficiency 측면) 또한 고려하여야 한다.
- 수집 세부 계획 수립 : 데이터 소유자, 데이터 유형, 데이터 포맷 등의 데이터 특성을 고려해 계획 수립하며 기술 선정시 확장성, 안정성, 실시간성, 유연성을 고려(불변성X)
- 데이터 수집 실행 : 능동적 수집(데이터 소유자가 수요자에게 전달하는 것으로 생산 관련 로그 데이터, 설문조사 결과), 수동적 수집(데이터 소유자는 웹페이지 등을 통해 공개하고, 수요자는 웹 로봇이나 웹 크롤러로 정보를 수집) / 내부데이터(자체적으로 보유한 내부파일 시스템이나 DB, 센서 등에 접근하여 데이터 수집), 외부데이터(인터넷으로 연결된 외부에서 데이터를 수집)
. 변환 : 데이터를 수집하는 과정에서 컴퓨터가 바로 처리할 수 없는 비정형 데이터를 구조적 형태로 전환하여 저장
. 통합 : 레거시 데이터들을 통합하고 비정형 데이터를 구조화하여 처리된 비정형 데이터와 레거시 데이터를 통합하는 것
ㅇ 저장(관리) : 빅데이터 전처리, 후처리, 저장
- 전처리 : 데이터를 수집하여 저장소에 적재하기 위한 처리 과정
. 필터링 : 분석 목적에 맞는 데이터만 선별하는 것으로 저품질 데이터를 개선하는 과정이며 분석시간의 단축과 저장 공간의 효율화를 기대할 수 있다.
. 유형변화 : 분석에 용이한 형태로 변환하는 과정
. 정제 : 데이터의 불일치성 교정, 결측치 처리, Noise 데이터 처리
- 후처리 : 분석 전 작업에 용이하도록 가공하는 작업
. 변환 : 수집한 다양한 형태의 데이터를 일관성 있는 형식으로 변환하는 것으로 평활화, 집계, 일반화, 정규화, 속성생성 등을 거치게 된다. 데이터의 특성과 기법에 따라 수행하는 작업이 다르다.
. 통합 : 출처는 다르지만 연관성 있는 데이터를 결합하는 것이다. 동일한 데이터가 입력될 수 있으므로 연관관계 분석 등을 통해 중복데이터를 검출하는 것과 표현단위를 일치시키는 것을 포함한다.
. 축소 : 고유 특성이 손상되지 않는 범위에서 분석에 불필요한 데이터를 축소하여 분석 효율성을 높이는 과정이다.
- 저장 : 저장할 데이터의 포맷 등 유형을 검토하고 데이터 저장방식을 선정하여 저장하는 과정
. RDB : 관계형 데이터 저장 방식으로 저장/수정/관리가 용이, SQL 문장을 사용 (ex. Oracle, mssql, my SQL, Sybase, MPP DB 등)
. NoSQL : 비관계형 데이터 저장소, 테이블스키마가 고정되지 않고, 테이블 조인 미지원, 수평적 확장이 용이 (ex. Mongo DB, Cassandra, HBase, Redis)
. 분산파일시스템 : API를 통해 분산된 서버의 로컬 디스크에 파일을 저장하고 읽기/쓰기 같은 단순 연산을 수행하는 대규모 데이터 저장소 구현에 적합하다. 범용 x86서버의 CPU, RAM을 사용하므로 장비를 증가시켜 성능을 향상하는 것이 용이하고 수 TB ~ 수백 PB 이상의 데이터 저장 지원이 용이하다. (ex. HDFS)
ㅇ 처리 관련 기술 분류
- 여러 서버로 분산하여 일괄 처리 : 클라우드 컴퓨팅, 하둡
- 실시간 처리 : 스트림, 분산 스트림, 인 데이터베이스 처리
ㅇ 분석 : 분석 계획 수립 > 분석 시스템 구축 > 분석 실행
- 분석계획수립 : 환경 파악, 분석 인프라를 내부에 구축할 지 외부 서비스를 이용할지도 결정
- 시스템 구축 : 하드웨어 인프라 구축, 소프트웨어(빅데이터 수집 Flume, Sqoop, Crawler, Open API 등 / 분산 파일 관리 HDFS / 분석 MapReduce, Pig, Hive, Mahout, R 등)
- 분석 실행 : 분석 기술(통계분석, 데이터마이닝, 텍스트마이닝, 예측분석, 최적화, 평판분석, 소셜네트워크분석 등) / 분석 속도에 따른 분류(실시간, 준실시간 분석) / 분석 속도 향상을 위한 기술(인-데이터베이스 분석, 인-메모리 분석, 다중 프로세스를 활용하는 MPP 등)
ㅇ 시각화
- 7단계 : Acquire > Parse (데이터 변환) > Filter > Mine(패턴 파악) > Represent (시각화 방안) > Refine (더 명확하고 시각적으로 돋보이게) > Interact (데이터를 변경하거나 보이는 내용을 조절할 수 있는 방법 제공)
ㅇ 폐기 : 이용 기한이 지난 개인정보, 정보의 가치가 없는 데이터의 폐기에는 하드디스크를 물리적으로 폐기하거나 다른 데이터로 덮어쓰기 하는 방법이 있다. HDFS는 여러 곳에 분산 저장하므로 데이터 폐기 검증이 어렵다. (정보의 가치가 없는 데이터는 폐기! 백업X)
2. 플랫폼 환경
ㅇ 빅데이터 플랫폼 : 다양한 데이터 소스에서 수집한 데이터를 분석 처리하여 지식을 추출하고 이를 기반으로 지능화된 서비스를 제공하는데 필요한 ICT 환경
ㅇ 빅데이터 플랫폼 구성요소
- 빅데이터 처리 플랫폼 : 대용량 데이터를 수집, 저장, 처리, 분석, 시각화를 위한 기술
- 빅데이터 인프라 : 고속 저장 및 고성능 계산 능력을 갖춘 기술로 저가의 컴퓨터 다수에 업무를 분산해서 처리한 후 합해서 마무리하는 분산컴퓨팅, 단위 성능이 뛰어난 고성능 컴퓨팅, 디스크를 최소한으로 사용하고 대부분을 처리속도가 빠른 메모리에서 처리하는 인메모리 컴퓨팅 기술이 활용되고 있다.
< 경영빅데이터분석사2급 요약자료 다운로드 (바로가기) >
'자격증공부 > 경영빅데이터분석사2급' 카테고리의 다른 글
[경영빅데이터분석사2급] 4과목 빅데이터 분석 - 데이터마이닝 (0) | 2023.04.06 |
---|---|
[경영빅데이터분석사 2급] 4과목 빅데이터 분석 - 통계분석 (0) | 2023.04.05 |
[경영빅데이터분석사 2급] 3과목 빅데이터 기획 - 기획과 계획 (0) | 2023.04.03 |
[경영빅데이터분석사2급] 3과목 빅데이터 기획 - 과제도출 (0) | 2023.04.03 |
[경영빅데이터분석사2급] 2과목 경영과 빅데이터 활용 - 빅데이터의 활용(전략/산업별/공공분야 등) (0) | 2023.04.02 |