본문 바로가기

자격증공부/데이터분석준전문가(ADsP)

[ADsP] (2과목) 데이터분석 기획 - 데이터분석 기획 Part 1 요약

320x100

 

<분석기획 방향성 도출>

1. 분석주제 유형

ㅇ 분석 대상 및 방법에 따라 구분하며, 분석 주제 및 기법 특성상 아래 4가지 유형은 서로 융합적으로 반복하게 됨.
 - Optimization : 분석 대상 및 분석 방법을 이해하고 현 문제를 최적화 형태로 수행
 - Solution : 분석과제는 수행되고 분석방법을 알지 못할 경우 솔루션을 찾는 방식으로 분석과제 수행
 - Insight : 분석 대상이 불분명하고 분석방법을 알고 있는 경우 인사이트 도출
 - Discovery : 분석대상, 방법을 모른다면 발견을 통해 분석대상 자체를 새롭게 도출

분석방법 분석대상
Known Un-Kown
Known 최적화(Optimization) 통찰력(Insight)
Un-Known 해결책(Solution) 발견(Discovery)

 2. 목표 시점별 기획방안

ㅇ 의미있는 분석을 위해서는 분석기술, IT 및 프로그래밍, 분석 주제에 대한 도메인 전문성, 의사소통이 중요하고 분석대상 및 방식에 따른 다양한 분석 주제를 과제 단위 혹은 마스터 플랜 단위로 도출할 수 있어야 한다.

  당면한 분석 주제 해결
(과제단위)
지속적 분석 문화 내재화
(마스터 플랜)
목적 빠르게 해결하는 것이 목적 지속적으로 해결하는 것이 목적
1차 목표 Speed & Test Accuracy & Deploy
과제유형 Quick & Win Long Term View
접근방식 Problem Solving Problem Definition

 3. 분석기획 시 고려사항

ㅇ 가용 데이터 고려 : 데이터 유형에 따라 적용 가능한 솔루션 및 분석 방법이 다르므로 유형에 대한 분석이 선행적으로 이루어지며, 데이터 존재 여부를 파악한다.
ㅇ 적절한 활용방안 및 Use Case 탐색 : 현재 잘 활용되고 있는 유사 시나리오 및 솔루션을 활용하며, 과거의 유사 분석 사례를 가이드로 활용
ㅇ 장애요소에 대한 사전 계획 수립 : 발생 가능한 장애에 대한 대응방안을 수립

4. 의사결정 방해요소

ㅇ 고정관념 : 설득이나 상황의 변화에도 특정 인물에게 내재된 잘못된 사고방식
ㅇ 편향된 생각 : 특정 주제에 대해서 한쪽으로 치우쳐서 생각하는 사고방식
ㅇ 프레이밍 효과 : 동일 사건이나 상황을 두고도 개인의 판단이나 선택이 달라질 수 있는 현상
ㅇ 데이터 기반의 의사결정을 위해서는 기업문화의 변화와 업무 프로세스 개선이 필요

5. 데이터 저장방식

ㅇ RDB
 - 관계형 데이터를 저장하거나 수정하고 관리, SQL 문장을 통해 DB 생성/수정/검색 등 제공
 - Oracle, MSSQL, MySQL 등
ㅇ NoSQL
 - 비관계형(비정형) DB관리 시스템
 - 빅데이터 분산처리 및 저장 기술과 함께 발달된 분산 DB기술로 확장성 및 가용성 제공
 - 대용량 처리와 대규모의 수평적 확장성 제공
 - MongoDB, Cassandra, HBase, Redis
ㅇ HDFS
 - 저사양 서버를 이용해 스토리지를 구성할 수 있음
 - 기존의 대용량 파일시스템 또는 DB를 구성하려면 고성능 서버나 대용량 외장 스토리지가 필요하였으며, 이러한 시스템은 웹서버와 같은 서버에 비해 상당히 많은 비용이 발생. 하지만 HDFS를 이용하면 수십 혹은 수백 대의 웹 서버급 서버나 저사양 서버를 묶어서 하나의 스토리지처럼 사용 가능

320x100

<분석방법론>

1. 분석 방법론 개요 및 구성요소

ㅇ 효과적인 데이터 분석을 위해 체계화된 절차와 방법을 의미하며, 일정수준의 품질을 갖추고 산출물을 확보하는 것이 목적이다.
상세한 절차, 방법, 도구와 기법, 템플릿과 산출물

2. 적용 업무 특성에 따른 모델

ㅇ 폭포수(Waterfall) 모델 : 현재 단계가 완료되어야 다음단계를 진행(순차적)할 수 있는 하향식 모델로 문제 발생 시 이전 단계로 돌아가 피드백 과정 수행 가능
ㅇ 프로토타입(Prototype) 모델
: 일부 개발 후 사용자의 요구를 분석, 점검하는 과정을 통해 점진적으로 시스템을 개발하는 모델로 사용자 중심의 개발방법으로 사용자가 요구사항이나 데이터를 정확히 규정하기 어렵고 데이터 소스도 명확히 파악하기 어려운 상황에서 일단 분석을 시도해보고 그 결과를 확인해가면서 반복적으로 개선해 나가는 방법, 요구사항을 분석한 후 프로토타입을 개발하여 평가를 받는다. 평가 결과에 따라 개발 실행 또는 프로토타입 개선이나 요구사항을 재분석한다. 폭포수 모델의 피드백에 대한 어려움을 보완하기 위해 프로토타입 제작과 평가 추가
ㅇ 나선형(Spiral) 모델 : 반복을 통해 점진적
으로 시스템을 개발한다는 점에서 나선형 모델과 유사하나, 고객의 요구보다 위험요소를 제거하는데 초점을 맞춤, 처음 시도하는 프로젝트에 용이, 대규모 시스템 개발에 적합, 반복에 대한 관리체계를 효과적으로 갖추지 못하는 경우 프로젝트 진행 어려움

3. 방법론의 구성

ㅇ 일반적인 분석 방법론 모델로 최상의 계층의 단계, 중간 계층의 태스크, 마지막 계층의 스텝으로 구성
 - 스텝(Step) > 태스크(Task) > 단계(Phase)

  . 단계  : 최상위 계층으로 프로세스 그룹을 통하여 완성된 단계별 산출물이 생성된다. 각 단계는 기준선으로 설정되어 관리되어야 하며, 버전관리 등을 통하여 통제된다. -> 단계별 완료보고서

  . 태스크 : 단계를 구성하는 단위 활동으로써 물리적 또는 논리적 단위로 품질검토의 항목이 된다. -> 보고서

  . 스탭 : WBS의 워크 패키지에 해당되고, 입력자료, 처리 및 도구, 출력자료로 구성된 단위 프로세스이다. -> 보고서 구성요소 - WBS(Work Breakdwon Structure : 작업 분할 구조도) : Project Management에 이용되는 기법의 하나로 Project 전체를 작은 작업 단위로 분할한 구성도. 사전적 의미로는 Project의 범위와 최종 산출물을 세부요소로 분할한 계층적 구조도라고 정의

4. KDD분석 방법론 : Knowledge Discovery in Databases

데이터로부터 통계적 패턴이나 지식을 체계적으로 찾기 위해 5단계로 구성된 분석 방법론
ㅇ KDD(Knowledge Discovery in Database)는 1996년 Fayyad가 체계적으로 정리한 데이터마이닝 프로세스로 데이터베이스에서 의미있는 지식을 탐색하는 데이터 마이닝, 기계학습, 인공지능, 패턴인식, 데이터시각화 등에서 응용될 수 있는 구조를 갖추고 있다.
ㅇ KDD분석절차
 1) 분석 대상의 비즈니스 도메인에 대한 이해와 프로젝트 목표를 정확하게 설정
 2) 데이터 세트 선택(Selection)
 3) 데이터 전처리(Preprocessing) : 분석 데이터 세트에 포함된 잡음(noise), 이상값(outlier), 결측치(Missing value)를 파악하여 제거하거나 의미 있는 데이터로 재가공
 4) 데이터 변환(Transformation) : 분석 목적에 맞는 변수를 선택하거나 데이터의 차원을 축소하여 데이터마이닝을 효율적으로 적용할 수 있도록 데이터셋을 변경한다
 5) 데이터 마이닝 : 변환된 데이터 세트를 이용하여 분석 목적에 맞는 데이터 마이닝 기법을 선택하고, 데이터 마이닝 알고리즘을 선택하여 데이터의 패턴을 찾거나 데이터를 분류 또는 예측하는 등의 마이닝 작업을 시행
 6) 데이터 마이닝 결과평가 : 분석 결과에 대한 해석과 평가 그리고 활용을 한다.

5. CRISP – DM 분석 방법론

ㅇ CRISP-DM(Cross Industry Standard Process For Data Mining) 프로세스는 6단계로 구성되어 있으며, 각 단계는 폭포수 모델처럼 한 방향으로 구성되어 있지 않고, 단계간 피드백을 통해 완성도를 높이게 됨

ㅇ CRISP-DM 4레벨 구조 : 단계(Phases) > 일반화 태스크(Generis Tasks) > 세분화 태스트(Specialized Tasks) > 프로세스실행(Process Instances)

ㅇ CRISP-DM 분석절차
 1) 업무이해
  - 업무 목적 파악, 상황 파악, 데이터 마이닝의 목표설정 및 프로젝트 계획 수립
  - 비즈니스 관점 프로젝트의 목적과 요구사항을 이해하기 위한 단계
  - 도메인지식을 데이터분석을 위한 문제정의로 변경하고 초기 프로젝트계획 수립 단계
 2) 데이터 이해
  - 초기 데이터 수집, 데이터 기술 분석, 데이터 탐색, 데이터 품질 확인
  - 데이터 이해는 분석을 위한 데이터를 수집하고 데이터 속성을 이해하기 위한 과정으로 구성되고, 데이터 품질에 대한 문제점을 식별하고 숨겨져 있는 인사이트를 발견하는 단계  
 3) 데이터 준비
  - 데이터 준비는 분석을 위하여 수집된 데이터에서 분석 기법에 적합한 데이터 세트를 편성하는 단계로 많은 시간이 소요될 수 있음
  - 분석용 데이터 세트 선택, 데이터 정제, 데이터 통합, 데이터 포맷팅
 4) 모델링
  - 다양한 모델링 기법과 알고리즘을 선택하고 모델링 과정에서 사용되는 파라미터를 최적화 해 나가는 단계
  - 이 단계를 통해 찾아낸 모델은 테스트용 프로세스와 데이터셋을 평가하여 모델 과대적합(Overfitting) 등의 문제를 발견하고 대응방안을 마련함
    · 과대적합 : 훈련 데이터가 모델에 너무 최적화되어 있어서 일반화에 떨어져있을 때
  - 모델링 기법 선택, 모델 테스트 계획 설계, 모델 작성, 모델평가
 5) 평가
  - 프로젝트의 목적에 부합하는지 모델 평가
  - 데이터 마이닝 결과 수용 여부를 최종적으로 판단
  - 분석 결과평가, 모델링 과정 평가, 모델 적용성 평가
 6) 전개
  - 모델링과 평가 단계를 통하여 완성된 모델을 실제 업무에 적용하기 위한 계획을 수립하고, 모니터링과 모델의 유지보수계획마련
  - 전개 계획 수립, 모니터링과 유지보수계획 수립, 프로젝트 종료 보고서 작성, 프로젝트 검토로 구성

반응형

6.빅데이터 분석 방법론

ㅇ 분석기획(Planning) : 비즈니스 이해 및 범위설정, 프로젝트 정의 및 계획 수립, 프로젝트 위험 계획 수립
ㅇ 데이터준비(Preparing) : 필요 데이터 정의, 데이터 스토어 설계, 데이터 수집 및 적합성 점검
ㅇ 데이터분석(Analyzing) : 분석용 데이터 준비, 텍스트 분석, 탐색적 분석, 모델링, 모델평가 및 검증
ㅇ 시스템구현(Developing) : 설계 및 구현, 시스템 테스트 및 운영
ㅇ 평가 및 전개(Deploying) : 모델 발전 계획, 프로젝트 평가 보고, 평가 및 전개

 6-1. 분석기획(Planning)

SOW : 프로젝트 수행 전에 개념정리 기회 제공, 프로젝트 팀원들에게 한 눈에 프로젝트 전체를 볼 수 있게 하고 진행도중 새롭게 투입된 팀원에게 전달하기 위해 작성 (Statement of Work)
위험 대응 계획 수립 시 아래 4가지를 구분하여 관리계획서를 작성
 - 회피 : 발생 원인 제거
 - 전이 : 제 3자에게 이전, 보험, 보증
 - 완화 : 용인 가능한 임계치까지 관리
 - 수용 : 실제 발생 시 대응, 리스크가 발생하기 전에 어떤 조치도 취하지 않는 것
ㅇ 리스크는 제거하는 것이 아니라 일정 수준 이하로 낮추는 것

스텝 내용 입력자료 프로세스 및 도구 출력자료
비즈니스
 이해
- 분석 대상인 업무
- 도메인에 대한 이해
- 업무매뉴얼
- 업무 전문가 지식
자료 수정 및
비즈니스 이해
- 비즈니스 이해
- 도메인 문제점
프로젝트
 범위설정
프로젝트 목적이
부합하는 범위를 설정하고, 프로젝트 범위 정의서인 SOW를 작성
- 중장기 계획서
- 빅데이터 분석
프로젝트 지시서
- 자료수정
- 비즈니스 이해
- 프로젝트 업무
 정의서 작성 절차
- 프로젝트 범위
정의서
데이터분석
프로젝트 정의
프로젝트 목표를 명확히
하기 위한 평가 기준 설정(KPI)
- 프로젝트 범위
정의서

- 빅데이터 분석
프로젝트 지시서
- 프로젝트 목표
구체화
- 모델 운영 이미지
설계
- 프로젝트정의서
- 모델 운영
이미지 설계서
프로젝트
수행계획
수립
프로젝트 수행계획서 작성(WBS) - 프로젝트 정의서
- 모델 운영 이미지
설계서

- 모델 평가 기준
- 프로젝트 수행
계획 작성
- WBS 작성 도구
- 일정계획 수립도구
- 프로젝트
수행계획서
- WBS
데이터분석
위험식별
발생 가능한 위험 식별 - 프로젝트 정의서
- 프로젝트 수행
계획서
- 위험식별절차
- 위험영향도 및

발생가능성 분석
- 위험 우선순위 판단
식별된 위험목록
위험 대응
계획 수립
식별된 위험에 대한
대응 방안 수립
- 회피/전이/완화/수용
- 식별된 위험목록
- 프로젝트 정의서

- 프로젝트 수행
계획서
- 위험 정량적 분석
- 위험 정성적 분석
위험관리계획서

  6-2. 데이터 준비(Preparing)

스텝 내용 입력자료 프로세스 및 도구 출력자료
데이터
정의
다양한 데이터 소스로부터
필요 데이터 정의
- 프로젝트수행계획서
- 시스템 설계서
- ERD
- 메타데이터 정의서
- 내/외부 데이터정의
- 정형/비정형/반정형
데이터 정의
데이터정의서
데이터획득
방안 수립
데이터를 수집하기 위한
구체적인 방안 수립
법적인 문제점을 고려하여 상세한 계획 수립
- 데이터정의서
- 시스템설계서
- ERD
- 메타데이터정의서
데이터
획득방안 수립
데이터
획득계획서
정형데이터
스토어설계
데이터의 효율적인 저장과
활용을 위한 데이터 스토어 설계
- 데이터 정의서
- 데이터 획득계획서
- DB논리설계
- DB물리설계
- 데이터 매핑
- 정형데이터스토어
- 데이터 매핑정의서
비정형
데이터
스토어설계
하둡, NoSQL 등 활용하여
비정형 및 반정형 데이터를
저장하기 위한 데이터 스토어 설계
- 데이터 정의서
- 데이터 획득계획서
- 비정형/반정형
데이터 논리설계

- 비정형/반정형
데이터 물리설계
- 비정형 데이터
스토어 설계서
- 데이터 매핑정의서
데이터수집 및 저장 수집된 데이터를 설계된
스토어에 저장
- 데이터정의서
- 데이터획득계획서
- 데이터스토어 설계서
-데이터 크롤링 도구
-ETL도구
-데이터수집스크립트
- 수집된 분석용
데이터
데이터
정합성점검
데이터품질 점검을 통하여
데이터의 정합성을 확보
수집된 분석용 데이터 - 데이터 품질확인
- 데이터 정합성 점검
 리스트
- 데이터 정합성
점검 보고서

  6-3. 데이터 분석(Analyzing)

스텝 내용 입력자료 프로세스 및 도구 출력자료
비즈니스 툴
확인
프로젝트의 목표를 인식하고
세부적인 비즈니스 툴과
필요데이터 범위 확인
-  프로젝트 정의서
- 프로젝트 수행계획서
- 데이터 정의서
- 데이터 스토어
- 프로젝트 목표 확인
- 비즈니스 툴 확인
- 비즈니스 툴 분석에
필요한 데이터 범위
분석용 데이터 셋 준비 데이터 스토어로부터 분석에
필요한 데이터를 추출
- 데이터 정의서
- 데이터 스토어
- 데이터 선정
- 데이터 변환
 - ETL도구
- 분석용 데이터 셋
텍스트
데이터 확인
및 추출
텍스트 분석에 필요한 데이터
확인 및 데이터 추출
- 비정형 데이터 스토어 - 분석용 텍스트 데이터 확인
- 텍스트 데이터 추출
분석용 텍스트 데이터
텍스트
데이터 분석
추출된 텍스트 데이터를 분석
도구로 적재하여 다양한
기법으로 분석 및 모델 구축
분석용 텍스트 데이터
용어사전
- 분류체계 설계
- 형태소 분석
- 키워드 추출
- 감성 분석
텍스트 분석 보고서
탐색적
데이터 분석
다양한 관점에서 데이터의 분포 및 특성 확인 분석용 데이터 셋 - EDA 도구
- 통계 분석
- 변수 간 연관성 확인
- 데이터 분포 확인
데이터 탐색 보고서
데이터 시각화 데이터 시각화는 탐색적 데이터 분석을 위하여 활용 분석용 데이터 셋 - 시각화도구 및 패키지
- 인포그래픽

- 시각화 방법론
데이터 시각화 보고서
데이터 분할 모델의 과적합 문제 해결과 모델의 검증력을 테스트하기 위한
데이터 분할
분석용 데이터 셋 데이터 분할 패키지 - 훈련용 데이터
- 테스트용 데이터
데이터 모델링 기계학습 등을 이용한 분류,예측,군집 등의 모델을 구축 분석용 데이터 셋 - 통계 모델링 기법
- 기계학습
- 모델 테스트
모델링 결과 보고서
모델적응 및 운영방안 모델 적용을 위한 상세 알고리즘 설명서 작성과 모델의 운영 모니터링 방안 수립 모델링 결과 보고서 - 모니터링 방안 수립
- 알고리즘 설명서 작성
- 알고리즘 설명서
- 모니터링 방안
모델 평가 모델 평가 기준에 따른 모델의
객관적인 평가 진행
- 모델링 결과 보고서
- 평가용 데이터
- 모델 평가
- 모델 품질관리
- 모델 개선작업
모델 평가보고서
모델 검증 모델의 적용성 검증 작업과
실제 모델 품질을 최종 검증
- 모델링 결과 보고서
- 모델 평가 보고서
- 검증용 데이터
모델 검증 모델 검증 보고서

  6-4. 시스템 구현(Developing)

ㅇ 분석 기획 의도에 맞는 모델을 데이터 분석 단계를 진행하여 도출하고, 이를 운영 중인 시스템에 적용하거나 프로토타입을 구현하고자 하는 경우 진행
ㅇ 단순 데이터 분석이나 데이터마이닝을 통한 분석 보고서를 작성하는 것으로 프로젝트가 종료되는 경우에는 시스템 구현 단계를 수행할 필요가 없고, 다음 단계인 평가 및 전개 단계를 수행

스텝 내용 입력자료 프로세스 및 도구 출력자료
시스템 분석
및 설계
가동 중인 시스템 분석 및 구축 설계 프로세스 진행 - 알고리즘 설명서
- 운영중인 시스템 설계서
정보시스템 개발방법론 시스템 분석 및 설계서
시스템 구현 새로운 시스템 구축 및 가동중인 운영 시스템의 커스터마이징을 통하여 설계된 모델을 구현 - 알고리즘 설명서
- 시스템 분석 및 설계서
-시스템 통합개발도구
-프로그래밍언어패키지
구현 시스템
시스템 테스트 구축된 시스템의 검증을 위하여 단위 테스트, 통합 테스트, 시스템 테스트 등을 실시 - 구현 시스템
- 시스템 테스트 계획서
- 품질관리 활동 - 시스템 테스트
- 결과 보고서
시스템
운영계획
구현된 시스템의 지속적인 활동을 위한 시스템 운영자, 사용자 교육 실시 및 시스템 운영 계획 수립 - 구현 시스템
- 시스템 테스트 계획서
- 운영계획 수립
- 운영자 및 사용자교육
- 운영자 매뉴얼
- 사용자 매뉴얼
- 시스템 운영계획서

  6-5. 평가 및 전개(Deploying)

스텝 내용 입력자료 프로세스 및 도구 출력자료
모델
발전 계획
지속적인 운영과 기능 향상을
위한 발전 계획 수립
- 구현 시스템
- 프로젝트 산출물
모델 발전 계획 수립 모델 발전 계획서
프로젝트
성과 평가
프로젝트 정량적 성과와 정성적 성과를 나누어 성과 평가서 작성 - 프로젝트 산출물
- 품질관리 산출물
- 프로젝트 정의서
- 프로젝트 수행계획서
- 프로젝트 평가 기준
- 프로젝트 정량적 평가
- 프로젝트 정성적 평가
프로젝트 성과 평가서
프로젝트
종료
프로젝트 과정간 모든 산출물 및 프로세스를 지식 자산화하고
최종 보고서 작성
- 프로젝트 산출물
- 품질관리 산출물
- 프로젝트 정의서
- 프로젝트 수행계획서
- 프로젝트 지식자산화
작업
- 프로젝트 종료
프로젝트 최종보고서

 

<관련 기출문제>

2023.02.15 - [자격증공부] - [ADsP] (2과목) 데이터분석 기획 - 데이터분석 기획 Part1 기출문제

 

[ADsP] (2과목) 데이터분석 기획 - 데이터분석 기획 Part1 기출문제

1. 다음 중 분석을 수행하기에 앞서 고려해야 할 요소로 부적절한 것은? ① 유사한 분석 케이스 확보 ② 분석 장애 요소 파악 ③ 활용 가능한 데이터의 파악 ④ 요구되는 분석 기법의 파악 ※ 정

inform.workhyo.com

 

<ADsP 요약+기출문제 자료 다운로드(바로가기)>

 

ADsP 빅데이터분석준전문가 자격증 대비 요약 및 기출 | 10000원부터 시작 가능한 총 평점 0점의 자

0개 총 작업 개수 완료한 총 평점 0점인 WorkHYO의 자료·템플릿, 취업·입시 자료, 기타 서비스를 0개의 리뷰와 함께 확인해 보세요. 자료·템플릿, 취업·입시 자료, 기타 제공 등 10000원부터 시작 가

kmong.com

 

320x100
반응형