본문 바로가기

빅데이터분석준전문가

[ADsP] (3과목) 데이터분석 - 군집분석과 연관분석 기출문제 1. 군집분석을 실시하기 위한 여러 거리 측도 중 범주형 데이터 거리를 계산하기 위한 측도는 무엇인가? ① 유클리디안 거리 ② 자카드 거리 ③ 맨하튼 거리 ④ 표준화 거리 ※ 정답 : 2번 2. 아래의 표를 보고 두 데이터 A와 B의 맨하튼 거리와 체비셰프 거리를 바르게 구한 것은? 맨하튼 거리 체비셰프 거리 ① 9 29 ② 4 29 ③ 9 4 ④ 4 4 ※ 정답 : 3번 - 맨하튼 : 차이 값들의 합 =2+3+4 = 9 - 체비셰프 : 최대값인 4 3. 다음 중 계층적 군집분석에 대한 설명으로 부적절한 것은 무엇인가? ① 범주형 데이터에서도 거리 측정이 가능하므로 분석 기법을 적용할 수 있다. ② R에서 최장연결법으로 수행하기 위해서는 complete를 사용한다. ③ 최장연결법은 가장 거리가 먼 데이터.. 더보기
[ADsP] (3과목) 데이터 분석 - 군집분석과 연관분석 요약 1.개요 ㅇ 비지도 학습 중 하나로 여러 변수로 표현된 데이터들 사이의 유사성을 측정하고 몇 개의 군집으로 나누어 특징을 파악하는 기법. 생물학에서 종의 분류, 마케팅에서의 시장 세분화 및 고객 성향 분석, 추천 시스템을 위한 협업 필터링 등 서비스의 기반을 제공 2. 종류 ㅇ 계층적 군집분석 : 병합적 방법 ㅇ 비계층적 군집분석 : 계층을 보유하지 않음. K평균 군집 3. 거리측도 ㅇ 연속형 변수 - 유클리디안 거리 : 두 점 사이의 거리를 계산하는 대표적인 방법으로 통계적 개념이 포함되지 않아 변수들의 산포 정도를 고려하지 않음 (가장 가까운 거리) - 맨하튼 거리 : 시가거리라고도 하며 도시에서 최단 거리를 구하듯 각 변수들의 차이의 단순 합으로 계산한 거리 - 체비셰프 거리 : 변수간 거리 차이 .. 더보기
[ADsP] (2과목) 데이터분석 기획 - 데이터분석 기획 Part1 기출문제 1. 다음 중 분석을 수행하기에 앞서 고려해야 할 요소로 부적절한 것은? ① 유사한 분석 케이스 확보 ② 분석 장애 요소 파악 ③ 활용 가능한 데이터의 파악 ④ 요구되는 분석 기법의 파악 ※ 정답 : 4번 - 가용 데이터 여부, use case 탐색, 장애 요소 파악 2. “장기적인 마스터플랜 방식”에 비하여 “과제 중심적인 접근 방식”의 특징으로 가장 적절하지 못한 것은? ① Quick & Win ② Speed & Test ③ Problem Solving ④ Accuracy & Deploy ※ 정답 : 4번 - 장기적 지속적 분석 문화 내재화, 마스터 플랜 3. 다음 중 분석 대상(What)을 알고 분석 방법(How)을 알고 있는 경우 무엇을 목적으로 접근해야 하는가? ① 통찰 ② 발견 ③ 최적화 ④ .. 더보기
[ADsP] (1과목) 데이터 이해 - 데이터의 이해 1. 데이터 정의 ㅇ 존재적 특성 : 가공되지 않은 있는 그대로의 객관적 사실 ㅇ 당위적 특성 : 추론, 예측, 전망, 추정을 위한 근거 * 데이터는 다른 객체와 상호관계일 때 가치 있으며, 객관적 사실로 개별 데이터는 중요하지 않다. 2. 데이터 유형 ㅇ 정성적 : 양으로 표현 불가능한 질적 자료로 언어, 문자 등 형태와 형식이 정해져 있지 않고, 비정형 데이터로 저장, 분석에 시간과 비용 필요 (ex. 설문조사 주관식 응답, 문자, 언어, 음성메시지, 그림문자, 트위터, 페이스북 등) ㅇ 정량적 : 양으로 표현이 가능한 양적 데이터로 데이터양이 증가하더라도 저장, 분석 용이 (ex. 수치, 기호, 도형, 온도, 풍속, 강수량 등) 3. 데이터 유형 분류 ㅇ 정형 : 정형화된 구조가 있으며 연산 가능,.. 더보기