본문 바로가기

It

[빅데이터분석기사] 빅데이터분석기사 시험정보 [자격증 소개] ㅇ 소개 : 빅데이터 이해를 기반으로 빅데이터 분석기획, 빅데이터 수집/저장/처리, 빅데이터 분석 및 시각화를 수행하는 실무자를 빅데이터분석기사라고 정의한다. ㅇ 주관 : 한국데이터산업진흥원 ㅇ 필요성 : 전 세계적으로 빅데이터가 미래성장동력으로 인식돼, 각국 정부에서는 관련 기업투자를 끌어내는 등 국가, 기업의 주요 전략분야로 부상하고 있다. 국가와 기업의 경쟁력 확보를 위해 빅데이터분석 전문가의 수요는 증가하고 있으나, 수요 대비 공급 부족으로 인력 확보에 어려움이 높은 실정이다. 이에 정부차원에서 빅데이터분석 전문가 양성과 함께 체계적으로 역량을 검증할 수 있는 국가기술자격 수요가 높은 편이다. [시험과목] ㅇ 필기 - 객관식 - 과목당 20문항이며, 4과목으로 총 80문항 - 시험.. 더보기
[ADsP] (3과목) 데이터분석 - 군집분석과 연관분석 기출문제 1. 군집분석을 실시하기 위한 여러 거리 측도 중 범주형 데이터 거리를 계산하기 위한 측도는 무엇인가? ① 유클리디안 거리 ② 자카드 거리 ③ 맨하튼 거리 ④ 표준화 거리 ※ 정답 : 2번 2. 아래의 표를 보고 두 데이터 A와 B의 맨하튼 거리와 체비셰프 거리를 바르게 구한 것은? 맨하튼 거리 체비셰프 거리 ① 9 29 ② 4 29 ③ 9 4 ④ 4 4 ※ 정답 : 3번 - 맨하튼 : 차이 값들의 합 =2+3+4 = 9 - 체비셰프 : 최대값인 4 3. 다음 중 계층적 군집분석에 대한 설명으로 부적절한 것은 무엇인가? ① 범주형 데이터에서도 거리 측정이 가능하므로 분석 기법을 적용할 수 있다. ② R에서 최장연결법으로 수행하기 위해서는 complete를 사용한다. ③ 최장연결법은 가장 거리가 먼 데이터.. 더보기
[ADsP] (3과목) 데이터 분석 - 군집분석과 연관분석 요약 1.개요 ㅇ 비지도 학습 중 하나로 여러 변수로 표현된 데이터들 사이의 유사성을 측정하고 몇 개의 군집으로 나누어 특징을 파악하는 기법. 생물학에서 종의 분류, 마케팅에서의 시장 세분화 및 고객 성향 분석, 추천 시스템을 위한 협업 필터링 등 서비스의 기반을 제공 2. 종류 ㅇ 계층적 군집분석 : 병합적 방법 ㅇ 비계층적 군집분석 : 계층을 보유하지 않음. K평균 군집 3. 거리측도 ㅇ 연속형 변수 - 유클리디안 거리 : 두 점 사이의 거리를 계산하는 대표적인 방법으로 통계적 개념이 포함되지 않아 변수들의 산포 정도를 고려하지 않음 (가장 가까운 거리) - 맨하튼 거리 : 시가거리라고도 하며 도시에서 최단 거리를 구하듯 각 변수들의 차이의 단순 합으로 계산한 거리 - 체비셰프 거리 : 변수간 거리 차이 .. 더보기
[ADsP] (3과목) 데이터 분석 - 데이터마이닝, 분류분석 요약 1. 개요 방대한 양의 데이터 속에서 숨겨진 규칙, 패턴 등을 찾고 예측 및 의사결정에 활용가능한 가치를 탐색, 이렇게 발견된 규칙 및 패턴을 컴퓨터가 학습하는 것이 기계학습, 심층학습, 강화학습이라 지칭함. (유튜브, 알파고, 넷플릭스 등) ㅇ 종류 : 정형/비정형 데이터 마이닝 ㅇ 통계분석은 가설이나 가정에 따른 분석이나 검증을 하지만, 데이터마이닝은 데이터로부터 의미있는 저보를 찾아내는 방법을 통칭 2. 데이터마이닝 방법에 따른 분류 ㅇ 지도학습 : 정답이 있는 데이터를 활용하여 분석 모델을 구축하는 것 (ex. 회귀분석, 의사결정트리, 인공신경망 모형, 로지스틱회귀분석 등) ㅇ 비지도학습 : 정답이 없는 데이터들 사이의 유사성, 거리를 활용하여 그룹화하거나 규칙을 파악하는 것. (ex. 군집분석,.. 더보기
[ADsP] (3과목) 데이터 분석 - 통계분석 Part3 요약 1. 상관분석 ㅇ 상관계수를 활용한 분석방법으로 두 변수간 선형적 관계 존재 유무를 파악하기 위함 ㅇ 상관분서 귀무가설은 ‘두 변수간 상관관계는 존재하지 않는다’ 이다. ㅇ 상관계수 r의 범위는 -1~1이며, 0에 가까울수록 상관이 낮다고 말한다. ㅇ 종류 - 피어슨 상관분석 : 두 변수간 양적 척도인 경우, 두 변수 간의 선형관계의 크기 측정, 상관관계가 존재하지 않는 경우 0이다. - 스피어만 상관분석 : 두 변수가 순서 척도인 경우, 두 변수간의 선형/비선형적 관계 나타낼 수 있음 2. 다차원 척도법 (MDS : Multidimensional Scaling) ㅇ 객체(데이터) 간의 근접성을 시각화하는 통계기법으로 군집분석과 유사하며 데이터의 축소를 목적으로 2차원 평면위에 데이터를 표현한다. Str.. 더보기
[ADsP] (3과목) 데이터 분석 - 통계분석 Part2 기출문제 1. 다음 중 회귀분석을 수행하기 위한 가정사항이 아닌 것은 무엇인가? ① 선형성 ② 등분산성 ③ 정규성 ④ 공분산성 ※ 정답 : 4번 2. 다음은 무엇에 대한 설명인가? 회귀분석에서 각 독립변수에 대한 회귀계수를 추정하기 위한 방법으로 잔차의 제곱합이 최소가 되는 회귀식을 찾는 방법이다. ( 최소제곱법 ) 3. 다음은 종속변수 y를 추정하기 위해 독립변수 x에 대하여 회귀분석을 수행한 결과이다. 다음 중 결과를 잘못 해석한 것은 무엇인가? ① 유의수준 0.05 이내에서 위 결과는 통계적으로 유의하다. ② 해당 결과는 전체 데이터의 79.29%를 설명하고 있다. ③ x의 회귀계수는 3.6471로 추정된다. ④ F 통계량의 자유도로 보아 9개의 데이터로 회귀분석을 수행하였다. ※ 정답 : 4번 : 10개 .. 더보기
[ADsP] (3과목) 데이터 분석 - 통계분석 Part2 요약 1. 회귀분석과 로지스틱 회귀분석 ㅇ 회귀분석 : 하나 이상의 연속형 독립변수들이 연속형 종속변수에 얼마나 영향을 끼치는지 수치적으로 파악하는 통계기법 - 반응변수(종속변수)/설명변수(독립변수) - 회귀계수의 추정 : 최소제곡법, 최소자승법 ㅇ 로지스틱 회귀분석 : 하나 이상의 연속형 독립변수들인 이산형(범주형) 종속변수에 얼마나 영향을 끼치는지 수치적으로 파악하는 통계기법 2. 회귀분석의 종류 ㅇ 단순회귀 : 1개의 독립변수와 반응변수가 직선(선형) 관계 ㅇ 다중회귀 : 2개 이상의 독립변수와 반응변수의 직선(선형) 관계 ㅇ 다항회귀 : 2개 이상의 독립변수와 반응변수가 2차 함수 이상의 관계 ㅇ 비선형 회귀 : 회귀식이 미지의 모수들과 선형관계가 아닌 경우 (ex. 지수함수,로그함수, 삼각함수 등) .. 더보기
[ADsP] (3과목) 데이터 분석 - 통계분석 Part1 기출문제 1. 아래 보기에 들어갈 A와 B를 바르게 고른 것은 무엇인가? 두 개의 사건에 대하여 두 사건이 서로 공통 부분이 존재하지 않는 경우를 ( A )관계라 하며, 두 개의 사건이 공통인 부분이 존재한다 하더라도 서로가 서로에게 영향을 주지 않는 경우를 ( B )관계에 있다고 한다. A B ① 독립 상관 ② 배반 독립 ③ 배반 상관 ④ 상관 배반 ※ 정답 : 2번 2. 표본조사를 실시하기 위한 표본 추출 방법의 선택은 중요한 과제다. 다음 보기에서 설명하는 표본 추출방법은 무엇인가? 모집단의 구성비율을 반영한 표본집단을 생성하기 위해 모집단을 여러 개의 이질적인 집단으로 나눈 뒤 모집단의 비율과 같은 비율로 각 군집으로부터 표본을 추출하는 방법이다. ① 집락 추출법 ② 비례 층화 추출법 ③ 계통 추출법 ④ .. 더보기