본문 바로가기

자격증공부/데이터분석준전문가(ADsP)

[ADsP] (3과목) 데이터 분석 - 데이터마이닝, 분류분석 기출문제

320x100

 

<데이터마이닝>

1. 다음 중 대용량 데이터 속에서 숨겨진 지식 또는 새로운 규칙을 추출해 내는 과정을 일컫는 것은?

 지식경영

 의사결정지원시스템

 데이터웨어하우징

④ 데이터마이닝

 

 정답 : 4번

 

2. 다음 중 기법의 활용 분야가 나머지와 다른 하나를 고르시오.

로지스틱 회귀분석

 인공신경망

 의사결정나무

④ SOM

 

 정답 : 4번

 

3. 다음 중 나머지와 분석 방법이 다른 것은?

k-means clustering

single linkage method

DBSCAN

④ 주성분분석

 

 정답 : 4번 - 1~3번은 군집분석

 

4. 아래의 데이터 마이닝 분석 예제 중 비지도 학습을 수행해야 하는 예제는?

 (가) 우편물에 인쇄된 우편번호 판별 분석을 통해 우편물을 자동으로 분류

 (나) 고객의 과거 거래 구매 패턴을 분석하여 고객이 구매하지 않은 상품을 추천

 (다) 동일 차종의 수리 보고서 데이터를 분석하여 차량 수리에 소요되는 시간을 예측

 (라) 상품을 구매할 떄 그와 유사한 상품을 구매한 고객들의 구매 데이터를 분석하여 쿠폰을 발행

 (마) 고장난 비행기들의 수리 이력 데이터를 분석하여 수리시간을 추정

나, 다

가, 라

가, 다

④ 나, 라

 

 정답 : 4번

 

5. 다음 데이터 마이닝의 대표적인 기능 중 이질적인 모집단을 세분화하는 기능으로 적절한 것은?

 분류분석

 보수추정

 군집분석

④ 연관분석

 

 정답 : 3번

 

6. 데이터 마이닝 단계 중 모델링 목적에 따라 목적변수를 정리하고 필요한 데이터를 데이터마이닝 소프트웨어에 적용할 수 있도록 준비하는 단계는?

데이터마이닝 기법 적용

목적 정의

데이터 가정

④ 데이터 준비

 

 정답 : 3번

 

7. 과대적합은 통계나 기계학습에서 모델에서 변수가 너무 많아 모델이 복잡하고 과대하게 학습될 때 주로 발생한다. 다음 중 과대 적합에 대한 설명으로 가장 부적절한 것은?

생성된 모델이 훈련 데이터에 너무 최적화되어 학습하여 테스트데이터의 작은 변화에 민감하게 반응하는 경우는 발생하지 않는다.

학습데이터가 모집단의 특성을 충분히 설명하지 못할 때 자주 발생한다.

변수가 너무 많아 모형이 복잡할 때 생긴다.

④ 과대적합이 발생할 것으로 예상되면 학습을 종료학 ㅗ업데이트 하는 과정을 반복해 과대적합의 방지할 수 있다.

 

 정답 : 1번 - 훈련 데이터에 최적화되어 있기 떄문에 테스트 데이터의 작은 변화에 민감하게 반응한다.

 

<분류분석>

1. 다음 중 로지스틱 회귀분석에 대한 설명 중 가장 부적절한 것은 무엇인가?

① 오즈란 이진 분류에서 실패할 확률 대비 성공할 확률을 의미한다.

② 로지스틱 회귀분석의 종속변수는 범주형이다.

③ x의 회귀계수를 5라 가정하면 x 값이 1 증가할 때 성공할 확률은 5배 증가한다.

④ 성공 횟수가 10이고 실패횟수가 1이면 오즈값은 10이다.

 

※ 정답 : 3번 – 회귀계수 제곱만큼 증가함. e^5만큼 증가함

 

2. 다음 중 의사결정나무에 대한 설명으로 부적절한 것은 무엇인가?

① 분류분석의 일종으로 여러 개의 분리 기준에 의하여 최종 분류 값을 찾는 방법이다.

② 지니 지수, 엔트로피 지수 등을 분리 기준의 지표로 활용한다.

③ 시각화하였을 경우 누구나 쉽게 알아볼 수 있다는 장점이 있다.

④ 종속변수가 범주형인 경우에는 지니지수를, 연속형인 경우 엔트로피와 카이제곱 통계량을 사용한다.

 

※ 정답 : 4번 – 연속형인 경우 분산감소량, F통계량 활용

 

3. 아래는 의사결정나무를 수행하는데 있어서 한 가지 규칙에 대한 설명이다. 무엇에 대한 설명인가?

너무 많은 분리기준을 보유한 의사결정나무는 일반화의 어려움이 있을 수 있는 과적합 문제가 발생할 수 있다. 이러한 문제를 해결하기 위해 특정 조건에 도달하였을 경우 나무의 성장을 멈추도록 하는 규칙이다.

 

※  정답 : 정지규칙

 

4. 아래 그림의 집단을 보고 지니지수를 계산하시오.

① 12 / 25

② 13 / 25

③ 14 / 25

④ 15 / 25

 

※ 정답 : 1번

지니지수 = 1 – 각 확률의 제곱 값의 합 = 1-(3/5)^2-(2/5)^2 = 12/25

앞면 확률 : 3/5, 뒷면 확률 : 2/5

 

5. 다음 중 앙상블 분석에 대한 설명으로 가장 부적절한 것은 무엇인가?

① 배깅은 원본 데이터의 붓스트랩을 활용하여 여러 개의 모형을 만들고 보팅에 의하여 최종 결과를 도출한다.

② 붓스트랩이란 기존 데이터와 같은 크기만큼 표본을 복원추출하여 만들어낸 새로운 데이터집단이다.

③ 의사결정나무는 이상값에 민감하지 않지만 랜덤 포레스트는 이상값에 민감하다.

④ 앙상블 분석의 주 목적은 여러 개의 분류기를 제작하여 하나의 분류기에서 오는 낮은 신뢰성을 높이는 것이다.

 

※ 정답 : 3번 – 이상값에 민갑하지 않음. 부스팅은 이상값에 민감

 

6. 다음은 앙상블 분석의 어떤 기법에 대한 설명인가?

한 번에 여러 개의 붓스트랩을 만들지 않고 다음 분류기를 제작하기 위한 붓스트랩을 구성할 때 이전 분류기에 의하여 잘못 분류된 데이터에 더 큰 가중치를 주어 새로운 붓스트랩을 구성하여 최종모형을 만드는 방법이다.

① 랜덤 포레스트

② 배깅

③ 부스팅

④ 의사결정나무

 

※ 정답 : 3번

 

7. 다음 중 인공신경망에 대한 설명 중 잘못 설명한 것은 무엇인가?

① 다층신경망에서 은닉층의 수와 은닉노드의 수는 많을수록 좋으나 계산 시간이 오래 걸려서 선호되지 않는다.

② 발생한 오차를 줄이기 위해 역전파 알고리즘을 사용하여 가중치를 수정한다.

③ 역전파에 의한 가중치 수정 작업 중 가중치의 절대값이 커져 과소적합이 발생하는 것을 포화문제라 한다.

④ 다수의 은닉층을 보유한 경우 시그모이드 함수를 사용하면 기울기 소실 문제가 발생할 수 있다.

 

※ 정답 : 1번

 

8. 아래는 성과 평가의 여러 그래프 중 하나에 대한 설명이다. 어떤 그래프에 대한 설명인가?

x축은 1-특이도 값을 나타내며, y축은 민감도의 값을 나타내어 모형의 이진분류에 대한 성과를 평가하기 위한 그래프이다. 그래프의 아래 면적값이 클수록 모형의 성능이 우수하다고 말할 수 있다.

① 향상도 곡선

② 회귀 곡선

③ 편차 제곱합 그래프

④ ROC 커브

 

※ 정답 : 4번

 

9. 아래 표를 보고 F1 score 값을 구하시오(단, 소수 둘째 자리에서 반올림)

※  정답 : 0.7

- 재현 : 15/20 = 0.75

- 정밀 : 15/25 = 0.6

- F1 = 2*0.75*0.6/(0.75+0.6)

 

10. 다음 중 의사결정 나무 모형의 학습 방법에 대한 설명으로 부족한 것은 무엇인가?

이익도표 또는 검정용 자료에 의한 교차타당성 등을 이용해 의사결정나무를 평가한다.

분리 변수의 P차원 공간에 대한 현재 분할은 이전 분할에 영향을 받지 않고 이루어지며, 공간을 분할하는 모든 직사각형들이 가능한 순수하게 되도록 만든다.

각 마디에서의 최적 분리규칙은 분리변수의 선택과 분리기준에 의해 결정된다.

④ 가지치기는 분류 오류를 크게 할 위험이 높거나 부적절한 규칙을 가지고 있는 가지를 제거하는 작업이다.

 

 정답 : 2번 - 분리변수의 P차원 공간에 대한 현재 분할은 이전 분할에 영향을 받는다.

 

11. 원 데이터 집합으로부터 크기가 같은 표본을 여러번 단순 임의 복원추출하여 각 표본에 대해 분류기를 생성한 후 그 결과를 앙상블하는 방법을 무엇이라 하는가?

 

 정답 : 배깅

 

12. 앙상블 모형은 여러 모형의 결과를 결합함으로써 단일 모형으로 분석했을 때보다 신뢰성 높은 예측값을 얻을 수 있다. 다음 중 앙상블 모형의 특징으로 옳지 않은 것은?

 이상갑셍 대한 대응력이 높아진다.

 전체적인 예측값의 분산을 감소시켜 정확도를 높일 수 있다.

 모형의 투명성이 떨어져 원인 분석에는 적합하지 않다.

④ 각 모형의 상호 연관성이 높을수록 정확도가 향상된다.

 

 정답 : 4번 - 각 모형의 상호 연관성이 높을수록 정확도는 떨어진다.

 

13. 다수 모델의 예측을 관리하고 조합하는 기술을 메타학습이라 한다. 여러 분류기들의 예측을 조합함으로써 분류 정확성을 향상시키는 기법은?

 

 정답 : 앙상블 기법

 

14. 의사결정나무와 같이 선형성, 정규성, 등분산성 등의 가정을 필요로 하지 않는 모형은?

 

 정답 : 비모수모형

 

15. 의사결정 나무에서 더 이상 분기가 되지 않고 현재듸 마디가 끝마디가 되도록 하는 규칙을 나타내는 용어는 무엇인가?

 

 정답 : 정지규칙

 

16. 신경망 모형은 자신이 가진 데이터로부터 반복적인 학습과정을 거쳐 패턴을 찾아내고 이를 일반화하는 예측방법이다. 다음 중 신경망 모형에 대한 설명으로 부적절한 것은 무엇인가?

 피드포워드 신경망은 정보가 전방으로 전달되는 것으로 생물학적 신경계에서 나타나는 형태이며 딥러닝에서 가장 핵심적인 구조 개념이다.

 은닉층의 뉴런의 수와 개수는 신경망 모형에서 자동으로 설정된다.

 일반적으로 인공신경망은 다층퍼셉트론을 의미한다. 다층 퍼셉트론에서 정보의 흐름은 입력층에서 시작하여 은닉층을 거쳐 출력층으로 진행된다.

④ 역전파 알고리즘은 연결강도를 갱신하기 위해 예측된 결과와 실제값의 차이인 에러의 역전파를 통해 가중치를 구하는데서 시작되었다.

 

 정답 : 2번
 - 은닉층의 뉴런수와 개수는 신경망 모형에서 자동으로 설정되지 않으므로 직접 설정해야 한다.

 

17. (  )는 비지도 신경망으로 고차원의 데이터를 이해하기 쉬운 저차원의 뉴런으로 정렬하여 지도 형태로 형성화하는 방법이다.

 

 정답 : SOM

 

 <관련 이론 요약 정리>

2023.02.21 - [자격증공부] - [ADsP] (3과목) 데이터분석 - 데이터마이닝, 분류분석 요약

 

[ADsP] (3과목) 데이터분석 - 데이터마이닝, 분류분석 요약

1. 개요 방대한 양의 데이터 속에서 숨겨진 규칙, 패턴 등을 찾고 예측 및 의사결정에 활용가능한 가치를 탐색, 이렇게 발견된 규칙 및 패턴을 컴퓨터가 학습하는 것이 기계학습, 심층학습, 강화

inform.workhyo.com

 

<ADsP 요약+기출문제 자료 다운로드(바로가기)>

 

ADsP 빅데이터분석준전문가 자격증 대비 요약 및 기출 | 10000원부터 시작 가능한 총 평점 0점의 자

0개 총 작업 개수 완료한 총 평점 0점인 WorkHYO의 자료·템플릿, 취업·입시 자료, 기타 서비스를 0개의 리뷰와 함께 확인해 보세요. 자료·템플릿, 취업·입시 자료, 기타 제공 등 10000원부터 시작 가

kmong.com

 

320x100
반응형