<군집분석>
1. 군집분석을 실시하기 위한 여러 거리 측도 중 범주형 데이터 거리를 계산하기 위한 측도는 무엇인가?
① 유클리디안 거리
② 자카드 거리
③ 맨하튼 거리
④ 표준화 거리
※ 정답 : 2번
2. 아래의 표를 보고 두 데이터 A와 B의 맨하튼 거리와 체비셰프 거리를 바르게 구한 것은?
맨하튼 거리 체비셰프 거리
① 9 29
② 4 29
③ 9 4
④ 4 4
※ 정답 : 3번
- 맨하튼 : 차이 값들의 합 =2+3+4 = 9
- 체비셰프 : 최대값인 4
3. 다음 중 계층적 군집분석에 대한 설명으로 부적절한 것은 무엇인가?
① 범주형 데이터에서도 거리 측정이 가능하므로 분석 기법을 적용할 수 있다.
② R에서 최장연결법으로 수행하기 위해서는 complete를 사용한다.
③ 최장연결법은 가장 거리가 먼 데이터를 우선 묶는 방법으로 선호되지 않는 방법이다.
④ 와드연결법은 군집 내 편차 제곱합이 최소가 되도록 연결하는 방법이다.
※ 정답 : 3번
- 군집분석의 기본은 가장 가까운 데이터를 우선적으로 묶는 방법이며, 최장연결법은 묶고 난 다음에 군집과 기존 데이터를 어떻게 연결할 것인지 정의
4. 다음 중 아래의 명령문으로 군집분석을 수행한 후 그 결과를 덴드로그램으로 나타냈다. 다음 중 결과를 잘못 해석한 것은 무엇인가?
① Height 값을 4로 설정할 경우 2개의 군집으로 나눌 수 있다.
② 첫 번째 명령문의 method = ‘euclidean’을 생략하면 다른 결과를 얻는다.
③ 평균연결법을 활용하여 군집을 수행하였다.
④ 계층적 군집분석 중 병합적 방법을 수행한 결과이다.
※ 정답 : 2번 - 유클리디안, 평균 군집분석 수행
5. 다음 중 K 평균 군집에 대한 설명으로 부적절한 것은?
① 각 클러스터와 거리 차이의 분산을 최소화하는 방식으로 동작한다.
② 한번 군집에 속한 데이터는 seed가 변경되어도 군집이 변하지 않는다.
③ 제곱합 그래프를 보고 초기 K값 결정에 도움을 받을 수 있다.
④ seed의 변경이 없거나 n번의 반복이 끝날 때까지 군집작업을 반복 수행한다.
※ 정답 : 2번 – Seed가 이동하메 따라 데이터(군집)가 할당되었다가 풀리게 됨
6. 다음 중 K 평균 군집에 대한 설명으로 부적절한 것은?
① 탐욕적 알고리즘으로 안정된 군집을 보장하지 못한다.
② 탐욕적 알고리즘으로 최적의 군집을 보장하지 못한다.
③ 이상값에 민감하기 때문에 새로운 seed를 결정할 때 평균 대신 중앙값을 사용하기도 한다.
④ 목적이 없이 분석 수행이 가능하나 결과의 해석이 어렵다.
※ 정답 : 1번
- 매 순간순간 최적의 군집을 찾기 위해 반복적으로 수행해서 안정적, 초기 Seed 값을 결정하기 어려워 최적의 군집을 보장하지는 못함. 비지도학습
7. 다음 중 EM 알고리즘의 E 단계에서 수행하는 작업은 무엇인가?
① 데이터들간의 유사성을 파악하기 위해 거리를 측정한다.
② 임의로 설정된 파라미터 값을 활용하여 주어진 확률분포로부터 표본이 추출될 기댓값을 계산한다.
③ 0과 1 사이의 임의의 값들로 초기 가중치 행렬을 생성한다.
④ 재조정된 SEED값에 데이터를 재할당한다.
※ 정답 : 2번
8. 다음 중 자기 조직화 지도에 대한 설명으로 부적절한 것은?
① 완전연결의 형태로 입력층의 각 데이터는 경쟁층의 뉴런에 모두 연결된다.
② 경쟁층에 한 번 표시된 데이터는 iteration이 반복되는 동안 다른 노드로 이동할 수 없다.
③ 은닉층이 없으며 순전파 방식만 사용하기 때문에 알고리즘 수행 속도가 매우 빠르다.
④ 초기 학습률 및 초기 가중치의 결정이 결과에 큰 영향을 끼친다.
※ 정답 : 2번
9. 비계층적 군집방법의 기법인 k-means clustering의 경우 이상값에 민감하여 군집 경계의 설정이 어렵다는 단점이 존재한다. 이러한 단점을 극복하기 위해 등장한 비계층적 군집 방법으로 가장 적절한 것은?
① k-medoids clustering
② 혼합분포군집
③ Denstiry based clustering
④ Fuzzy clustering
※ 정답 : 1번
10. 계층적 군집방법은 두 개체 간의 거리에 기반하여 군집을 형성해 나가므로 거리에 대한 정의가 필요한데 다음 중 변수의 표준화와 변수 간의 상관성을 동시에 고려한 통계적 거리로 적절한 것은?
① 표준화 거리
② 민코우스키 거리
③ 마할라노비스 거리
④ 자카드 계수
※ 정답 : 3번
11. 계층적 군집분석 수행 시 두 군집을 병합하는 방법 가운데 병합된 군집의 오차제곱합이 병합 이전 군집의 오차제곱합의 합에 비해 증가한 정도가 작아지는 방향으로 군집을 형성하는 방법은?
① 단일연결법
② 중심연결법
③ 와드연결법
④ 완전연결법
※ 정답 : 3번
12. 군집분석의 품질을 정량적으로 평가하는 대표적인 지표로 군집 내의 데이터 응집도와 군집간 분리도를 계산하여 군집 내의 데이터의 거리가 짧을수록 군집간 거리가 멀수록 값이 커지며 완벽한 분리일 경우 1의 값을 가지는 지표는?
※ 정답 : 실루엣ㄹ
<연관분석>
1. 다음 중 연관분석의 특징에 대하여 잘못 설명한 것은 무엇인가?
① 품목 수가 증가할수록 계산량은 기하급수적으로 증가한다.
② 최소 지지도 이상의 품목에 대하여 분석을 진행하는 apriori 알고리즘이 있다.
③ 품목 세분화가 많이 될수록 더욱 좋은 결과를 얻는다.
④ 결과의 해석이 IF ~ THEN ~ 으로 매우 쉽고 단순하다.
※ 정답 : 3번 – 치킨을 사면 콜라를 살것이다…. 의미가 없는 결과를 가져올 수도 있음.
2. 아래의 설명은 무엇에 대한 설명인가?
- 연관분석에 시간개념을 추가한 것으로 ‘A를 구매한 고객은 추후에 B를 구매할 것이다.’와 같은 두 품목과 시간에 대한 규칙을 찾는 분석기법
- 어떤 고객이 무엇을 구매했는지 과거와 현재를 비교하기 위해 고객의 정보가 필요
※ 정답 : 순차패턴
3. 아래에서 설명하는 연관분석 측도는 무엇인가?
두 품목에 대한 서로의 조건부 확률로 A가 구매될 때 B가 구매될 확률 또는 B가 구매될 때 A가 구매될 확률로 표현이 가능하다.
① 지지도
② 신뢰도
③ 유사도
④ 향상도
※ 정답 : 2번
4. 아래의 표를 보고 맥주를 구매할 때 기저귀를 구매할 확률에 대한 신뢰도와 향상도 값을 계산하시오.
※ 정답 :
맥주 구매 확률 = (100+200+300+400) / 2000 = 0.5
기저귀 = 1000/2000 = 0.5
맥주, 기저귀 동시 = 600/2000 =0.3
신뢰도 = 0.3/0.5 = 0.6
향상도 = 0.6(신뢰도)/0.5 = 1.2
5. 어느 마트에서 A, B제품을 판매하고 있다. A, B 제품의 지지도는 0.3이고, 신뢰도가 0.6이다. A, B 제품 판매 수량이 동일할 때 향상도를 구하시오.
※ 정답 : 1.2
<관련 이론 요약 정리>
2023.03.05 - [자격증공부] - [ADsP] (3과목) 데이터분석 - 군집분석과 연관분석 기출문제
<ADsP 요약+기출문제 자료 다운로드(바로가기)>
'자격증공부 > 데이터분석준전문가(ADsP)' 카테고리의 다른 글
[ADsP][데이터분석준전문가] 요약+기출문제 모음 (0) | 2023.06.26 |
---|---|
[ADsP] (3과목) 데이터 분석 - 군집분석과 연관분석 요약 (0) | 2023.03.04 |
[ADsP] (3과목) 데이터 분석 - 데이터마이닝, 분류분석 기출문제 (0) | 2023.02.21 |
[ADsP] (3과목) 데이터 분석 - 데이터마이닝, 분류분석 요약 (0) | 2023.02.21 |
[ADsP] (3과목) 데이터 분석 - 통계분석 Part3 기출문제 (0) | 2023.02.20 |