<군집분석>
1.개요
ㅇ 비지도 학습 중 하나로 여러 변수로 표현된 데이터들 사이의 유사성을 측정하고 몇 개의 군집으로 나누어 특징을 파악하는 기법. 생물학에서 종의 분류, 마케팅에서의 시장 세분화 및 고객 성향 분석, 추천 시스템을 위한 협업 필터링 등 서비스의 기반을 제공
2. 종류
ㅇ 계층적 군집분석 : 병합적 방법
ㅇ 비계층적 군집분석 : 계층을 보유하지 않음. K평균 군집
3. 거리측도
ㅇ 연속형 변수
- 유클리디안 거리 : 두 점 사이의 거리를 계산하는 대표적인 방법으로 통계적 개념이 포함되지 않아 변수들의 산포 정도를 고려하지 않음 (가장 가까운 거리)
- 맨하튼 거리 : 시가거리라고도 하며 도시에서 최단 거리를 구하듯 각 변수들의 차이의 단순 합으로 계산한 거리
- 체비셰프 거리 : 변수간 거리 차이 중 최댓값을 데이터간 거리로 정의
- 표준화 거리 : 유클리디안 거리를 표준편차로 나눔으로써 변수간 산포 정도를 고려한 거리
- 마할라노비스 거리 : 표준화 거리에서 변수의 상관성까지 고려한 거리 또는 유클리디안 거리에서 변수의 산포와 변수의 상관성까지 고려한 거리
ㅇ 이산형 변수 : 거리 측도의 계수(유사도) 값이 클 스루고 두 데이터의 거리(1-계수)는 작음
- 단순일치 계수 : 두 객체가 보유한 변수 중 일치하는 변수의 비율
- 자카드 계수 : 두 집합 사이의 유사도를 측정
- 코사인 유사도 : 데이터를 벡터로써 취급하여 두 데이터의 방향성을 측정, 주로 문서의 유사도를 측정하기 위해 활용
4. 계층적 군집분석
ㅇ 계층적 트리 구조를 형성하여 군집화를 수행하는 방법
ㅇ 종류
- 병합적 방법 : 개별 데이터가 하나의 군집에서 시작하여 유사한 객체끼리 하나의 군집으로 묶어나가는 방법
- 분할적 방법 : 모든 데이터를 하나의 군집에서 가장 멀리있는 데이터를 개별 군집으로 분리시키는 방법
ㅇ 군집간 거리측정
- 최단 연결법(single) : 두 군집의 가장 가까운 데이터를 군집 간 거리로 측정
- 최장 연결법(complete) : 두 군집의 가장 먼 데이터를 군집 간 거리로 측정
- 평균 연결법(average) : 두 군집의 모든 데이터들끼리의 거리의 평균을 군집의 거리로 측정
- 중심 연결법(centroid) : 두 군집의 중심을 군집간 거리로 측정
- 와드 연결법(ward.D) : 두 군집의 편차 제곱합이 최소가 되는 위치의 거리를 군집의 거리로 측정
5. K평균 군집 과정
ㅇ 과정
(1) 군집의 수 K의 초기값과 각각의 K를 설명하기 위한 임의의 데이터 SEED를 생성
(2) 각각의 데이터를 가장 가까운 SEED에 할당한다.
(3) 각 군집의 데이터들 사이의 평균값 혹은 중앙값을 계산하여 새로운 SEED를 설정한다.
(4) 새로운 SEED를 중심으로 군집을 재할당한다.
(5) 각 군집의 중심이 변하지 않을 때까지 위 3, 4번 과정을 반복한다.
ㅇ 특징
ㅇ 집단 내 제곱합 그래프 : K평균 군집의 단점인 초기값 K의 선택에 도움을 주는 그래프
6. 혼합분포군집
ㅇ 모형 기반의 군집 방법으로 군집화를 통해 데이터가 몇 개의 확률분포(흔히 정규 분포)로부터 추출되었는지 파악하기 위한 분석 기법. 여러 개의 확률분포의 모수(평균과 분산)를 파악하고 각각의 확률분포의 비중을 파악하는 것이 목적. 기댓값 최대화 알고리즘을 활용하여 모수 및 가중치를 추정
ㅇ EM알고리즘 : 기댓값 최대화 알고리즘은 확률모델의 최대 가능도를 갖는 모수와 함께 그 확률모델의 가중치를 추정하기 위한 알고리즘 E-STEP과 M-STEP의 두단계로 나누어 수행한다.
- EM 알고리즘(E-STEP) Expectation
. 1단계 : N개의 정규분포의 혼합이라 가정할 때, N의 값과 각 확률분포의 초기 파라미터(평균, 분산, 가중치) 값을 임의로 설정
. 2단계 : 해당 파라미터 값을 가진 분포로부터 실제 데이터가 나올 수 있는 로그 가능도 함수의 기댓값 계산
- EM알고리즘(M-STEP) Massimization
. 3단계 : 계산된 기댓값으로부터 각각의 확률분포의 새로운 파라미터 값을 추정
. 4단계 : 2단계부터 알고리즘 반복 또는 이전 가능도에 비해 가능도 증가량이 작거나 또는 최대 가능도에 도달했다고 판단할 경우 종료
ㅇ 가능도 : 우도라고도 표현하며 관측된 데이터가 특정 분포를 따를 확률을 의미한다. 최대 가능도를 가질 때 관측된 데이터가 특정 분포를 따른다고 주장할 수 있다. (ex. 동전을 10번 던졌을 때 앞면이 7번 나왔다면?)
7. 자기 조직화 지도 (SOM, Self Organizaing Map)
ㅇ 코호넨 맵이라고도 불리며 차원축소와 군집화를 동시에 수행가능한 분석 기법. 축소된 데이터를 2차원 격자에 표현하여 고차원 데이터 시각화에 용이
ㅇ 구성 : 은닉층 없이 입력층과 n개의 출력층으로만 구성. 하나의 입력벡터는 하나의 경쟁노드에만 출력되는 승자독식 구조
ㅇ 과정
(1) 초기 학습률과 가중치 행렬 그리고 경쟁층의 노드 개수를 지정
(2) 입력 벡터가 가중치 행렬을 통해 가장 가까운 노드에 표시
(3) 승자 노드가 입력 벡터를 잘 나타내도록 가중치 행렬 재조정
(4) 모든 입력 벡터에 대해 2번 ~ 3번 단계를 반복하여 1회의 iteration을 종료
(5) 일정 iteration에 도달할 때까지 2번 ~ 4번 단계를 반복
ㅇ 특징
<연관분석>
1. 개요
ㅇ 장바구니 분석으로도 불리며 치킨을 구매한 고객은 콜라를 구매할 확률이 높다와 같은 규칙을 찾아내기 위한 분석 기법. IF ~ THEN 으로 해석이 되어 결과의 해석이 매우 용이. 비지도 학습의 일종으로 분석의 목적 없이도 수행 가능.
ㅇ 순차패턴 : 시간개념이 추가된 것으로 미래에 발생할 규칙을 찾기 위한 분석기법. 현재 존재하는 하나의 장바구니를 분석하는 연관분석과 달리 어떤 고객이 품목을 구매했는지와 같은 고객정보가 요구됨.
2. 연관분석 측도
ㅇ 지지도 : 전체 거래 중에서 A와 B 두 품목이 동시에 포함된 거래 비율(교집합)
ㅇ 신뢰도 : 하나의 품목이 거래될 때 다른 품목이 거래될 확률(조건부 확률)
ㅇ 향상도 : 두 품목의 구매확률에 대한 상관성
- 향상도 > 1 하나의 품목이 구매될 때 다른 품목이 구매될 확률이 증가
- 향상도 = 1 아무런 관계가 없음
. 향상도 < 1 하나의 품목이 구매될 때 다른 품목이 구매될 확률이 감소
3. apriori 알고리즘
ㅇ 연관분석의 품목 수의 증가는 기하급수적으로 계산량이 증가하는 문제가 발생. 따라서 최소 지지도를 활용하여 연관분석을 수행.
(1) 최소 지지도를 설정한다.
(2) 최소 지지도보다 큰 지지도를 갖는 단일 품목을 선별한다.
(3) 위 과정에서 찾은 2가지 품목으로 생성되는 연관규칙 중 최소 지지도 이상의 연관규칙을 찾는다.
(4) 위 과정을 반복적으로 수행하면서 품목의 수를 증가시키며 의미있는 결과를 찾는다.
4. 연관분석 특징
<관련 기출문제>
2023.03.05 - [자격증공부] - [ADsP] (3과목) 데이터분석 - 군집분석과 연관분석 기출문제
<ADsP 요약+기출문제 자료 다운로드(바로가기)>
'자격증공부 > 데이터분석준전문가(ADsP)' 카테고리의 다른 글
[ADsP][데이터분석준전문가] 요약+기출문제 모음 (0) | 2023.06.26 |
---|---|
[ADsP] (3과목) 데이터분석 - 군집분석과 연관분석 기출문제 (0) | 2023.03.05 |
[ADsP] (3과목) 데이터 분석 - 데이터마이닝, 분류분석 기출문제 (0) | 2023.02.21 |
[ADsP] (3과목) 데이터 분석 - 데이터마이닝, 분류분석 요약 (0) | 2023.02.21 |
[ADsP] (3과목) 데이터 분석 - 통계분석 Part3 기출문제 (0) | 2023.02.20 |