<기타 통계분석>
1. 상관분석
ㅇ 상관계수를 활용한 분석방법으로 두 변수간 선형적 관계 존재 유무를 파악하기 위함
ㅇ 상관분서 귀무가설은 ‘두 변수간 상관관계는 존재하지 않는다’ 이다.
ㅇ 상관계수 r의 범위는 -1~1이며, 0에 가까울수록 상관이 낮다고 말한다.
ㅇ 종류
- 피어슨 상관분석 : 두 변수간 양적 척도인 경우, 두 변수 간의 선형관계의 크기 측정, 상관관계가 존재하지 않는 경우 0이다.
- 스피어만 상관분석 : 두 변수가 순서 척도인 경우, 두 변수간의 선형/비선형적 관계 나타낼 수 있음
2. 다차원 척도법 (MDS : Multidimensional Scaling)
ㅇ 객체(데이터) 간의 근접성을 시각화하는 통계기법으로 군집분석과 유사하며 데이터의 축소를 목적으로 2차원 평면위에 데이터를 표현한다. Stress 값이 낮을수록 적합이 우수하다.
ㅇ 종류
- 계량적 MDS : 구간척도, 비율척도와 같이 자료가 양적 척도인 경우 활용
- 비계량적 MDS : 자료가 순서척도인 경우 활용
ㅇ2차원 평면위에 표현되며 데이터 간의 유사도를 알 수 있다. 하지만 각 축(X, Y)이 무엇을 의미하는지 알 수 없는 문제점이 있다.
3. 주성분 분석
ㅇ 상관성이 높은 변수들의 선형 결합으로 새로운 변수를 생성하여 기존의 변수를 요약 및 축소하는 분석 기법, 자료의 분산이 가장 큰 축 (가장 손실이 작은 축)을 찾아 새로운 변수로 생성
- center = T, scale = .T 는 데이터 간의 단위 차이를 제거하기 위해 평균을 0으로 표준편차를 1로 만드는 표준화 수행을 의미한다.
- 첫 번째 주성분(PC1) = 0.4497789 X cal – 0.1343382 X car + 0.4899044 X fat + 0.4638167 X pro + 0.4608776 X fib – 0.3348309 X sug
- 첫 번째 주성분은 계수의 절대값이 큰 cal, fat, pro, fib에 영향을 받는다.
- 두 번째 주성분(PC2) = 0.25668231 X cal + 0.86196398 X car + 0.06599968 X fat – 0.11821949 X pro + 0.27563218 X fib + 0.31117101 X sub
- 두 번째 주성분은 계수의 절대값이 큰 car에 영향을 받는다.
ㅇ 주성분 분석 시각화
- 스크리 플롯 : 주성분의 개수를 선택하는데 도움이 되는 그래프로 x축을 주성분의 개수로, y축을 고유값으로 하는 그래프이다. 주성분 분석의 개수 선택은 수평을 이루기 바로 전단계의 개수로 선택한다. 아래 그림에서 2-3 구간이 수평을 유지한다고 판단하면 주 성분의 개수는 1개로, 3-4 구간이 수평을 유지한다고 판단하면 주 성분의 개수는 2개로 선택한다.
- 바이 플롯 : x축을 첫 번째 주성분으로, y축을 두 번째 주성분으로 한 그래프로 데이터간 유사도를 한 눈에 볼 수 있으며, 각 축이 무엇을 의미하는지 알 수 있다는 장점이 있다.
4. 시계열분석
ㅇ 일정 시간을 간격으로 기록된 자료들에 대하여 특성을 파악하고 미래를 예측
ㅇ 대표적인 예로 주가데이터와 환율데이터가 있다.
ㅇ 시계열 데이터의 구성요소 : 추세, 순환, 계절변동, 불규칙 변동 등
ㅇ 정상성 조건 : 시계열 자료를 분석하기 위해서는 정상성을 만족해야 함.
(1) 일정한 평균 : 모든 시점 t에 대하여 일정한 평균을 보유해야 한다. 그렇지 못할 경우 차분을 통해 평균을 일정하게 만든다.
(2) 일정한 분산 : 모든 시점 t에 대하여 일정한 분산을 보유해야 한다. 그렇지 못할 경우 지수변환 혹은 로그 변환을 통해 분산을 일정하게 만든다.
(3) 시차에만 의존하는 공분산 : 공분산은 시차 s에 의존할 뿐, 특정시점 t에 의존하지 않는다.
- 백색잡음 : 평균이 u, 표준편차가 o인 정규분포로부터 얻어진 시계열 데이터로 시계열 모형의 오차항 역할을 담당한다. 평균이 0인 경우를 가우시안 백색잡음이라 한다.
ㅇ 시계열모형
(1) 자기회귀(AR) 모형 : 특정시점 t에서의 시계열 값 Z(t)는 이전 시점 n개들에 의하여 설명이 가능한 모형. 특정시점 t에서의 k번째 이전 시점들은 각각 다른 가중치 값을 보유, 특정 시점 t에서의 오차항 a(t)는 평균이 u, 표준편차가 o인 정규분포를 따른다. 부분자기상관함수를 활용하여 p+1 시차 이후 급격히 감소하면 AR(p) 모형을 선정, 현 시점의 자료가 p시점 전까지 유한 개의 과거 자료로 설명될 수 있다.
- 부분자기상관계수 : 특정 시차 s를 가지며 시계열에 영향을 주는 요소를 제외한 자기 자신과의 상관계수. 아래 부분 자기상관함수에서 s=4일 때 특정시점에 영향을 미치지 않는다고 (급격히 감소) 판단할 수 있으므로 AR(3) 모형을 선정
(2) 이동평균(MA) 모형 : 특정 시점 t 에서의 시계열 값 Z(t)는 이전 시점 n개의 백색잡음들의 선형결합으로 설명 가능한 모형. 백색잡음들의 선형결합이기 대문에 항상 정상성을 만족, 현 시점의 자료를 p시점 전까지 유한개 백색잡음들의 선형결합으로 표현
- 자기상관함수를 활용하여 n+1 시차 이후 급격히 감소하면 MA(n) 모형을 선정
. 자기상관계수 : 특정 시차 s를 가지며 시계열에 영향을 주는 요소에 대한 고려를 하지 않고 자기자신과의 상관계수
(3) 자기회귀누적이동평균(ARIMA) 모형 : 자기회귀 모형과 이동평균 모형을 결합하여 일반화한 모형
5. 분해시계열
ㅇ 분석 목적에 따라 복잡하게 구성된 시계열 데이터를 몇 개의 요인으로 분할
- 추세 요인 : 시계열 자료의 증감 혹은 감소 추세
- 계절 요인 : 시간, 계절과 같은 원인으로 인한 주기를 갖고 변동하는 자료
- 순환 요인 : 알 수 없는 원인으로 인한 주기를 갖고 변동하는 자료
- 불규칙 요인 : 설명할 수 없는 오차
<데이터분석 기타통계분석 기출문제>
2023.02.20 - [자격증공부] - [ADsP] (3과목) 데이터 분석 - 통계분석 Part3 기출문제
<ADsP 요약+기출문제 자료 다운로드(바로가기)>
'자격증공부 > 데이터분석준전문가(ADsP)' 카테고리의 다른 글
[ADsP] (3과목) 데이터 분석 - 데이터마이닝, 분류분석 요약 (0) | 2023.02.21 |
---|---|
[ADsP] (3과목) 데이터 분석 - 통계분석 Part3 기출문제 (0) | 2023.02.20 |
[ADsP] (3과목) 데이터 분석 - 통계분석 Part2 기출문제 (0) | 2023.02.20 |
[ADsP] (3과목) 데이터 분석 - 통계분석 Part2 요약 (0) | 2023.02.20 |
[ADsP] (3과목) 데이터 분석 - 통계분석 Part1 기출문제 (0) | 2023.02.19 |