본문 바로가기

자격증공부/데이터분석준전문가(ADsP)

[ADsP] (3과목) 데이터 분석 - 통계분석 Part3 요약

320x100

 

<기타 통계분석>

1. 상관분석

ㅇ 상관계수를 활용한 분석방법으로 두 변수간 선형적 관계 존재 유무를 파악하기 위함

ㅇ 상관분서 귀무가설은 ‘두 변수간 상관관계는 존재하지 않는다’ 이다.

ㅇ 상관계수 r의 범위는 -1~1이며, 0에 가까울수록 상관이 낮다고 말한다.

ㅇ 종류
 - 피어슨 상관분석 : 두 변수간 양적 척도인 경우, 두 변수 간의 선형관계의 크기 측정, 상관관계가 존재하지 않는 경우 0이다.
 - 스피어만 상관분석 : 두 변수가 순서 척도인 경우, 두 변수간의 선형/비선형적 관계 나타낼 수 있음

2. 다차원 척도법 (MDS : Multidimensional Scaling)

ㅇ 객체(데이터) 간의 근접성을 시각화하는 통계기법으로 군집분석과 유사하며 데이터의 축소를 목적으로 2차원 평면위에 데이터를 표현한다. Stress 값이 낮을수록 적합이 우수하다.
ㅇ 종류
 - 계량적 MDS : 구간척도, 비율척도와 같이 자료가 양적 척도인 경우 활용
 - 비계량적 MDS : 자료가 순서척도인 경우 활용
2차원 평면위에 표현되며 데이터 간의 유사도를 알 수 있다. 하지만 각 축(X, Y)이 무엇을 의미하는지 알 수 없는 문제점이 있다.

3. 주성분 분석

ㅇ 상관성이 높은 변수들의 선형 결합으로 새로운 변수를 생성하여 기존의 변수를 요약 및 축소하는 분석 기법, 자료의 분산이 가장 큰 축 (가장 손실이 작은 축)을 찾아 새로운 변수로 생성

 - center = T, scale = .T 는 데이터 간의 단위 차이를 제거하기 위해 평균을 0으로 표준편차를 1로 만드는 표준화 수행을 의미한다.

 - 첫 번째 주성분(PC1) = 0.4497789 X cal – 0.1343382 X car + 0.4899044 X fat + 0.4638167 X pro + 0.4608776 X fib – 0.3348309 X sug

 - 첫 번째 주성분은 계수의 절대값이 큰 cal, fat, pro, fib에 영향을 받는다.

 - 두 번째 주성분(PC2) = 0.25668231 X cal + 0.86196398 X car + 0.06599968 X fat – 0.11821949 X pro + 0.27563218 X fib + 0.31117101 X sub

 - 두 번째 주성분은 계수의 절대값이 큰 car에 영향을 받는다.

주성분 분석 시각화
 - 스크리 플롯 : 주성분의 개수를 선택하는데 도움이 되는 그래프로 x축을 주성분의 개수로, y축을 고유값으로 하는 그래프이다. 주성분 분석의 개수 선택은 수평을 이루기 바로 전단계의 개수로 선택한다. 아래 그림에서 2-3 구간이 수평을 유지한다고 판단하면 주 성분의 개수는 1개로, 3-4 구간이 수평을 유지한다고 판단하면 주 성분의 개수는 2개로 선택한다.

 - 바이 플롯 : x축을 첫 번째 주성분으로, y축을 두 번째 주성분으로 한 그래프로 데이터간 유사도를 한 눈에 볼 수 있으며, 각 축이 무엇을 의미하는지 알 수 있다는 장점이 있다.

 4. 시계열분석

일정 시간을 간격으로 기록된 자료들에 대하여 특성을 파악하고 미래를 예측

ㅇ 대표적인 예로 주가데이터와 환율데이터가 있다.

ㅇ 시계열 데이터의 구성요소 : 추세, 순환, 계절변동, 불규칙 변동 등

정상성 조건 : 시계열 자료를 분석하기 위해서는 정상성을 만족해야 함.

 (1) 일정한 평균 : 모든 시점 t에 대하여 일정한 평균을 보유해야 한다. 그렇지 못할 경우 차분을 통해 평균을 일정하게 만든다.

 (2) 일정한 분산 : 모든 시점 t에 대하여 일정한 분산을 보유해야 한다. 그렇지 못할 경우 지수변환 혹은 로그 변환을 통해 분산을 일정하게 만든다.

 (3) 시차에만 의존하는 공분산 : 공분산은 시차 s에 의존할 뿐, 특정시점 t에 의존하지 않는다.

 - 백색잡음 : 평균이 u, 표준편차가 o인 정규분포로부터 얻어진 시계열 데이터로 시계열 모형의 오차항 역할을 담당한다. 평균이 0인 경우를 가우시안 백색잡음이라 한다.

시계열모형

 (1) 자기회귀(AR) 모형 : 특정시점 t에서의 시계열 값 Z(t)는 이전 시점 n개들에 의하여 설명이 가능한 모형. 특정시점 t에서의 k번째 이전 시점들은 각각 다른 가중치 값을 보유, 특정 시점 t에서의 오차항 a(t)는 평균이 u, 표준편차가 o인 정규분포를 따른다. 부분자기상관함수를 활용하여 p+1 시차 이후 급격히 감소하면 AR(p) 모형을 선정, 현 시점의 자료가 p시점 전까지 유한 개의 과거 자료로 설명될 수 있다.

 - 부분자기상관계수 : 특정 시차 s를 가지며 시계열에 영향을 주는 요소를 제외한 자기 자신과의 상관계수. 아래 부분 자기상관함수에서 s=4일 때 특정시점에 영향을 미치지 않는다고 (급격히 감소) 판단할 수 있으므로 AR(3) 모형을 선정

 (2) 이동평균(MA) 모형 : 특정 시점 t 에서의 시계열 값 Z(t)는 이전 시점 n개의 백색잡음들의 선형결합으로 설명 가능한 모형. 백색잡음들의 선형결합이기 대문에 항상 정상성을 만족, 현 시점의 자료를 p시점 전까지 유한개 백색잡음들의 선형결합으로 표현

 - 자기상관함수를 활용하여 n+1 시차 이후 급격히 감소하면 MA(n) 모형을 선정

  . 자기상관계수 : 특정 시차 s를 가지며 시계열에 영향을 주는 요소에 대한 고려를 하지 않고 자기자신과의 상관계수

 (3) 자기회귀누적이동평균(ARIMA) 모형 : 자기회귀 모형과 이동평균 모형을 결합하여 일반화한 모형

5. 분해시계열

ㅇ 분석 목적에 따라 복잡하게 구성된 시계열 데이터를 몇 개의 요인으로 분할

- 추세 요인 : 시계열 자료의 증감 혹은 감소 추세

- 계절 요인 : 시간, 계절과 같은 원인으로 인한 주기를 갖고 변동하는 자료

- 순환 요인 : 알 수 없는 원인으로 인한 주기를 갖고 변동하는 자료

- 불규칙 요인 : 설명할 수 없는 오차

 

<데이터분석 기타통계분석 기출문제>

2023.02.20 - [자격증공부] - [ADsP] (3과목) 데이터 분석 - 통계분석 Part3 기출문제

 

[ADsP] (3과목) 데이터 분석 - 통계분석 Part3 기출문제

1. 다음 중 상관분석에 대한 설명으로 부적절한 것은 무엇인가? ① 양적척도에 대한 상관분석을 수행하기 위해서는 피어슨 상관계수를 사용해야 한다. ② 상관분석의 귀무가설은 ‘두 변수간 상

inform.workhyo.com

 

<ADsP 요약+기출문제 자료 다운로드(바로가기)>

 

ADsP 빅데이터분석준전문가 자격증 대비 요약 및 기출 | 10000원부터 시작 가능한 총 평점 0점의 자

0개 총 작업 개수 완료한 총 평점 0점인 WorkHYO의 자료·템플릿, 취업·입시 자료, 기타 서비스를 0개의 리뷰와 함께 확인해 보세요. 자료·템플릿, 취업·입시 자료, 기타 제공 등 10000원부터 시작 가

kmong.com

 

320x100
반응형