본문 바로가기

자격증공부/데이터분석준전문가(ADsP)

[ADsP] (3과목) 데이터 분석 - 데이터 전처리 요약

320x100

 

<데이터 전처리>

1. 데이터 웨어하우스(DW)와 데이터마트(DM)

ㅇ 데이터 웨어하우스 : 여러 데이터베이스(RDB, 클라우드, NoSQL 등)로부터 공통의 형식으로 변환되어 사용자의 의사결정에 도움이 되기 위한 일시적인 데이터 집합
ㅇ 데이터 마트 : 특정한 목적 달성을 위해 활용하는 소규모의 데이터웨어하우스

ㅇ 신규 시스템이나 DW에 포함되지 못한 자료의 경우 기존 Legacy시스템이나 스테이징 영역(기존 Legacy에서 임시로 저장된 데이터) 과 ODS(Operational Data Store)에서 데이터를 가져와서 DW에서 가져온 내용과 결합하여 활용할 수 있다. 
 - 운영시스템(Legacy)에 직접 접근해서 데이터를 활용하는 것은 매우 위험한 일이므로 거의 이루어 지지 않고, 가급적 클링징 영역인 ODX에서 데이터를 정처리 해서 DW나 DM과 결합하여 활용하는 것이 이상적

2. 데이터 전처리

ㅇ 정형화된 데이터 분석을 수행하기 위해서는 특정한 데이터의 형태를 요구 (ex. 평균을 구하기 위해서는 숫자 데이터가 필요)
ㅇ 데이터 값이 존재하지 않는 결측값, 데이터 값이 다른 값들보다 지나치게 크거나 작은 이상값 역시 데이터 전처리 대상임
ㅇ 데이터 전처리는 이상값, 결측값 처리 뿐 아니라 변수 선택, 차원 축소, 파생 변수 생성 등 모든 작업을 아우르는 광범위 개념

 - 요약변수 : 분석에 맞게 종합한 변수, 재활용성이 높다, 데이터 분석을 위해 만들어지는 변수

 - 파생변수 : 특정 조건을 만족하거나 특정 함수에 의해 값을 만들어 의미를 부여하는 변수, 주관적일 수 있으므로 논리적 타당성을 맞추어 개발, 세분화/고객행동예측/캠페인반응예측에 매우 잘 활용

320x100

3. 데이터 전처리 패키지

ㅇ reshape
 - 대표적인 함수로 melt와 cast를 보유, 변수를 조합해 변수 명을 만들고 변수들을 시간, 상품 등의 차원에 결합해 다양한 요약변수와 파생변수를 쉽게 생성하여 데이터 마트를 구성
 - melt : ‘녹이다’ 의미를 가지고 있는 함수로 특정 변수에 의해 데이터를 녹여 세분화된 데이터를 생성
 - cast : ‘주조하다’ 의미를 가지고 있는 함수로 melt에 의해 녹은 데이터를 요약을 위해 새롭게 가공
ㅇ sqldf
 - SQL을 활용하여 데이터프레임(DF)을 다룰 수 있도록 하는 패키지

  ex. "iris" 라는 데이터셋에서 데이터 내용을 조회할 떄 : sqldf("select*from iris")
ㅇ plyr
 - apply 함수를 기반으로 데이터를 분할하고 특정 함수를 적용하여 재결합하는 데이터 전처리 패키지
 - melt와 cast를 한꺼번에 수행하는 패키지로 반복문을 사용하지 않고도 매우 간단하고 빠르게 처리할 수 있는 데이터 처리 함수를 포함
 - 데이터프레임을 데이터프레임으로 출력하는 ddply가 자주 출제

  입력 데이터 구조
데이터프레임(d) 리스트(l) 배열(a)
출력
데이터
구조
데이터프레임(d) ddply ldply adply
리스트(l) dlply llply alply
배열(a) daply laply aaply

ㅇ 데이터 테이블
 - 데이터 프레임과 유사하지만 내부적으로 인덱스를 보유하고 있어 연산 및 검색을 빠르게 수행할 수 있는 데이터 구조

 - 기존 데이터프레임보다 4~100배 가까운 속도를 보유

4. 탐색적 데이터 분석(EDA : Exploratory Data Analysis)

ㅇ 데이터를 이해하고 의미 있는 관계를 찾아내기 위해 데이터의 통곗값(최대, 최소, 평균 등)과 분포 등을 시각화를 통해 파악하는 것
ㅇ EDA의 4가지 주제 : 저항성의 강조, 잔차계산, 자료변수의 재표현, 그래프를 통한 현시성

반응형

5. 결측값과 처리방법

결측값 : 존재하지 않는 데이터로 여러 방법으로 표현이 가능하나 null 또는 NA (Not Available)로 표현하며 결측값을 제거하는 것은 일반적이지만 결측값 자체가 의미를 가질 수도 있음
ㅇ 결측값 처리방법
 1) 단순 대치법

  - 결측값이 존재하는 데이터를 삭제하는 방법
  - 결측값이 많은 경우에는 대량의 데이터 손실이 발생 (결측값이 적은 경우 사용)
  - complete.cases 함수로 각 행이 완벽한 데이터인지 판별하여 결측값이 없는 완벽한 데이터라면 TRUE, 결측값이 존재한다면 FALSE를 반환

 2) 평균 대치법
  - 비조건부 평균 대치법 : 결측값이 존재하는 열의 평균 혹은 중앙값으로 결측값을 대치
  - 조건부 평균 대치법 : 결측값이 존재하는 열을 회귀분석을 통해 가장 가능성이 높은 값으로 대치
   . 회귀분석 : 독립변수에 따른 종속변수 변화
 3) 단순 확률 대치법
  - 평균 대치법에서 추정량의 표준 오차의 과소 추정 문제를 보완하고자 고안된 방법
  - K 최근접 이웃이 대표적인 방법(K값 선정이 어려움)
 4) 다중 대치법
  - 여러 번의 대치를 통해 n개의 임의 완전 자료를 활용하여 결측값을 대치
  - 대치, 분석, 결합의 3단계 순으로 구성

6. 이상값과 판정방법

ㅇ 이상값 : 다른 값들과 비교하였을 때 극단적으로 크거나 극단적으로 작은 값으로 데이터 입력자의 실수, 응답자의 악의적 의도로 발생하였을 수도 있으며 또한 실제값일 가능성 역시 존재 (ex. 신장 길이가 1580cm , 신체 체중이 3kt, IQ 측정 결과가 250 등)
 - 활용분야 : 사기탐지, 의료, 침입탐지, 부정방지시스템
ㅇ 이상값 판정방법
 1) ESD(Extreme Studentized Deviation)
  - 평균으로부터 K*표준편차 만큼 떨어진 값들을 이상값으로 판단하는 방법

 2) 사분위수
 - 사분위수, 상자그림을 이용하여 Q3보다 1.5배의 IQR의 이상, Q1보다 1.5배의 IQR 작은 값 이하를 이상값으로 판단하는 방법 (IQR = Q3(75%) – Q1(25%))

 

<관련 기출문제>

2023.02.19 - [자격증공부] - [ADsP] (3과목) 데이터 분석 - 데이터 전처리 기출문제

 

[ADsP] (3과목) 데이터 분석 - 데이터마트 기출문제

1. 다음 중 여러 곳에 흩어진 데이터를 수집한 뒤 기업의 의사결정을 위해 공통의 형식으로 변환된 데이터의 집합으로써 특정 목적을 달성하기 위해 추출된 작은 데이터 집합은 무엇인가? ① 데

inform.workhyo.com

 

<ADsP 요약+기출문제 자료 다운로드(바로가기)>

 

ADsP 빅데이터분석준전문가 자격증 대비 요약 및 기출 | 10000원부터 시작 가능한 총 평점 0점의 자

0개 총 작업 개수 완료한 총 평점 0점인 WorkHYO의 자료·템플릿, 취업·입시 자료, 기타 서비스를 0개의 리뷰와 함께 확인해 보세요. 자료·템플릿, 취업·입시 자료, 기타 제공 등 10000원부터 시작 가

kmong.com

 

320x100
반응형