<데이터 전처리>
1. 데이터 웨어하우스(DW)와 데이터마트(DM)
ㅇ 데이터 웨어하우스 : 여러 데이터베이스(RDB, 클라우드, NoSQL 등)로부터 공통의 형식으로 변환되어 사용자의 의사결정에 도움이 되기 위한 일시적인 데이터 집합
ㅇ 데이터 마트 : 특정한 목적 달성을 위해 활용하는 소규모의 데이터웨어하우스
ㅇ 신규 시스템이나 DW에 포함되지 못한 자료의 경우 기존 Legacy시스템이나 스테이징 영역(기존 Legacy에서 임시로 저장된 데이터) 과 ODS(Operational Data Store)에서 데이터를 가져와서 DW에서 가져온 내용과 결합하여 활용할 수 있다.
- 운영시스템(Legacy)에 직접 접근해서 데이터를 활용하는 것은 매우 위험한 일이므로 거의 이루어 지지 않고, 가급적 클링징 영역인 ODX에서 데이터를 정처리 해서 DW나 DM과 결합하여 활용하는 것이 이상적
2. 데이터 전처리
ㅇ 정형화된 데이터 분석을 수행하기 위해서는 특정한 데이터의 형태를 요구 (ex. 평균을 구하기 위해서는 숫자 데이터가 필요)
ㅇ 데이터 값이 존재하지 않는 결측값, 데이터 값이 다른 값들보다 지나치게 크거나 작은 이상값 역시 데이터 전처리 대상임
ㅇ 데이터 전처리는 이상값, 결측값 처리 뿐 아니라 변수 선택, 차원 축소, 파생 변수 생성 등 모든 작업을 아우르는 광범위 개념
- 요약변수 : 분석에 맞게 종합한 변수, 재활용성이 높다, 데이터 분석을 위해 만들어지는 변수
- 파생변수 : 특정 조건을 만족하거나 특정 함수에 의해 값을 만들어 의미를 부여하는 변수, 주관적일 수 있으므로 논리적 타당성을 맞추어 개발, 세분화/고객행동예측/캠페인반응예측에 매우 잘 활용
3. 데이터 전처리 패키지
ㅇ reshape
- 대표적인 함수로 melt와 cast를 보유, 변수를 조합해 변수 명을 만들고 변수들을 시간, 상품 등의 차원에 결합해 다양한 요약변수와 파생변수를 쉽게 생성하여 데이터 마트를 구성
- melt : ‘녹이다’ 의미를 가지고 있는 함수로 특정 변수에 의해 데이터를 녹여 세분화된 데이터를 생성
- cast : ‘주조하다’ 의미를 가지고 있는 함수로 melt에 의해 녹은 데이터를 요약을 위해 새롭게 가공
ㅇ sqldf
- SQL을 활용하여 데이터프레임(DF)을 다룰 수 있도록 하는 패키지
ex. "iris" 라는 데이터셋에서 데이터 내용을 조회할 떄 : sqldf("select*from iris")
ㅇ plyr
- apply 함수를 기반으로 데이터를 분할하고 특정 함수를 적용하여 재결합하는 데이터 전처리 패키지
- melt와 cast를 한꺼번에 수행하는 패키지로 반복문을 사용하지 않고도 매우 간단하고 빠르게 처리할 수 있는 데이터 처리 함수를 포함
- 데이터프레임을 데이터프레임으로 출력하는 ddply가 자주 출제
입력 데이터 구조 | ||||
데이터프레임(d) | 리스트(l) | 배열(a) | ||
출력 데이터 구조 |
데이터프레임(d) | ddply | ldply | adply |
리스트(l) | dlply | llply | alply | |
배열(a) | daply | laply | aaply |
ㅇ 데이터 테이블
- 데이터 프레임과 유사하지만 내부적으로 인덱스를 보유하고 있어 연산 및 검색을 빠르게 수행할 수 있는 데이터 구조
- 기존 데이터프레임보다 4~100배 가까운 속도를 보유
4. 탐색적 데이터 분석(EDA : Exploratory Data Analysis)
ㅇ 데이터를 이해하고 의미 있는 관계를 찾아내기 위해 데이터의 통곗값(최대, 최소, 평균 등)과 분포 등을 시각화를 통해 파악하는 것
ㅇ EDA의 4가지 주제 : 저항성의 강조, 잔차계산, 자료변수의 재표현, 그래프를 통한 현시성
5. 결측값과 처리방법
ㅇ 결측값 : 존재하지 않는 데이터로 여러 방법으로 표현이 가능하나 null 또는 NA (Not Available)로 표현하며 결측값을 제거하는 것은 일반적이지만 결측값 자체가 의미를 가질 수도 있음
ㅇ 결측값 처리방법
1) 단순 대치법
- 결측값이 존재하는 데이터를 삭제하는 방법
- 결측값이 많은 경우에는 대량의 데이터 손실이 발생 (결측값이 적은 경우 사용)
- complete.cases 함수로 각 행이 완벽한 데이터인지 판별하여 결측값이 없는 완벽한 데이터라면 TRUE, 결측값이 존재한다면 FALSE를 반환
2) 평균 대치법
- 비조건부 평균 대치법 : 결측값이 존재하는 열의 평균 혹은 중앙값으로 결측값을 대치
- 조건부 평균 대치법 : 결측값이 존재하는 열을 회귀분석을 통해 가장 가능성이 높은 값으로 대치
. 회귀분석 : 독립변수에 따른 종속변수 변화
3) 단순 확률 대치법
- 평균 대치법에서 추정량의 표준 오차의 과소 추정 문제를 보완하고자 고안된 방법
- K 최근접 이웃이 대표적인 방법(K값 선정이 어려움)
4) 다중 대치법
- 여러 번의 대치를 통해 n개의 임의 완전 자료를 활용하여 결측값을 대치
- 대치, 분석, 결합의 3단계 순으로 구성
6. 이상값과 판정방법
ㅇ 이상값 : 다른 값들과 비교하였을 때 극단적으로 크거나 극단적으로 작은 값으로 데이터 입력자의 실수, 응답자의 악의적 의도로 발생하였을 수도 있으며 또한 실제값일 가능성 역시 존재 (ex. 신장 길이가 1580cm , 신체 체중이 3kt, IQ 측정 결과가 250 등)
- 활용분야 : 사기탐지, 의료, 침입탐지, 부정방지시스템
ㅇ 이상값 판정방법
1) ESD(Extreme Studentized Deviation)
- 평균으로부터 K*표준편차 만큼 떨어진 값들을 이상값으로 판단하는 방법
2) 사분위수
- 사분위수, 상자그림을 이용하여 Q3보다 1.5배의 IQR의 이상, Q1보다 1.5배의 IQR 작은 값 이하를 이상값으로 판단하는 방법 (IQR = Q3(75%) – Q1(25%))
<관련 기출문제>
2023.02.19 - [자격증공부] - [ADsP] (3과목) 데이터 분석 - 데이터 전처리 기출문제
<ADsP 요약+기출문제 자료 다운로드(바로가기)>
'자격증공부 > 데이터분석준전문가(ADsP)' 카테고리의 다른 글
[ADsP] (3과목) 데이터 분석 - 통계분석 Part1 요약 (0) | 2023.02.19 |
---|---|
[ADsP] (3과목) 데이터 분석 - 데이터 전처리 기출문제 (0) | 2023.02.19 |
[ADsP] (2과목) 데이터분석 기획 - 분석마스터 플랜 기출문제 (0) | 2023.02.15 |
[ADsP] (2과목) 데이터분석 기획 - 분석마스터 플랜 요약 (0) | 2023.02.15 |
[ADsP] (2과목) 데이터분석 기획 - 데이터분석 기획 Part2 기출문제 (0) | 2023.02.15 |