본문 바로가기

데이터분석준전문가

[ADsP] (3과목) 데이터 분석 - 데이터마이닝, 분류분석 요약 1. 개요 방대한 양의 데이터 속에서 숨겨진 규칙, 패턴 등을 찾고 예측 및 의사결정에 활용가능한 가치를 탐색, 이렇게 발견된 규칙 및 패턴을 컴퓨터가 학습하는 것이 기계학습, 심층학습, 강화학습이라 지칭함. (유튜브, 알파고, 넷플릭스 등) ㅇ 종류 : 정형/비정형 데이터 마이닝 ㅇ 통계분석은 가설이나 가정에 따른 분석이나 검증을 하지만, 데이터마이닝은 데이터로부터 의미있는 저보를 찾아내는 방법을 통칭 2. 데이터마이닝 방법에 따른 분류 ㅇ 지도학습 : 정답이 있는 데이터를 활용하여 분석 모델을 구축하는 것 (ex. 회귀분석, 의사결정트리, 인공신경망 모형, 로지스틱회귀분석 등) ㅇ 비지도학습 : 정답이 없는 데이터들 사이의 유사성, 거리를 활용하여 그룹화하거나 규칙을 파악하는 것. (ex. 군집분석,.. 더보기
[ADsP] (3과목) 데이터 분석 - 통계분석 Part3 요약 1. 상관분석 ㅇ 상관계수를 활용한 분석방법으로 두 변수간 선형적 관계 존재 유무를 파악하기 위함 ㅇ 상관분서 귀무가설은 ‘두 변수간 상관관계는 존재하지 않는다’ 이다. ㅇ 상관계수 r의 범위는 -1~1이며, 0에 가까울수록 상관이 낮다고 말한다. ㅇ 종류 - 피어슨 상관분석 : 두 변수간 양적 척도인 경우, 두 변수 간의 선형관계의 크기 측정, 상관관계가 존재하지 않는 경우 0이다. - 스피어만 상관분석 : 두 변수가 순서 척도인 경우, 두 변수간의 선형/비선형적 관계 나타낼 수 있음 2. 다차원 척도법 (MDS : Multidimensional Scaling) ㅇ 객체(데이터) 간의 근접성을 시각화하는 통계기법으로 군집분석과 유사하며 데이터의 축소를 목적으로 2차원 평면위에 데이터를 표현한다. Str.. 더보기
[ADsP] (3과목) 데이터 분석 - 통계분석 Part2 기출문제 1. 다음 중 회귀분석을 수행하기 위한 가정사항이 아닌 것은 무엇인가? ① 선형성 ② 등분산성 ③ 정규성 ④ 공분산성 ※ 정답 : 4번 2. 다음은 무엇에 대한 설명인가? 회귀분석에서 각 독립변수에 대한 회귀계수를 추정하기 위한 방법으로 잔차의 제곱합이 최소가 되는 회귀식을 찾는 방법이다. ( 최소제곱법 ) 3. 다음은 종속변수 y를 추정하기 위해 독립변수 x에 대하여 회귀분석을 수행한 결과이다. 다음 중 결과를 잘못 해석한 것은 무엇인가? ① 유의수준 0.05 이내에서 위 결과는 통계적으로 유의하다. ② 해당 결과는 전체 데이터의 79.29%를 설명하고 있다. ③ x의 회귀계수는 3.6471로 추정된다. ④ F 통계량의 자유도로 보아 9개의 데이터로 회귀분석을 수행하였다. ※ 정답 : 4번 : 10개 .. 더보기
[ADsP] (3과목) 데이터 분석 - 통계분석 Part2 요약 1. 회귀분석과 로지스틱 회귀분석 ㅇ 회귀분석 : 하나 이상의 연속형 독립변수들이 연속형 종속변수에 얼마나 영향을 끼치는지 수치적으로 파악하는 통계기법 - 반응변수(종속변수)/설명변수(독립변수) - 회귀계수의 추정 : 최소제곡법, 최소자승법 ㅇ 로지스틱 회귀분석 : 하나 이상의 연속형 독립변수들인 이산형(범주형) 종속변수에 얼마나 영향을 끼치는지 수치적으로 파악하는 통계기법 2. 회귀분석의 종류 ㅇ 단순회귀 : 1개의 독립변수와 반응변수가 직선(선형) 관계 ㅇ 다중회귀 : 2개 이상의 독립변수와 반응변수의 직선(선형) 관계 ㅇ 다항회귀 : 2개 이상의 독립변수와 반응변수가 2차 함수 이상의 관계 ㅇ 비선형 회귀 : 회귀식이 미지의 모수들과 선형관계가 아닌 경우 (ex. 지수함수,로그함수, 삼각함수 등) .. 더보기
[ADsP] (3과목) 데이터 분석 - 통계분석 Part1 기출문제 1. 아래 보기에 들어갈 A와 B를 바르게 고른 것은 무엇인가? 두 개의 사건에 대하여 두 사건이 서로 공통 부분이 존재하지 않는 경우를 ( A )관계라 하며, 두 개의 사건이 공통인 부분이 존재한다 하더라도 서로가 서로에게 영향을 주지 않는 경우를 ( B )관계에 있다고 한다. A B ① 독립 상관 ② 배반 독립 ③ 배반 상관 ④ 상관 배반 ※ 정답 : 2번 2. 표본조사를 실시하기 위한 표본 추출 방법의 선택은 중요한 과제다. 다음 보기에서 설명하는 표본 추출방법은 무엇인가? 모집단의 구성비율을 반영한 표본집단을 생성하기 위해 모집단을 여러 개의 이질적인 집단으로 나눈 뒤 모집단의 비율과 같은 비율로 각 군집으로부터 표본을 추출하는 방법이다. ① 집락 추출법 ② 비례 층화 추출법 ③ 계통 추출법 ④ .. 더보기
[ADsP] (3과목) 데이터 분석 - 통계분석 Part1 요약 1. 통계와 통계분석 ㅇ 통계 : 분석하고자 하는 집단에 대해 조사하거나 실험을 통해 자료의 요약된 형태의 데이터를 추출, 불확실한 상황에서 효과적인 의사결정을 할 수 있도록 수치자료를 수집하고 분석하는 학문 ㅇ 통계분석 : 목적에 맞게 특정 대상으로부터 데이터를 획득하고, 적절한 통계기법을 활용해 의사결정을 하는 과정 2. 전수조사와 표본조사 ㅇ 전수조사 : 통계 분석을 수행하기 위해 조사 대상이 되는 자료 모두에 대해 데이터 수집을 실시 (ex. 대한민국 성인 남성의 평균키를 조사할 때 2천만명 모두를 조사) ㅇ 표본조사 : 통계분석을 수행하기 위해 조사 대상이 되는 자료의 일부분에 대하여 데이터 수집 실시 (ex. 대한민국 성인 남성 평균키 조사 시 현실적으로 2천만명을 대상으로 전수조사는 불가능하.. 더보기
[ADsP] (3과목) 데이터 분석 - 데이터 전처리 기출문제 1. 다음 중 여러 곳에 흩어진 데이터를 수집한 뒤 기업의 의사결정을 위해 공통의 형식으로 변환된 데이터의 집합으로써 특정 목적을 달성하기 위해 추출된 작은 데이터 집합은 무엇인가? ① 데이터베이스 ② 데이터 마트 ③ 데이터 레이크 ④ 데이터 웨어하우스 ※ 정답 : 2번 - 데이터레이크는 목적을 가지고 있지 않은 모든 데이터가 자유롭게 저장된 저장소 - 데이터웨어하우스는 형식을 가지고 데이터가 저장됨 2. 다음 보기에서 설명하는 패키지는 무엇인가? 데이터프레임을 하나 이상의 특정 변수를 기준으로 나누는 함수와 나누어진 데이터를 원하는 구성으로 재결합하는 함수를 제공하며, 유연한 데이터 재구성 및 총계 처리가 가능하도록 도와준다. 대표적인 함수로는 melt와 cast가 있다. ① reshape ② sqld.. 더보기
[ADsP] (3과목) 데이터 분석 - 데이터 전처리 요약 1. 데이터 웨어하우스(DW)와 데이터마트(DM) ㅇ 데이터 웨어하우스 : 여러 데이터베이스(RDB, 클라우드, NoSQL 등)로부터 공통의 형식으로 변환되어 사용자의 의사결정에 도움이 되기 위한 일시적인 데이터 집합 ㅇ 데이터 마트 : 특정한 목적 달성을 위해 활용하는 소규모의 데이터웨어하우스 ㅇ 신규 시스템이나 DW에 포함되지 못한 자료의 경우 기존 Legacy시스템이나 스테이징 영역(기존 Legacy에서 임시로 저장된 데이터) 과 ODS(Operational Data Store)에서 데이터를 가져와서 DW에서 가져온 내용과 결합하여 활용할 수 있다. - 운영시스템(Legacy)에 직접 접근해서 데이터를 활용하는 것은 매우 위험한 일이므로 거의 이루어 지지 않고, 가급적 클링징 영역인 ODX에서 데이.. 더보기