본문 바로가기

작업형2

[빅데이터분석기사][작업형2] 5회 기출문제 풀이(회귀) * 퇴근후딴짓 님의 강의를 참고하였습니다. * [문제] 중고자동차 가격 예측하기 ㅇ 예측할 값(y): price ㅇ 평가 : RMSE (Root Mean Squared Error) ㅇ data : train.csv, test.csv ㅇ 제출 형식: result.csv파일을 아래와 같은 형식(수치형)으로 제출 ㅇ 답안제출 참고 : pd.read_csv('result.csv') 로 제출 코드 확인 [풀이] ## 데이터 불러오기 import pandas as pd train = pd.read_csv("train.csv") test = pd.read_csv("test.csv") ## EDA # 데이터 크기 확인 train.shape, test.shape # 샘플 확인 (시험환경에서는 display 대신 prin.. 더보기
[빅데이터분석기사][작업형2] 4회 기출문제 풀이 (분류, 2개 데이터set) * 퇴근후딴짓 님의 강의를 참고하였습니다. * [문제] 자동치 시장 세분화 (분류) 자동차 회사는 새로운 전략을 수립하기 위해 4개의 시장으로 세분화하였습니다. 기존 고객 분류 자료를 바탕으로 신규 고객이 어떤 분류에 속할지 예측해주세요. ㅇ 예측할 값 : "Segmentation" (1,2,3,4) ㅇ 평가 : Macro f1-score ㅇ data : train.csv, test.csv ㅇ 제출형식 : ID, 값 1. 라이브러리 및 데이터 읽어오기 # 라이브러리 불러오기 import pandas as pd # 데이터 불러오기 train = pd.read_csv("train.csv") test = pd.read_csv("test.csv") 2. EDA # 데이터 크기 확인 train.shape, tes.. 더보기
[빅데이터분석기사] 작업형2 문제유형 (분류) * 퇴근후딴짓 님의 강의를 참고하였습니다. * [ 문제 ] 심장마비 확률이 높은 사람 ㅇ 파일 : train.csv, test.csv ㅇ 타겟 : output(1:심장마비 확률 높음, 0:심장마비 확률 낮음) ㅇ 평가 : ROC_AUC, 정확도(Accuracy), F1 ㅇ 데이터 : 성별, 나이, 혈압, 콜레스테롤, 공복혈당, 최대심박수 등의 컬럼이 있음 [ 풀이 ] 1. 라이브러리 데이터 불러오기 2. EDA import pandas as pd train = pd.read_csv('train.csv') test = pd.read_csv('test.csv') print(train.shape, test.shape) train.head(2) test.head(2) train.isnull().sum() tes.. 더보기
[빅데이터분석기사] 작업형2 문제유형 (회귀) * 퇴근후딴짓 님의 강의를 참고하였습니다. * [ 문제 ] 에어비앤비 가격 ㅇ 데이터 : train.csv, test.csv ㅇ 타겟 : price(가격) [ 풀이 ] 1. 라이브러리 및 데이터 불러오기 import pandas as pd train = pd.read_csv('train.csv') test = pd.read_csv('test.csv') print(train.shape, test.shape) 2. EDA train.head(3) test.head(2) train.isnull().sum() test.isnull().sum() train['price'].describe() #그림을 그릴 수 없어서 대략적인 분포 확인 train.info() 3. 데이터전처리 및 피처엔지니어링 ㅇ 결측치 처리 t.. 더보기
[빅데이터분석기사] 작업형2 머신러닝 이론 및 프로세스 요약 * 퇴근후딴짓 님의 강의를 참고하였습니다. * 1. 머신러닝 ㅇ기존에는 데이터/규칙을 Rule Base로 결과를 도출하였지만, 머신러닝은 데이터와 결과(해답)을 기반으로 학습을 통해 규칙을 도출하고 머신러닝이 만든 규칙을 기반으로 새로운 데이터를 입력했을 때 결과가 도출되게 됨 - 지도학습 : 분류/회귀 > 빅분기 시험 범위 - 비지도학습 - 강화학습 2. 머신러닝 프로세스 ㅇ 문제 정의(Library / Data) > 탐색적 데이터분석(EDA) > 데이터전처리(결측치 : 채우기, 삭제 or 이상치 : 삭제 / 시험문제에서 이상치는 없는 경우가 많음) > 피처 엔지니어링 > Train/Validation(학습용/검증용) 데이터 나누기 > 모델(선택/훈련/평가/최적화) > 예측 3. 시험문제 풀이방법 ㅇ .. 더보기
[빅데이터분석기사] 작업형2 문제유형 (분류) * 퇴근후딴짓 님의 강의를 참고하였습니다. * [ 문제 ] 신용카드서비스를 떠나는 고객 찾기 ㅇ 데이터 : trian.csv, test.csv ㅇ 나이, 급여, 결혼상태, 신용카드한도 등의 컬럼이 있음 ㅇ 평가 : ROC_AUC, 정확도(Accuracy), F1, 정밀도(Precision), 재현율(Recall) 구하기 ㅇ 타겟데이터 : Attrition_Flag(1:이탈, 0:유지) [ 풀이 ] 1. 라이브리러, 데이터 불러오기 import pandas as pd train = pd.read_csv('train.csv') test = pd.read_csv('test.csv') 2. EDA print(train.shape, test.shape) print(train.head(), test.head()) .. 더보기
[빅데이터분석기사] 작업형2 기출문제 3회 (분류) * 퇴근후딴짓 님의 강의를 참고하였습니다.* [ 문제 ] 보험가입 확률을 묻는 문제 ㅇ 제공된 데이터(2개) : train.csv, test,csv ㅇ 예측할 컬럼 : TavelInsurance [ 풀이 ] 1. 데이터 불러오기 import pandas as pd train = pd.read_csv("train.csv") test = pd.read_csv("test.csv") 2. EDA ㅇ 크기 : shape ㅇ 샘플 : head() ㅇ 타입 : info() ㅇ 결측치 : isnull().sum() ㅇ 기초통계 : describe(), describe(include='object') ㅇ 타겟 레이블 : value_counts() # 크기 확인 train.shape, test.shape # 샘플 확인 t.. 더보기
[빅데이터분석기사] 작업형2 기출문제 2회 (분류) * 퇴근후딴짓 님의 강의를 참고하였습니다. * [ 문제 ] 제품 배송시간에 맞춰 배송되었는지 예측모델 만들기 학습용 데이터 (X_train, y_train)을 이용하여 배송 예측 모형을 만든 후, 이를 평가용 데이터(X_test)에 적용하여 얻은 예측(시간에 맞춰 도착하지 않을 확률)값을 다음과 같은 형식의 CSV파일로 생성하시오(제출한 모델의 성능은 ROC-AUC 평가지표에 따라 채점) ㅇ 제공 데이터 : X_train.csv, y_train.csv, X_test.csv ㅇ 0 정시도착, 1 정시도착하지 않음 [ 풀이 ] 1. 라이브러리, 데이터 불러오기 # 데이터 불러오기 import pandas as pd X_test = pd.read_csv("X_test.csv") X_train = pd.read.. 더보기