실기 썸네일형 리스트형 [빅데이터분석기사] 모의고사2 (이상치, 소수점데이터 찾기, 소수점데이터처리, 분류(3개set), 독립표본t-test) * 퇴근후딴짓 님의 캐글 문제를 제가 풀어본 결과입니다.* [유형1] 이상치찾기, 소수점데이터 찾고 처리하기(올림/내림/버림) (문제) 주어진 데이터에서 이상치(소수점 나이)를 찾고 올림, 내림, 버림(절사)했을때 3가지 모두 이상치 'age' 평균을 구한 다음 모두 더하여 출력하시오. -> 문제 바로가기(캐글) * 올림/버림/내림 - import numpy as np - 올림 : np.ceil(df['컬럼명']) - 내림 : np.floor(df['컬럼명']) - 버림 : np.trunc(df['컬럼명']) * 소수점 데이터 찾는 방법 : 값 - 내림해서 뺀 값이 0이 아닌 경우 : df['컬럼'] - np.floor(df['컬럼') != 0 (풀이) # 라이브러리 및 데이터 불러오기 import pa.. 더보기 [빅데이터분석기사] 모의고사 1 (이상치, 분류(3개set), 쌍체T표본검정) * 퇴근후딴짓 님의 캐글 문제를 제가 풀어본 결과입니다. * [유형1] 이상치 찾기 -> 문제 바로가기(캐글) (문제) 데이터에서 IQR을 활용해 Fare컬럼의 이상치를 찾고, 이상치 데이터의 여성 수를 구하시오 (풀이) # 라이브러리 및 데이터 불러오기 import pandas as pd df = pd.read_csv("../input/titanic/train.csv") # EDA # print(df.head(3)) # print(df.shape) # print(df.info()) # print(df.isnull().sum()) # IQR 구하기 (IQR = Q3-Q1) # 최대 : Q3 + 1.5*IQR / 최소 : Q1-1.5*IQR Q3 = df['Fare'].quantile(.75) Q1 = d.. 더보기 [빅데이터분석기사] 모의고사 5 (누적합, 결측치, 이상치, 정렬, 회귀, 정규분포검증) [유형1-1] 누적합, 결측치 처리 (문제) 주어진 데이터에서 f2컬럼이 1인 조건에 해당하는 데이터의 f1컬럼 누적합을 계산한다. 이때 발생하는 누적합 결측치는 바로 뒤의 값을 채우고, 누적합의 평균값을 출력한다. (단, 결측치 바로 뒤의 값이 없으면 다음에 나오는 값을 채워넣는다.) ㅇ 문제 바로가기(캐글) * 누적합 : df.cumsum() * 결측치 앞/뒤 값으로 채우기 : df.fillna(method = "bfill/ffill") (풀이) import pandas as pd df = pd.read_csv('../input/bigdatacertificationkr/basic1.csv') # print(df.head(2)) # print(df.shape) # print(df.info()) # 누적.. 더보기 [빅데이터분석기사] 모의고사4 (표준편차, 그룹합, 값 대체, 회귀, 일원배치법) [유형1-1] 표준편차 구하기 (문제) 주어진 데이터에서 f1 컬럼값이 'ENFJ'와 'INFP'인 'f1'의 표준편차 차이를 절대값으로 구하시오. ㅇ 문제 바로가기(캐글) * 표준편차 : df[조건]['컬럼'].std() (풀이) import pandas as pd df = pd.read_csv('../input/bigdatacertificationkr/basic1.csv') # print(df.head(3)) # print(df.shape) # print(df.info()) cond1 = df['f4'] == 'ENFJ' cond2 = df['f4'] == 'INFP' print(abs(df[cond1]['f1'].std()-df[cond2]['f1'].std())) [유형1-2] 결측치 제거 및 그.. 더보기 [빅데이터분석기사][작업형1] 5회 기출문제 풀이(기초통계, 정렬) * 퇴근후딴짓 님의 강의를 참고하였습니다. * [문제1] 종량제 봉투 종류가 '규격봉투'이고, 종량제 봉투 용도가 '음식물쓰레기'인 2L가격 평균을 출력하시오 (단, 가격0 제외, 반올림 후 정수 출력) import pandas as pd df = pd.read_csv("5-1price.csv") # print(df.head(3)) # print(df.info()) # print(df.shape) cond1 = df['종량제봉투종류'] == '규격봉투' cond2 = df['종량제봉투용도'] == '음식물쓰레기' cond3 = df['2ℓ가격'] > 0 df = df[cond1&cond2&cond3] print(round(df['2ℓ가격'].mean())) [문제2] bmi를 계산하고, 수치가 정상인 사.. 더보기 [빅데이터분석기사] 작업형2 문제유형 (회귀) * 퇴근후딴짓 님의 강의를 참고하였습니다. * [ 문제 ] 에어비앤비 가격 ㅇ 데이터 : train.csv, test.csv ㅇ 타겟 : price(가격) [ 풀이 ] 1. 라이브러리 및 데이터 불러오기 import pandas as pd train = pd.read_csv('train.csv') test = pd.read_csv('test.csv') print(train.shape, test.shape) 2. EDA train.head(3) test.head(2) train.isnull().sum() test.isnull().sum() train['price'].describe() #그림을 그릴 수 없어서 대략적인 분포 확인 train.info() 3. 데이터전처리 및 피처엔지니어링 ㅇ 결측치 처리 t.. 더보기 [빅데이터분석기사] 작업형3 가설검정 이론 및 프로세스 * 퇴근후딴짓 님의 강의를 참고하였습니다. * 1. 모집단과 표본 ㅇ 모집단 : 집단 전체 ㅇ 표본 : 모집단을 대표하는 집합 2. 가설검정 ㅇ 모집단에 대한 가설이 적합한지 추출한 표본데이터로부터 판단하는 통계적 추론 - 귀무가설 H0 : 기존에 알려진 가설 - 대립가설 H1 : 새로 밝히려는 가설 -> 귀무가설 채택 : 귀무가설을 기각하지 못한다. -> 대릭가설 채택 : 귀무가설을 기각한다 (통계적으로 유의하다) ㅇ 가설검정의 오류 검정결과 H0 채택 H1 채택 (H0기각) 실제 H0 참 올바른 판단(1-a) 제1종 오류(a) H1 참 제2종 오류(b) 올바른 판단(1-b) ㅇ 가설검정 과정 - 통계적 가설 설정(귀무가설 H0, 대립가설 H1) ex. yd : 치료후 혈압 - 치료전 혈압의 평균일 때.. 더보기 [빅데이터분석기사] 작업형2 기출문제 2회 (분류) * 퇴근후딴짓 님의 강의를 참고하였습니다. * [ 문제 ] 제품 배송시간에 맞춰 배송되었는지 예측모델 만들기 학습용 데이터 (X_train, y_train)을 이용하여 배송 예측 모형을 만든 후, 이를 평가용 데이터(X_test)에 적용하여 얻은 예측(시간에 맞춰 도착하지 않을 확률)값을 다음과 같은 형식의 CSV파일로 생성하시오(제출한 모델의 성능은 ROC-AUC 평가지표에 따라 채점) ㅇ 제공 데이터 : X_train.csv, y_train.csv, X_test.csv ㅇ 0 정시도착, 1 정시도착하지 않음 [ 풀이 ] 1. 라이브러리, 데이터 불러오기 # 데이터 불러오기 import pandas as pd X_test = pd.read_csv("X_test.csv") X_train = pd.read.. 더보기 이전 1 2 다음