본문 바로가기

자격증공부/빅데이터분석기사

[빅데이터분석기사] 작업형2 문제유형 (분류) * 퇴근후딴짓 님의 강의를 참고하였습니다. * [ 문제 ] 신용카드서비스를 떠나는 고객 찾기 ㅇ 데이터 : trian.csv, test.csv ㅇ 나이, 급여, 결혼상태, 신용카드한도 등의 컬럼이 있음 ㅇ 평가 : ROC_AUC, 정확도(Accuracy), F1, 정밀도(Precision), 재현율(Recall) 구하기 ㅇ 타겟데이터 : Attrition_Flag(1:이탈, 0:유지) [ 풀이 ] 1. 라이브리러, 데이터 불러오기 import pandas as pd train = pd.read_csv('train.csv') test = pd.read_csv('test.csv') 2. EDA print(train.shape, test.shape) print(train.head(), test.head()) .. 더보기
[빅데이터분석기사] 작업형2 기출문제 3회 (분류) * 퇴근후딴짓 님의 강의를 참고하였습니다.* [ 문제 ] 보험가입 확률을 묻는 문제 ㅇ 제공된 데이터(2개) : train.csv, test,csv ㅇ 예측할 컬럼 : TavelInsurance [ 풀이 ] 1. 데이터 불러오기 import pandas as pd train = pd.read_csv("train.csv") test = pd.read_csv("test.csv") 2. EDA ㅇ 크기 : shape ㅇ 샘플 : head() ㅇ 타입 : info() ㅇ 결측치 : isnull().sum() ㅇ 기초통계 : describe(), describe(include='object') ㅇ 타겟 레이블 : value_counts() # 크기 확인 train.shape, test.shape # 샘플 확인 t.. 더보기
[빅데이터분석기사] 작업형2 기출문제 2회 (분류) * 퇴근후딴짓 님의 강의를 참고하였습니다. * [ 문제 ] 제품 배송시간에 맞춰 배송되었는지 예측모델 만들기 학습용 데이터 (X_train, y_train)을 이용하여 배송 예측 모형을 만든 후, 이를 평가용 데이터(X_test)에 적용하여 얻은 예측(시간에 맞춰 도착하지 않을 확률)값을 다음과 같은 형식의 CSV파일로 생성하시오(제출한 모델의 성능은 ROC-AUC 평가지표에 따라 채점) ㅇ 제공 데이터 : X_train.csv, y_train.csv, X_test.csv ㅇ 0 정시도착, 1 정시도착하지 않음 [ 풀이 ] 1. 라이브러리, 데이터 불러오기 # 데이터 불러오기 import pandas as pd X_test = pd.read_csv("X_test.csv") X_train = pd.read.. 더보기
[빅데이터분석기사] 작업형2 예시문제 (분류) * 퇴근후딴짓 님의 강의를 참고하였습니다.* [ 문제 ] 아래는 백화점 고객의 1년간 구매 데이터이다. (가) 제공데이터 목록 1. y_train.csv : 고객의 성별데이터(학습용), csv형식의 파일 2. X_train.csv, X_test.csv : 고객의 상품구매속성(학습용 및 평가용), csv형식의 파일 (나) 데이터 형식 및 내용 1. y_train.csv (3,500명 데이터) 2. X_train.csv (3,500명 데이터), X_test.csv (2,482명 데이터) 고객 3,500명에 대한 학습용데이터(y_train, X_train)를 이용하여 성별예측모형을 만든 후, 이를 평가용 데이터(X_test)에 적용하여 얻은 2,482명 고객의 성별 예측값(남자일 확률)을 다음과 같은 형식의 .. 더보기
[빅데이터분석기사] 실기시험 응시환경 및 Tip * 퇴근후딴짓 님의 강의를 참고하였습니다. * 1. 시험 응시환경 ㅇ print()문을 활용해서 출력해야 함 ㅇ 코드 힌트 사용할 수 없음. help(), dir(), __all__ 활용 - dir()을 통해 사용가능한 함수 확인 가능(스펠링 기억 안날 때) : print(dir(pd)) / print(dir(pd.DataFrame)) - help()를 통해 함수 사용방법 확인 ; print(help(pd.DataFrame.drop)) / print(help(pd.get_dummies)) - sklearn에서는 __all__을 활용 : print(sklearn.__all__) / print(sklearn.preprocissing.__all__) / print(help(sklearn.preprocessin.. 더보기
[빅데이터분석기사] 작업형1 문제유형 (기초통계, 그룹통계, 날짜) * 퇴근후딴짓 님의 강의를 참고하였습니다. * [문제 1] index '2001' 데이터(행)의 평균보다 큰 값의 수와 index'2003' 데이터(행)의 평균보다 작은 값의 수를 더하시오. df = pd.read_csv("data.csv", index_col="Unnamed: 0") # print(df.head(2)) m2001 = df.loc[2001].mean() # print(m2001) cond = df.loc[2001] > m2001 r1 = sum(cond) #True인것만 합해서 구해줌 m2003 = df.loc[2003].mean() cond = df.loc[2003] < m2003 r2 = sum(cond) print(r1+r2) [문제 2] 결측값을 가진 데이터는 바로 뒤에 있는 값으.. 더보기
[빅데이터분석기사] 작업형1 문제유형 (이상치, 기초통계) * 인프런의 퇴근후딴짓 님의 강의를 참고하였습니다. * [문제1] 주어진 데이터에서 자료형(type)이 object인 컬럼은 삭제하고, 결측치는 0으로 대체한다. 행 단위로 합한 다음 그 값이 3000보다 큰 값의 데이터 수를 구하시오('age', 'f1', 'f2', 'f5', 'views'의 각 행별 합) import pandas as pd df = pd.read_csv{'members.csv') print(df.head()) ㅇ 방법1 : object 컬럼이 포함된 types 삭제 cols = df.select_dtypes(include='object').columns print(cols) df = df.drop(cols, axis=1) print(df.head()) ㅇ 방법2 : object 컬럼.. 더보기
[빅데이터분석기사] 작업형1 문제유형 (결측치) * 인프런의 '퇴근후딴짓'님의 강의를 참고하였습니다. * [문제1] f1컬럼의 결측치는 중앙값으로 대체하고, 나머지 결측치가 있는 데이터(행)을 모두 제거하고, 앞에서부터 70%데이터 중 views 컬럼의 3사분위 수에서 1사분위 수를 뺀 값을 구하시오.(단, 데이터70%지점은 정수형 변환) # 라이브러리 및 데이터 읽어오기 import pandas as pd df = pd.read_csv('members.csv') # print(df.head()) # f1 컬럼 결측치 확인 및 중앙값 찾아서 대체 # print(df.isnull().sum()) # print(df.shape) m = df['f1'].median() # print(m) df['f1'] = df['f1'].fillna(m) # print(.. 더보기