본문 바로가기

자격증공부

[빅데이터분석기사] 작업형1 판다스 문법 활용 요약 1. 라이브러리 및 데이터 읽어오기 ㅇ 컬럼명 확인할 수 있도록 세팅하기 import pandas as pd df = pd.read_csv('ㅇㅇㅇㅇ.csv') pd.set_option('display.max_columns', None) #컬럼명 전부 확인할 수 있도록 셋팅하기 2. 데이터 탐색(EDA) # print문으로 확인하고, 나중에 주석처리하기 ㅇ 데이터 샘플 확인하기 : df.head() / df.tail(n) ㅇ 데이터프레임 크기(행/열) 확인 : df.shape ㅇ 컬럼별 데이터타입 확인 : df.info() ㅇ 기초통계 확인 : df.describe() ㅇ 데이터 항목 종류 확인 - 컬럼별 종류 수 : 변수명.nunique() - 컬럼별 항목 종류 : 변수명['컬럼명'].unique() .. 더보기
[빅데이터분석기사] 작업형2 머신러닝 이론 및 프로세스 요약 * 퇴근후딴짓 님의 강의를 참고하였습니다. * 1. 머신러닝 ㅇ기존에는 데이터/규칙을 Rule Base로 결과를 도출하였지만, 머신러닝은 데이터와 결과(해답)을 기반으로 학습을 통해 규칙을 도출하고 머신러닝이 만든 규칙을 기반으로 새로운 데이터를 입력했을 때 결과가 도출되게 됨 - 지도학습 : 분류/회귀 > 빅분기 시험 범위 - 비지도학습 - 강화학습 2. 머신러닝 프로세스 ㅇ 문제 정의(Library / Data) > 탐색적 데이터분석(EDA) > 데이터전처리(결측치 : 채우기, 삭제 or 이상치 : 삭제 / 시험문제에서 이상치는 없는 경우가 많음) > 피처 엔지니어링 > Train/Validation(학습용/검증용) 데이터 나누기 > 모델(선택/훈련/평가/최적화) > 예측 3. 시험문제 풀이방법 ㅇ .. 더보기
[빅데이터분석기사] 작업형2 문제유형 (분류) * 퇴근후딴짓 님의 강의를 참고하였습니다. * [ 문제 ] 신용카드서비스를 떠나는 고객 찾기 ㅇ 데이터 : trian.csv, test.csv ㅇ 나이, 급여, 결혼상태, 신용카드한도 등의 컬럼이 있음 ㅇ 평가 : ROC_AUC, 정확도(Accuracy), F1, 정밀도(Precision), 재현율(Recall) 구하기 ㅇ 타겟데이터 : Attrition_Flag(1:이탈, 0:유지) [ 풀이 ] 1. 라이브리러, 데이터 불러오기 import pandas as pd train = pd.read_csv('train.csv') test = pd.read_csv('test.csv') 2. EDA print(train.shape, test.shape) print(train.head(), test.head()) .. 더보기
[빅데이터분석기사] 작업형2 기출문제 3회 (분류) * 퇴근후딴짓 님의 강의를 참고하였습니다.* [ 문제 ] 보험가입 확률을 묻는 문제 ㅇ 제공된 데이터(2개) : train.csv, test,csv ㅇ 예측할 컬럼 : TavelInsurance [ 풀이 ] 1. 데이터 불러오기 import pandas as pd train = pd.read_csv("train.csv") test = pd.read_csv("test.csv") 2. EDA ㅇ 크기 : shape ㅇ 샘플 : head() ㅇ 타입 : info() ㅇ 결측치 : isnull().sum() ㅇ 기초통계 : describe(), describe(include='object') ㅇ 타겟 레이블 : value_counts() # 크기 확인 train.shape, test.shape # 샘플 확인 t.. 더보기
[빅데이터분석기사] 작업형2 기출문제 2회 (분류) * 퇴근후딴짓 님의 강의를 참고하였습니다. * [ 문제 ] 제품 배송시간에 맞춰 배송되었는지 예측모델 만들기 학습용 데이터 (X_train, y_train)을 이용하여 배송 예측 모형을 만든 후, 이를 평가용 데이터(X_test)에 적용하여 얻은 예측(시간에 맞춰 도착하지 않을 확률)값을 다음과 같은 형식의 CSV파일로 생성하시오(제출한 모델의 성능은 ROC-AUC 평가지표에 따라 채점) ㅇ 제공 데이터 : X_train.csv, y_train.csv, X_test.csv ㅇ 0 정시도착, 1 정시도착하지 않음 [ 풀이 ] 1. 라이브러리, 데이터 불러오기 # 데이터 불러오기 import pandas as pd X_test = pd.read_csv("X_test.csv") X_train = pd.read.. 더보기
[빅데이터분석기사] 작업형2 예시문제 (분류) * 퇴근후딴짓 님의 강의를 참고하였습니다.* [ 문제 ] 아래는 백화점 고객의 1년간 구매 데이터이다. (가) 제공데이터 목록 1. y_train.csv : 고객의 성별데이터(학습용), csv형식의 파일 2. X_train.csv, X_test.csv : 고객의 상품구매속성(학습용 및 평가용), csv형식의 파일 (나) 데이터 형식 및 내용 1. y_train.csv (3,500명 데이터) 2. X_train.csv (3,500명 데이터), X_test.csv (2,482명 데이터) 고객 3,500명에 대한 학습용데이터(y_train, X_train)를 이용하여 성별예측모형을 만든 후, 이를 평가용 데이터(X_test)에 적용하여 얻은 2,482명 고객의 성별 예측값(남자일 확률)을 다음과 같은 형식의 .. 더보기
[빅데이터분석기사] 실기시험 응시환경 및 Tip * 퇴근후딴짓 님의 강의를 참고하였습니다. * 1. 시험 응시환경 ㅇ print()문을 활용해서 출력해야 함 ㅇ 코드 힌트 사용할 수 없음. help(), dir(), __all__ 활용 - dir()을 통해 사용가능한 함수 확인 가능(스펠링 기억 안날 때) : print(dir(pd)) / print(dir(pd.DataFrame)) - help()를 통해 함수 사용방법 확인 ; print(help(pd.DataFrame.drop)) / print(help(pd.get_dummies)) - sklearn에서는 __all__을 활용 : print(sklearn.__all__) / print(sklearn.preprocissing.__all__) / print(help(sklearn.preprocessin.. 더보기
[빅데이터분석기사] 작업형1 문제유형 (기초통계, 그룹통계, 날짜) * 퇴근후딴짓 님의 강의를 참고하였습니다. * [문제 1] index '2001' 데이터(행)의 평균보다 큰 값의 수와 index'2003' 데이터(행)의 평균보다 작은 값의 수를 더하시오. df = pd.read_csv("data.csv", index_col="Unnamed: 0") # print(df.head(2)) m2001 = df.loc[2001].mean() # print(m2001) cond = df.loc[2001] > m2001 r1 = sum(cond) #True인것만 합해서 구해줌 m2003 = df.loc[2003].mean() cond = df.loc[2003] < m2003 r2 = sum(cond) print(r1+r2) [문제 2] 결측값을 가진 데이터는 바로 뒤에 있는 값으.. 더보기