본문 바로가기

실기

[빅데이터분석기사] 작업형2 예시문제 (분류) * 퇴근후딴짓 님의 강의를 참고하였습니다.* [ 문제 ] 아래는 백화점 고객의 1년간 구매 데이터이다. (가) 제공데이터 목록 1. y_train.csv : 고객의 성별데이터(학습용), csv형식의 파일 2. X_train.csv, X_test.csv : 고객의 상품구매속성(학습용 및 평가용), csv형식의 파일 (나) 데이터 형식 및 내용 1. y_train.csv (3,500명 데이터) 2. X_train.csv (3,500명 데이터), X_test.csv (2,482명 데이터) 고객 3,500명에 대한 학습용데이터(y_train, X_train)를 이용하여 성별예측모형을 만든 후, 이를 평가용 데이터(X_test)에 적용하여 얻은 2,482명 고객의 성별 예측값(남자일 확률)을 다음과 같은 형식의 .. 더보기
[빅데이터분석기사] 실기시험 응시환경 및 Tip * 퇴근후딴짓 님의 강의를 참고하였습니다. * 1. 시험 응시환경 ㅇ print()문을 활용해서 출력해야 함 ㅇ 코드 힌트 사용할 수 없음. help(), dir(), __all__ 활용 - dir()을 통해 사용가능한 함수 확인 가능(스펠링 기억 안날 때) : print(dir(pd)) / print(dir(pd.DataFrame)) - help()를 통해 함수 사용방법 확인 ; print(help(pd.DataFrame.drop)) / print(help(pd.get_dummies)) - sklearn에서는 __all__을 활용 : print(sklearn.__all__) / print(sklearn.preprocissing.__all__) / print(help(sklearn.preprocessin.. 더보기
[빅데이터분석기사] 작업형1 문제유형 (기초통계, 그룹통계, 날짜) * 퇴근후딴짓 님의 강의를 참고하였습니다. * [문제 1] index '2001' 데이터(행)의 평균보다 큰 값의 수와 index'2003' 데이터(행)의 평균보다 작은 값의 수를 더하시오. df = pd.read_csv("data.csv", index_col="Unnamed: 0") # print(df.head(2)) m2001 = df.loc[2001].mean() # print(m2001) cond = df.loc[2001] > m2001 r1 = sum(cond) #True인것만 합해서 구해줌 m2003 = df.loc[2003].mean() cond = df.loc[2003] < m2003 r2 = sum(cond) print(r1+r2) [문제 2] 결측값을 가진 데이터는 바로 뒤에 있는 값으.. 더보기
[빅데이터분석기사] 작업형1 문제유형 (결측치) * 인프런의 '퇴근후딴짓'님의 강의를 참고하였습니다. * [문제1] f1컬럼의 결측치는 중앙값으로 대체하고, 나머지 결측치가 있는 데이터(행)을 모두 제거하고, 앞에서부터 70%데이터 중 views 컬럼의 3사분위 수에서 1사분위 수를 뺀 값을 구하시오.(단, 데이터70%지점은 정수형 변환) # 라이브러리 및 데이터 읽어오기 import pandas as pd df = pd.read_csv('members.csv') # print(df.head()) # f1 컬럼 결측치 확인 및 중앙값 찾아서 대체 # print(df.isnull().sum()) # print(df.shape) m = df['f1'].median() # print(m) df['f1'] = df['f1'].fillna(m) # print(.. 더보기