본문 바로가기

자격증공부/빅데이터분석기사

[빅데이터분석기사][작업형3] 예시문제 (쌍체표본 t-검정) * 퇴근후딴짓 님의 강의를 참고하였습니다. * [ 문제 ] 주어진 데이터(data/blood_pressure.csv)에는 고혈압 환자 120명의 치료전후의 혈압이 저장되어 있다. 해당 치료가 효과가 있는지 (즉, 치료 후의 혈압이 감소했는지) 쌍체표본 t-검정(paried t-test)를 통해 답하고자 한다. 가설은 아래와 같다. μd : (치료 후 혈압 - 치료전 혈압)의 평균 Η0 : μd >= 0 H1 : μd < 0 - bp_before : 치료 전 혈압 - bp_after : 치료 후 혈압 1) μd의 표본평균을 입력하시오. (반올림하여 소수 둘째자리까지 계산) 2) 위의 가설을 검정하기 위한 검정통계량을 입력하시오. (반올림하여 소수 넷째자리까지 계산) 3) 위의 통계량에 대한 p값을 구하여 .. 더보기
[빅데이터분석기사][유형2] 문제유형 풀어보기(다항분류) [문제] 자동차시장 세분화 ㅇ 자동차 회사는 새로운 전략 수립을 위해 4개의 시장으로 세분화 했습니다. 기존 고객 분류 자료를 바탕으로 신규 고객이 어떤 분류에 속할 지 예측해주세요. - 데이터 : X_train, y_train, X_test - 예측값(y) : "Segmentation" (1,2,3,4) - 평가 : Macro f1-score - 제출형식 : ID, Segmentation [풀이] # 다항분류 f1-score 평가 : f1_score(y_val, pred, average='macro') # 사용 라이브러리 import import pandas as pd # x_train.csv, y_train.csv, x_test.csv 읽어오기 X_train = pd.read_csv('X_train... 더보기
[빅데이터분석기사][작업형1] 5회 기출문제 풀이(기초통계, 정렬) * 퇴근후딴짓 님의 강의를 참고하였습니다. * [문제1] 종량제 봉투 종류가 '규격봉투'이고, 종량제 봉투 용도가 '음식물쓰레기'인 2L가격 평균을 출력하시오 (단, 가격0 제외, 반올림 후 정수 출력) import pandas as pd df = pd.read_csv("5-1price.csv") # print(df.head(3)) # print(df.info()) # print(df.shape) cond1 = df['종량제봉투종류'] == '규격봉투' cond2 = df['종량제봉투용도'] == '음식물쓰레기' cond3 = df['2ℓ가격'] > 0 df = df[cond1&cond2&cond3] print(round(df['2ℓ가격'].mean())) [문제2] bmi를 계산하고, 수치가 정상인 사.. 더보기
[빅데이터분석기사] 작업형2 문제유형 (분류) * 퇴근후딴짓 님의 강의를 참고하였습니다. * [ 문제 ] 심장마비 확률이 높은 사람 ㅇ 파일 : train.csv, test.csv ㅇ 타겟 : output(1:심장마비 확률 높음, 0:심장마비 확률 낮음) ㅇ 평가 : ROC_AUC, 정확도(Accuracy), F1 ㅇ 데이터 : 성별, 나이, 혈압, 콜레스테롤, 공복혈당, 최대심박수 등의 컬럼이 있음 [ 풀이 ] 1. 라이브러리 데이터 불러오기 2. EDA import pandas as pd train = pd.read_csv('train.csv') test = pd.read_csv('test.csv') print(train.shape, test.shape) train.head(2) test.head(2) train.isnull().sum() tes.. 더보기
[빅데이터분석기사] 작업형2 문제유형 (회귀) * 퇴근후딴짓 님의 강의를 참고하였습니다. * [ 문제 ] 에어비앤비 가격 ㅇ 데이터 : train.csv, test.csv ㅇ 타겟 : price(가격) [ 풀이 ] 1. 라이브러리 및 데이터 불러오기 import pandas as pd train = pd.read_csv('train.csv') test = pd.read_csv('test.csv') print(train.shape, test.shape) 2. EDA train.head(3) test.head(2) train.isnull().sum() test.isnull().sum() train['price'].describe() #그림을 그릴 수 없어서 대략적인 분포 확인 train.info() 3. 데이터전처리 및 피처엔지니어링 ㅇ 결측치 처리 t.. 더보기
[빅데이터분석기사] 작업형3 가설검정 이론 및 프로세스 * 퇴근후딴짓 님의 강의를 참고하였습니다. * 1. 모집단과 표본 ㅇ 모집단 : 집단 전체 ㅇ 표본 : 모집단을 대표하는 집합 2. 가설검정 ㅇ 모집단에 대한 가설이 적합한지 추출한 표본데이터로부터 판단하는 통계적 추론 - 귀무가설 H0 : 기존에 알려진 가설 - 대립가설 H1 : 새로 밝히려는 가설 -> 귀무가설 채택 : 귀무가설을 기각하지 못한다. -> 대릭가설 채택 : 귀무가설을 기각한다 (통계적으로 유의하다) ㅇ 가설검정의 오류 검정결과 H0 채택 H1 채택 (H0기각) 실제 H0 참 올바른 판단(1-a) 제1종 오류(a) H1 참 제2종 오류(b) 올바른 판단(1-b) ㅇ 가설검정 과정 - 통계적 가설 설정(귀무가설 H0, 대립가설 H1) ex. yd : 치료후 혈압 - 치료전 혈압의 평균일 때.. 더보기
[빅데이터분석기사] 작업형1 판다스 문법 활용 요약 1. 라이브러리 및 데이터 읽어오기 ㅇ 컬럼명 확인할 수 있도록 세팅하기 import pandas as pd df = pd.read_csv('ㅇㅇㅇㅇ.csv') pd.set_option('display.max_columns', None) #컬럼명 전부 확인할 수 있도록 셋팅하기 2. 데이터 탐색(EDA) # print문으로 확인하고, 나중에 주석처리하기 ㅇ 데이터 샘플 확인하기 : df.head() / df.tail(n) ㅇ 데이터프레임 크기(행/열) 확인 : df.shape ㅇ 컬럼별 데이터타입 확인 : df.info() ㅇ 기초통계 확인 : df.describe() ㅇ 데이터 항목 종류 확인 - 컬럼별 종류 수 : 변수명.nunique() - 컬럼별 항목 종류 : 변수명['컬럼명'].unique() .. 더보기
[빅데이터분석기사] 작업형2 머신러닝 이론 및 프로세스 요약 * 퇴근후딴짓 님의 강의를 참고하였습니다. * 1. 머신러닝 ㅇ기존에는 데이터/규칙을 Rule Base로 결과를 도출하였지만, 머신러닝은 데이터와 결과(해답)을 기반으로 학습을 통해 규칙을 도출하고 머신러닝이 만든 규칙을 기반으로 새로운 데이터를 입력했을 때 결과가 도출되게 됨 - 지도학습 : 분류/회귀 > 빅분기 시험 범위 - 비지도학습 - 강화학습 2. 머신러닝 프로세스 ㅇ 문제 정의(Library / Data) > 탐색적 데이터분석(EDA) > 데이터전처리(결측치 : 채우기, 삭제 or 이상치 : 삭제 / 시험문제에서 이상치는 없는 경우가 많음) > 피처 엔지니어링 > Train/Validation(학습용/검증용) 데이터 나누기 > 모델(선택/훈련/평가/최적화) > 예측 3. 시험문제 풀이방법 ㅇ .. 더보기