본문 바로가기

자격증공부

[빅데이터분석기사][작업형1] 4회 기출문제 풀이(기초통계, 날짜) * 퇴근후딴짓 님의 강의를 참고하였습니다. * [문제1] age 컬럼의 3사분위수와 1사분위수의 차를 절대값으로 구하고, 소수점 버려서, 정수로 출력 import pandas as pd df = pd.read_csv("basic1.csv") # print(df.head(3)) # print(df.info()) a = df['age'].quantile(.75) b = df['age'].quantile(.25) print(int(abs(a-b))) * 사분위값 : df['컬럼명'].quantile(.25) * 절대값 : abs(값) * 정수형으로 출력 : int(값) [문제2] (loves반응+wows반응)/(reactions반응) 비율이 0.4보다 크고 0.5보다 작으면서, type 컬럼이 'video'인.. 더보기
[빅데이터분석기사][작업형2] 4회 기출문제 풀이 (분류, 2개 데이터set) * 퇴근후딴짓 님의 강의를 참고하였습니다. * [문제] 자동치 시장 세분화 (분류) 자동차 회사는 새로운 전략을 수립하기 위해 4개의 시장으로 세분화하였습니다. 기존 고객 분류 자료를 바탕으로 신규 고객이 어떤 분류에 속할지 예측해주세요. ㅇ 예측할 값 : "Segmentation" (1,2,3,4) ㅇ 평가 : Macro f1-score ㅇ data : train.csv, test.csv ㅇ 제출형식 : ID, 값 1. 라이브러리 및 데이터 읽어오기 # 라이브러리 불러오기 import pandas as pd # 데이터 불러오기 train = pd.read_csv("train.csv") test = pd.read_csv("test.csv") 2. EDA # 데이터 크기 확인 train.shape, tes.. 더보기
[빅데이터분석기사][작업형3] 예시문제 (쌍체표본 t-검정) * 퇴근후딴짓 님의 강의를 참고하였습니다. * [ 문제 ] 주어진 데이터(data/blood_pressure.csv)에는 고혈압 환자 120명의 치료전후의 혈압이 저장되어 있다. 해당 치료가 효과가 있는지 (즉, 치료 후의 혈압이 감소했는지) 쌍체표본 t-검정(paried t-test)를 통해 답하고자 한다. 가설은 아래와 같다. μd : (치료 후 혈압 - 치료전 혈압)의 평균 Η0 : μd >= 0 H1 : μd < 0 - bp_before : 치료 전 혈압 - bp_after : 치료 후 혈압 1) μd의 표본평균을 입력하시오. (반올림하여 소수 둘째자리까지 계산) 2) 위의 가설을 검정하기 위한 검정통계량을 입력하시오. (반올림하여 소수 넷째자리까지 계산) 3) 위의 통계량에 대한 p값을 구하여 .. 더보기
[빅데이터분석기사][유형2] 문제유형 풀어보기(다항분류) [문제] 자동차시장 세분화 ㅇ 자동차 회사는 새로운 전략 수립을 위해 4개의 시장으로 세분화 했습니다. 기존 고객 분류 자료를 바탕으로 신규 고객이 어떤 분류에 속할 지 예측해주세요. - 데이터 : X_train, y_train, X_test - 예측값(y) : "Segmentation" (1,2,3,4) - 평가 : Macro f1-score - 제출형식 : ID, Segmentation [풀이] # 다항분류 f1-score 평가 : f1_score(y_val, pred, average='macro') # 사용 라이브러리 import import pandas as pd # x_train.csv, y_train.csv, x_test.csv 읽어오기 X_train = pd.read_csv('X_train... 더보기
[빅데이터분석기사][작업형1] 5회 기출문제 풀이(기초통계, 정렬) * 퇴근후딴짓 님의 강의를 참고하였습니다. * [문제1] 종량제 봉투 종류가 '규격봉투'이고, 종량제 봉투 용도가 '음식물쓰레기'인 2L가격 평균을 출력하시오 (단, 가격0 제외, 반올림 후 정수 출력) import pandas as pd df = pd.read_csv("5-1price.csv") # print(df.head(3)) # print(df.info()) # print(df.shape) cond1 = df['종량제봉투종류'] == '규격봉투' cond2 = df['종량제봉투용도'] == '음식물쓰레기' cond3 = df['2ℓ가격'] > 0 df = df[cond1&cond2&cond3] print(round(df['2ℓ가격'].mean())) [문제2] bmi를 계산하고, 수치가 정상인 사.. 더보기
[빅데이터분석기사] 작업형2 문제유형 (분류) * 퇴근후딴짓 님의 강의를 참고하였습니다. * [ 문제 ] 심장마비 확률이 높은 사람 ㅇ 파일 : train.csv, test.csv ㅇ 타겟 : output(1:심장마비 확률 높음, 0:심장마비 확률 낮음) ㅇ 평가 : ROC_AUC, 정확도(Accuracy), F1 ㅇ 데이터 : 성별, 나이, 혈압, 콜레스테롤, 공복혈당, 최대심박수 등의 컬럼이 있음 [ 풀이 ] 1. 라이브러리 데이터 불러오기 2. EDA import pandas as pd train = pd.read_csv('train.csv') test = pd.read_csv('test.csv') print(train.shape, test.shape) train.head(2) test.head(2) train.isnull().sum() tes.. 더보기
[빅데이터분석기사] 작업형2 문제유형 (회귀) * 퇴근후딴짓 님의 강의를 참고하였습니다. * [ 문제 ] 에어비앤비 가격 ㅇ 데이터 : train.csv, test.csv ㅇ 타겟 : price(가격) [ 풀이 ] 1. 라이브러리 및 데이터 불러오기 import pandas as pd train = pd.read_csv('train.csv') test = pd.read_csv('test.csv') print(train.shape, test.shape) 2. EDA train.head(3) test.head(2) train.isnull().sum() test.isnull().sum() train['price'].describe() #그림을 그릴 수 없어서 대략적인 분포 확인 train.info() 3. 데이터전처리 및 피처엔지니어링 ㅇ 결측치 처리 t.. 더보기
[빅데이터분석기사] 작업형3 가설검정 이론 및 프로세스 * 퇴근후딴짓 님의 강의를 참고하였습니다. * 1. 모집단과 표본 ㅇ 모집단 : 집단 전체 ㅇ 표본 : 모집단을 대표하는 집합 2. 가설검정 ㅇ 모집단에 대한 가설이 적합한지 추출한 표본데이터로부터 판단하는 통계적 추론 - 귀무가설 H0 : 기존에 알려진 가설 - 대립가설 H1 : 새로 밝히려는 가설 -> 귀무가설 채택 : 귀무가설을 기각하지 못한다. -> 대릭가설 채택 : 귀무가설을 기각한다 (통계적으로 유의하다) ㅇ 가설검정의 오류 검정결과 H0 채택 H1 채택 (H0기각) 실제 H0 참 올바른 판단(1-a) 제1종 오류(a) H1 참 제2종 오류(b) 올바른 판단(1-b) ㅇ 가설검정 과정 - 통계적 가설 설정(귀무가설 H0, 대립가설 H1) ex. yd : 치료후 혈압 - 치료전 혈압의 평균일 때.. 더보기