작업형1 썸네일형 리스트형 [빅데이터분석기사][작업형1] 4회 기출문제 풀이(기초통계, 날짜) * 퇴근후딴짓 님의 강의를 참고하였습니다. * [문제1] age 컬럼의 3사분위수와 1사분위수의 차를 절대값으로 구하고, 소수점 버려서, 정수로 출력 import pandas as pd df = pd.read_csv("basic1.csv") # print(df.head(3)) # print(df.info()) a = df['age'].quantile(.75) b = df['age'].quantile(.25) print(int(abs(a-b))) * 사분위값 : df['컬럼명'].quantile(.25) * 절대값 : abs(값) * 정수형으로 출력 : int(값) [문제2] (loves반응+wows반응)/(reactions반응) 비율이 0.4보다 크고 0.5보다 작으면서, type 컬럼이 'video'인.. 더보기 [빅데이터분석기사][작업형1] 5회 기출문제 풀이(기초통계, 정렬) * 퇴근후딴짓 님의 강의를 참고하였습니다. * [문제1] 종량제 봉투 종류가 '규격봉투'이고, 종량제 봉투 용도가 '음식물쓰레기'인 2L가격 평균을 출력하시오 (단, 가격0 제외, 반올림 후 정수 출력) import pandas as pd df = pd.read_csv("5-1price.csv") # print(df.head(3)) # print(df.info()) # print(df.shape) cond1 = df['종량제봉투종류'] == '규격봉투' cond2 = df['종량제봉투용도'] == '음식물쓰레기' cond3 = df['2ℓ가격'] > 0 df = df[cond1&cond2&cond3] print(round(df['2ℓ가격'].mean())) [문제2] bmi를 계산하고, 수치가 정상인 사.. 더보기 [빅데이터분석기사] 작업형1 판다스 문법 활용 요약 1. 라이브러리 및 데이터 읽어오기 ㅇ 컬럼명 확인할 수 있도록 세팅하기 import pandas as pd df = pd.read_csv('ㅇㅇㅇㅇ.csv') pd.set_option('display.max_columns', None) #컬럼명 전부 확인할 수 있도록 셋팅하기 2. 데이터 탐색(EDA) # print문으로 확인하고, 나중에 주석처리하기 ㅇ 데이터 샘플 확인하기 : df.head() / df.tail(n) ㅇ 데이터프레임 크기(행/열) 확인 : df.shape ㅇ 컬럼별 데이터타입 확인 : df.info() ㅇ 기초통계 확인 : df.describe() ㅇ 데이터 항목 종류 확인 - 컬럼별 종류 수 : 변수명.nunique() - 컬럼별 항목 종류 : 변수명['컬럼명'].unique() .. 더보기 [빅데이터분석기사] 작업형1 문제유형 (결측치) * 인프런의 '퇴근후딴짓'님의 강의를 참고하였습니다. * [문제1] f1컬럼의 결측치는 중앙값으로 대체하고, 나머지 결측치가 있는 데이터(행)을 모두 제거하고, 앞에서부터 70%데이터 중 views 컬럼의 3사분위 수에서 1사분위 수를 뺀 값을 구하시오.(단, 데이터70%지점은 정수형 변환) # 라이브러리 및 데이터 읽어오기 import pandas as pd df = pd.read_csv('members.csv') # print(df.head()) # f1 컬럼 결측치 확인 및 중앙값 찾아서 대체 # print(df.isnull().sum()) # print(df.shape) m = df['f1'].median() # print(m) df['f1'] = df['f1'].fillna(m) # print(.. 더보기 [빅데이터분석기사] 작업형1 기출문제 3회 (기초통계, 결측치) * 인프런의 '퇴근후딴짓' 님의 강의를 참고하였습니다.* [문제1] 결측치 데이터(행)을 제거하고, 앞에서부터 70% 데이터만 활용해 'f1' 컬럼 1사분위 값을 구하시오. # 라이브러리 및 데이터 읽기 # 결측치 데이터(행) 제거 : dropna() # 70% 데이터 활용 # f1 컬럼의 1사분위 값 구하기 # 라이브러리 및 데이터 읽기 import pandas as pd df = pd.read_csv('member.csv') # 결측치 데이터(행) 제거 : dropna() # print(df.isnull().sum()) # print(df.shape) df = df.dropna() # print(df.isnull().sum()) # print(df.shape) # 70% 데이터 활용 # print(i.. 더보기 [빅데이터분석기사] 작업형1 기출문제 2회 (이상치, 기초통계) * 인프런의 '퇴근후 딴짓' 님의 강의를 참고하였습니다. * [문제1] 주어진 데이터셋의 'views' 컬럼 상위 10개 데이터를 상위 10번째 값으로 대체한 후 'age' 컬럼에서 80이상인 데이터의 'views' 컬럼의 평균 값 구하기 # 라이브러리, 데이터 읽어오기 # views 컬럼 기준으로 내림차순 정렬 후 상위 10번째 값 찾기 # views 컬럼 상위 10개값을 02에서 찾은 값으로 대체하기 # age 컬럼이 80 이상인 데이터의 view 컬럼 평균 값 구하기 #01. 라이브러리, 데이터 읽어오기 import pandas as pd df = pd.read_csv('member.csv') df.head(10) #02. views 컬럼 기준으로 내림차순 정렬 후 상위 10번째 값 찾기 df = .. 더보기 [빅데이터분석기사] 작업형1 예시문제 Min-Max Scale [문제] 데이터 셋에서 qsec 컬럼을 Min-Max Scale로 변환 후 0.5보다 큰 값을 가지는 레코드(row) 수는? 1. 데이터 불러오기 import pandas as pd df = pd.read_csv('ㅇㅇㅇㅇ.csv') 2. 스케일링하기 ㅇ 방법1 : MinMaxScaler 활용 # MinMaxScaler 활용 from sklearn.preprocessing import MinMaxScaler data = load_data() scaler = MinMaxScaler() print('MinMax Scale 변환 전: \n',data['qsec'].head()) data['qsec'] = scaler.fit_transform(data[['qsec']]) print('MinMax Scale 변환.. 더보기 이전 1 다음