본문 바로가기

전체 글

[빅데이터분석기사] 작업형1 문제유형 (기초통계, 그룹통계, 날짜) * 퇴근후딴짓 님의 강의를 참고하였습니다. * [문제 1] index '2001' 데이터(행)의 평균보다 큰 값의 수와 index'2003' 데이터(행)의 평균보다 작은 값의 수를 더하시오. df = pd.read_csv("data.csv", index_col="Unnamed: 0") # print(df.head(2)) m2001 = df.loc[2001].mean() # print(m2001) cond = df.loc[2001] > m2001 r1 = sum(cond) #True인것만 합해서 구해줌 m2003 = df.loc[2003].mean() cond = df.loc[2003] < m2003 r2 = sum(cond) print(r1+r2) [문제 2] 결측값을 가진 데이터는 바로 뒤에 있는 값으.. 더보기
[빅데이터분석기사] 작업형1 문제유형 (이상치, 기초통계) * 인프런의 퇴근후딴짓 님의 강의를 참고하였습니다. * [문제1] 주어진 데이터에서 자료형(type)이 object인 컬럼은 삭제하고, 결측치는 0으로 대체한다. 행 단위로 합한 다음 그 값이 3000보다 큰 값의 데이터 수를 구하시오('age', 'f1', 'f2', 'f5', 'views'의 각 행별 합) import pandas as pd df = pd.read_csv{'members.csv') print(df.head()) ㅇ 방법1 : object 컬럼이 포함된 types 삭제 cols = df.select_dtypes(include='object').columns print(cols) df = df.drop(cols, axis=1) print(df.head()) ㅇ 방법2 : object 컬럼.. 더보기
[빅데이터분석기사] 작업형1 문제유형 (결측치) * 인프런의 '퇴근후딴짓'님의 강의를 참고하였습니다. * [문제1] f1컬럼의 결측치는 중앙값으로 대체하고, 나머지 결측치가 있는 데이터(행)을 모두 제거하고, 앞에서부터 70%데이터 중 views 컬럼의 3사분위 수에서 1사분위 수를 뺀 값을 구하시오.(단, 데이터70%지점은 정수형 변환) # 라이브러리 및 데이터 읽어오기 import pandas as pd df = pd.read_csv('members.csv') # print(df.head()) # f1 컬럼 결측치 확인 및 중앙값 찾아서 대체 # print(df.isnull().sum()) # print(df.shape) m = df['f1'].median() # print(m) df['f1'] = df['f1'].fillna(m) # print(.. 더보기
[빅데이터분석기사] 작업형1 기출문제 3회 (기초통계, 결측치) * 인프런의 '퇴근후딴짓' 님의 강의를 참고하였습니다.* [문제1] 결측치 데이터(행)을 제거하고, 앞에서부터 70% 데이터만 활용해 'f1' 컬럼 1사분위 값을 구하시오. # 라이브러리 및 데이터 읽기 # 결측치 데이터(행) 제거 : dropna() # 70% 데이터 활용 # f1 컬럼의 1사분위 값 구하기 # 라이브러리 및 데이터 읽기 import pandas as pd df = pd.read_csv('member.csv') # 결측치 데이터(행) 제거 : dropna() # print(df.isnull().sum()) # print(df.shape) df = df.dropna() # print(df.isnull().sum()) # print(df.shape) # 70% 데이터 활용 # print(i.. 더보기
[빅데이터분석기사] 작업형1 기출문제 2회 (이상치, 기초통계) * 인프런의 '퇴근후 딴짓' 님의 강의를 참고하였습니다. * [문제1] 주어진 데이터셋의 'views' 컬럼 상위 10개 데이터를 상위 10번째 값으로 대체한 후 'age' 컬럼에서 80이상인 데이터의 'views' 컬럼의 평균 값 구하기 # 라이브러리, 데이터 읽어오기 # views 컬럼 기준으로 내림차순 정렬 후 상위 10번째 값 찾기 # views 컬럼 상위 10개값을 02에서 찾은 값으로 대체하기 # age 컬럼이 80 이상인 데이터의 view 컬럼 평균 값 구하기 #01. 라이브러리, 데이터 읽어오기 import pandas as pd df = pd.read_csv('member.csv') df.head(10) #02. views 컬럼 기준으로 내림차순 정렬 후 상위 10번째 값 찾기 df = .. 더보기
[빅데이터분석기사] 작업형1 예시문제 Min-Max Scale [문제] 데이터 셋에서 qsec 컬럼을 Min-Max Scale로 변환 후 0.5보다 큰 값을 가지는 레코드(row) 수는? 1. 데이터 불러오기 import pandas as pd df = pd.read_csv('ㅇㅇㅇㅇ.csv') 2. 스케일링하기 ㅇ 방법1 : MinMaxScaler 활용 # MinMaxScaler 활용 from sklearn.preprocessing import MinMaxScaler data = load_data() scaler = MinMaxScaler() print('MinMax Scale 변환 전: \n',data['qsec'].head()) data['qsec'] = scaler.fit_transform(data[['qsec']]) print('MinMax Scale 변환.. 더보기
[빅데이터분석기사] 데이터핸들링을 위한 판다스 학습 - 작업형1 1. 판다스(pandas) : 정형데이터를 다룰 때 편리한 파이썬 패키지 - csv 파일 형태(c : 콤마)로 콤마로 데이터 구분이 된 데이터를 읽어올 수 있음 - 판다스로 csv파일을 불러오면 DataFrame 형태로 예쁘게 불러올 수 있고, range index가 0부터 붙여지게됨. - 즉, 판다스는 DataFrame 형태로 데이터를 읽어서 핸들링할 수 있는 패키지 2. 라이브러리 및 csv파일 불러와서 변수에 저장하기 ㅇ import pandas as pd ㅇ df = pd.read_csv('파일명.csv') ㅇ df.head() / df.tail() # 판다스 라이브러리 불러오기 import pandas as pd # 데이터 불러와서 변수에 담기 df = pd.read_csv('ㅇㅇㅇ.csv') .. 더보기
[빅데이터분석기사] 데이터분석을 위한 파이썬 학습 1. 데이터출력, 연산, 자료유형, 형변환, 비교, 조건문 ㅇ 주석 : # - 단축키(Windows) : Ctrl + / ㅇ 데이터 출력 : pirnt() - 숫자 : print(2022) - 문자 : 큰따옴표 or 작음따옴표 print('happy') / print("happy") ㅇ 산술연산자 : +.-,*,/, //(몫), %(나머지), **(제곱) ㅇ 자료유형 확인 : type() - 정수형(int) , 실수형(float), 문자열(str), 참/거짓(bool) ㅇ 변수를 활용하여 값 대입, 연산 가능 ㅇ 형변환 : int(문자변수명) / str(숫자변수명) - 숫자에 " "를 붙이면 문자로 인식 ㅇ 비교연산자 : > , =, ==, != ㅇ 조건문 : if ㅇㅇ: elif else: # 주석입니.. 더보기