판다스 썸네일형 리스트형 [빅데이터분석기사] 모의고사 1 (이상치, 분류(3개set), 쌍체T표본검정) * 퇴근후딴짓 님의 캐글 문제를 제가 풀어본 결과입니다. * [유형1] 이상치 찾기 -> 문제 바로가기(캐글) (문제) 데이터에서 IQR을 활용해 Fare컬럼의 이상치를 찾고, 이상치 데이터의 여성 수를 구하시오 (풀이) # 라이브러리 및 데이터 불러오기 import pandas as pd df = pd.read_csv("../input/titanic/train.csv") # EDA # print(df.head(3)) # print(df.shape) # print(df.info()) # print(df.isnull().sum()) # IQR 구하기 (IQR = Q3-Q1) # 최대 : Q3 + 1.5*IQR / 최소 : Q1-1.5*IQR Q3 = df['Fare'].quantile(.75) Q1 = d.. 더보기 [빅데이터분석기사] 작업형1 판다스 문법 활용 요약 1. 라이브러리 및 데이터 읽어오기 ㅇ 컬럼명 확인할 수 있도록 세팅하기 import pandas as pd df = pd.read_csv('ㅇㅇㅇㅇ.csv') pd.set_option('display.max_columns', None) #컬럼명 전부 확인할 수 있도록 셋팅하기 2. 데이터 탐색(EDA) # print문으로 확인하고, 나중에 주석처리하기 ㅇ 데이터 샘플 확인하기 : df.head() / df.tail(n) ㅇ 데이터프레임 크기(행/열) 확인 : df.shape ㅇ 컬럼별 데이터타입 확인 : df.info() ㅇ 기초통계 확인 : df.describe() ㅇ 데이터 항목 종류 확인 - 컬럼별 종류 수 : 변수명.nunique() - 컬럼별 항목 종류 : 변수명['컬럼명'].unique() .. 더보기 [빅데이터분석기사] 작업형1 예시문제 Min-Max Scale [문제] 데이터 셋에서 qsec 컬럼을 Min-Max Scale로 변환 후 0.5보다 큰 값을 가지는 레코드(row) 수는? 1. 데이터 불러오기 import pandas as pd df = pd.read_csv('ㅇㅇㅇㅇ.csv') 2. 스케일링하기 ㅇ 방법1 : MinMaxScaler 활용 # MinMaxScaler 활용 from sklearn.preprocessing import MinMaxScaler data = load_data() scaler = MinMaxScaler() print('MinMax Scale 변환 전: \n',data['qsec'].head()) data['qsec'] = scaler.fit_transform(data[['qsec']]) print('MinMax Scale 변환.. 더보기 [빅데이터분석기사] 데이터핸들링을 위한 판다스 학습 - 작업형1 1. 판다스(pandas) : 정형데이터를 다룰 때 편리한 파이썬 패키지 - csv 파일 형태(c : 콤마)로 콤마로 데이터 구분이 된 데이터를 읽어올 수 있음 - 판다스로 csv파일을 불러오면 DataFrame 형태로 예쁘게 불러올 수 있고, range index가 0부터 붙여지게됨. - 즉, 판다스는 DataFrame 형태로 데이터를 읽어서 핸들링할 수 있는 패키지 2. 라이브러리 및 csv파일 불러와서 변수에 저장하기 ㅇ import pandas as pd ㅇ df = pd.read_csv('파일명.csv') ㅇ df.head() / df.tail() # 판다스 라이브러리 불러오기 import pandas as pd # 데이터 불러와서 변수에 담기 df = pd.read_csv('ㅇㅇㅇ.csv') .. 더보기 이전 1 다음