본문 바로가기

파이썬

[빅데이터분석기사] 모의고사 1 (이상치, 분류(3개set), 쌍체T표본검정) * 퇴근후딴짓 님의 캐글 문제를 제가 풀어본 결과입니다. * [유형1] 이상치 찾기 -> 문제 바로가기(캐글) (문제) 데이터에서 IQR을 활용해 Fare컬럼의 이상치를 찾고, 이상치 데이터의 여성 수를 구하시오 (풀이) # 라이브러리 및 데이터 불러오기 import pandas as pd df = pd.read_csv("../input/titanic/train.csv") # EDA # print(df.head(3)) # print(df.shape) # print(df.info()) # print(df.isnull().sum()) # IQR 구하기 (IQR = Q3-Q1) # 최대 : Q3 + 1.5*IQR / 최소 : Q1-1.5*IQR Q3 = df['Fare'].quantile(.75) Q1 = d.. 더보기
[빅데이터분석기사] 작업형1 문제유형 (결측치) * 인프런의 '퇴근후딴짓'님의 강의를 참고하였습니다. * [문제1] f1컬럼의 결측치는 중앙값으로 대체하고, 나머지 결측치가 있는 데이터(행)을 모두 제거하고, 앞에서부터 70%데이터 중 views 컬럼의 3사분위 수에서 1사분위 수를 뺀 값을 구하시오.(단, 데이터70%지점은 정수형 변환) # 라이브러리 및 데이터 읽어오기 import pandas as pd df = pd.read_csv('members.csv') # print(df.head()) # f1 컬럼 결측치 확인 및 중앙값 찾아서 대체 # print(df.isnull().sum()) # print(df.shape) m = df['f1'].median() # print(m) df['f1'] = df['f1'].fillna(m) # print(.. 더보기
[빅데이터분석기사] 데이터핸들링을 위한 판다스 학습 - 작업형1 1. 판다스(pandas) : 정형데이터를 다룰 때 편리한 파이썬 패키지 - csv 파일 형태(c : 콤마)로 콤마로 데이터 구분이 된 데이터를 읽어올 수 있음 - 판다스로 csv파일을 불러오면 DataFrame 형태로 예쁘게 불러올 수 있고, range index가 0부터 붙여지게됨. - 즉, 판다스는 DataFrame 형태로 데이터를 읽어서 핸들링할 수 있는 패키지 2. 라이브러리 및 csv파일 불러와서 변수에 저장하기 ㅇ import pandas as pd ㅇ df = pd.read_csv('파일명.csv') ㅇ df.head() / df.tail() # 판다스 라이브러리 불러오기 import pandas as pd # 데이터 불러와서 변수에 담기 df = pd.read_csv('ㅇㅇㅇ.csv') .. 더보기
[빅데이터분석기사] 데이터분석을 위한 파이썬 학습 1. 데이터출력, 연산, 자료유형, 형변환, 비교, 조건문 ㅇ 주석 : # - 단축키(Windows) : Ctrl + / ㅇ 데이터 출력 : pirnt() - 숫자 : print(2022) - 문자 : 큰따옴표 or 작음따옴표 print('happy') / print("happy") ㅇ 산술연산자 : +.-,*,/, //(몫), %(나머지), **(제곱) ㅇ 자료유형 확인 : type() - 정수형(int) , 실수형(float), 문자열(str), 참/거짓(bool) ㅇ 변수를 활용하여 값 대입, 연산 가능 ㅇ 형변환 : int(문자변수명) / str(숫자변수명) - 숫자에 " "를 붙이면 문자로 인식 ㅇ 비교연산자 : > , =, ==, != ㅇ 조건문 : if ㅇㅇ: elif else: # 주석입니.. 더보기