본문 바로가기

자격증공부/빅데이터분석기사

[빅데이터분석기사] 작업형1 기출문제 2회 (이상치, 기초통계)

320x100

빅데이터분석기사

* 인프런의 '퇴근후 딴짓' 님의 강의를 참고하였습니다. *

 

[문제1] 주어진 데이터셋의 'views' 컬럼 상위 10개 데이터를 상위 10번째 값으로 대체한 후 'age' 컬럼에서 80이상인 데이터의 'views' 컬럼의 평균 값 구하기

 # 라이브러리, 데이터 읽어오기

 # views 컬럼 기준으로 내림차순 정렬 후 상위 10번째 값 찾기

 # views 컬럼 상위 10개값을 02에서 찾은 값으로 대체하기

 # age 컬럼이 80 이상인 데이터의 view 컬럼 평균 값 구하기 

 #01. 라이브러리, 데이터 읽어오기
 import pandas as pd
 df = pd.read_csv('member.csv')
 df.head(10)

 #02. views 컬럼 기준으로 내림차순 정렬 후 상위 10번째 값 찾기
df = df.sort_values('veiws', ascending=False)
min_value = df['views'].iloc[9]
# print(min_value)

 #03. views 컬럼 상위 10개값을 02에서 찾은 값으로 대체하기
df.iloc[:10,-1] = min_value
# df.head(12)

 #04. age 컬럼이 80 이상인 데이터의 views 컬럼 평균 값 구하기 
 cond = df['age'] >=80
 print(df[cond]['views'].mean())

 

빅데이터분석기사빅데이터분석기사

320x100

[문제2] 주어진 데이터셋의 앞에서부터 순서대로 80% 데이터만 활룡해 'f1' 컬럼 결측치를 중앙값으로 채우기 전/후의 표준편차를 구하고, 두 표준편차 차이 계산하기(단, 두 표준편차 차이는 절대값으로 계산)

# 라이브러리, 데이터 읽어오기

# 80% 데이터만 활용하기

# f1 컬럼 표준편차 구하기(전)

# f1컬럼 결측치 확인 및 중앙값으로 채우기

# f1컬럼 표준편차 구하기(후)

# 두 표준편차 차이 절대값 구하기

# 라이브러리, 데이터 읽어오기
import pandas as pd
df = pd.read_csv('members.csv')

# 80% 데이터만 활용하기
a = int(len(df)*0.8)
#type(a)
df = df.iloc[:a]
#df

# f1 컬럼 표준편차 구하기(전)
std1 = df['f1'].std()
# print(std1)

# f1컬럼 결측치 확인 및 중앙값으로 채우기
# df.isnull().sum()
med = df['f1'].median()
df['f1']=df['f1'].isnull().fillna(med)

# f1컬럼 표준편차 구하기(후)
std2 = df['f1'].std()
# print(std2)

# 두 표준편차 차이 절대값 구하기
print(abs(std1-std2))

 

빅데이터분석기사빅데이터분석기사

반응형

[문제3] 주어진 데이터셋의 'age' 컬럼의 이상치를 모두 더하시오. 단, 평균으로부터 표준편차*1.5를 벗어나는 영역 이상치라고 판단함.

# 라이브러리, 데이터 읽어오기

# 평균, 표준편차*1.5 값 구하기

# 이상치 최소, 최대값 정의하기

# age 컬럼의 이상치 구해서 더하기

# 라이브러리, 데이터 읽어오기
import pandas as pd
df = pd.read_csv('member.csv')

# 평균, 표준편차*1.5 값 구하기
m = df['age'].mean()
s = df['age'].std()*1.5
# print(m, s)

# 이상치 최소, 최대값 정의하기
lower = m-s
upper = m+s
# print(lower, upper)

# age 컬럼의 이상치 구해서 더하기
cond1 = df['age'] <= lower
cond2 = df['age'] >= upper
# df[cond1|cond2]
print(df[cond1|cond2]['age'].sum())

빅데이터분석기사빅데이터분석기사

 

2023.06.12 - [자격증공부/빅데이터분석기사] - [빅데이터분석기사][작업형1] 판다스 문법 활용 요약

 

[빅데이터분석기사][작업형1] 판다스 문법 활용 요약

1. 라이브러리 및 데이터 읽어오기 ㅇ 컬럼명 확인할 수 있도록 세팅하기 import pandas as pd df = pd.read_csv('ㅇㅇㅇㅇ.csv') pd.set_option('display.max_columns', None) #컬럼명 전부 확인할 수 있도록 셋팅하기 2.

inform.workhyo.com

 

320x100
반응형