본문 바로가기

자격증공부/빅데이터분석기사

[빅데이터분석기사] 데이터분석을 위한 파이썬 학습

320x100

빅데이터분석기사

 

1. 데이터출력, 연산, 자료유형, 형변환, 비교, 조건문

ㅇ 주석 : #

 - 단축키(Windows) : Ctrl + / 

ㅇ 데이터 출력 : pirnt()

 - 숫자 : print(2022)

 - 문자 : 큰따옴표 or 작음따옴표 print('happy') / print("happy")

ㅇ 산술연산자 : +.-,*,/, //(몫), %(나머지), **(제곱)

ㅇ 자료유형 확인 : type()

 - 정수형(int) , 실수형(float), 문자열(str), 참/거짓(bool)

ㅇ 변수를 활용하여 값 대입, 연산 가능

ㅇ 형변환 : int(문자변수명) / str(숫자변수명)

 - 숫자에 " "를 붙이면 문자로 인식

ㅇ 비교연산자 : > , <, >=, ==, !=

ㅇ 조건문 : if ㅇㅇ: elif else:

# 주석입니다

# 데이터출력
print(2022)
print("happy")
print('hello')

# 산술연산자
print(1+2)
print(3.14+5)
print("he"+"llo")
16//3
16%3
4**2

# 자료유형 확인
type(1)
type(3.14)
type('hello')
type(True)

# 변수활용
box = 10
print(box)
box2 = 20
print(box+box2)
box3 = box + box2
print(box3)

# 형변환
box = "15"
type(box)
box = int(box) + 10
type(box)
type(str(box))
box = "60"
int(box)

# 조건문
box = 2
if box >= 10:
	print("box는 10 이상입니다.")
elif box < 10 and box >=5:
	print("box는 5이상 10미만입니다.")
else:
	print("box는 5미만입니다.")
320x100

 

2. 리스트, 딕셔너리, 인덱싱과 슬리이싱, 내장함수

ㅇ 리스트 : [a,b,c,d]

 - 데이터 추가 : 변수명.append(데이터)

 - 데이터 정렬 : 변수명.sort()

ㅇ 딕셔터리 : {'key' : '값", 'key' : '값}

 - 키 값 확인 : 변수명.keys()

 - 밸류 값 확인 : 변수명.values()

ㅇ 인덱싱과 슬라이싱 : 0번부터 시작, 마지막값[-1], 범위[0:3]

ㅇ 내장함수

 - sum(변수), max(변수), min(변수),

 - 길이, 갯수 : len(변수)

 - 반올림 : round(변수, 자릿수)

 - 문자열변경 : .replace("대상문자", "변경할 문자")

# 리스트
listbox = [4,2,10,6,8]
print(listbox)
type(listbox)
listbox2 = ['네모', '세모', '동그라미']
print(listbox2)
listbox2.appedn('별') # 데이터추가
print(listbox2)
listbox3 = [4,2,10,6,8]
listbox3.sort() # 정렬

# 딕셔너리
dictbox = {'name':'네모', 'level':5}
print(dictbox)
type(dictbox)
print(dictbox['name'])
print(dictbox['level'])
dictbox['level'] = 6
dictbox['level']
dictbox.keys()
dictbox.values()

# 인덱싱과 슬라이싱
listbox = [2,4,6,8,10]
print(listbox[0])
print(listbox[-1])
print(listbox[0:3])
print(listbox[3:])
listbox[::2]

# 함수
listbox = [4,2,10,6,8]
sum(listbox)
max(listbox)
min(listbox)
len(listbox)
round(1.2324, 2)

text = "빅데이터 분석기사 파이썬 공부"
text = text.replace("공부", "스터디")
text
text = text.replace("파이썬", "머신러닝").replace("분석기사", "분석을 위한")
text

text = "안녕하세요"
text[:2]

date = "2023-05-15"
date[5:7]
date[5:]
반응형

 

3. 반복문

ㅇ 반복문 : for item in 리스트 등 변수:

for item in range(5):
	print(item)
    
for i in range(5,10):
	print(i)

listbox = [2,4,6,8,10]
for item in listbox:
	print(item)

listbox = [2, 4, 6, 8, 10]
for item in listbox:
	result = item + 1
    print(result)

listbox = ['네모', '세모', '동그라미']
for i in listbox:
	print(i)

listbox = ['네모', '세모', '동그라미', '별']
for index, item in enumerate(listbox):
	print(index)
    print(item)

for index, item in enumerate(listbox):
	print(f'인덱스 {index}인 값은 {item} 입니다.)

 

4. 함수

ㅇ 함수 정의 : def 함수명():

# 함수정의
def hello():
	print("안녕하세요")

# 함수(파라미터)
def plus(x, y):
	print(x+y)

a=2
b=3
plus(a,b)

# 함수(리턴 값)
def plus(x,y):
	result = x+y
    return result

a = plus(2,3)
print(a)

# 리턴값이 2개
listbox = [15, 46, 78, 24, 56]
def min_max(data):
	mi = min(data)
    ma = max(data)
    return mi, ma

a, b = min_max(listbox)
print(a,b)

# 평균 구하는 함수
listbox = [15, 46, 78, 24, 56]
def mean(data):
	return sum(data) / len(data)
mean(listbox)

# 최대값 - 최소값 구하는 함수
def maxmin(data):
	return max(data) - min(data)
maxmin(listbox)

 

5. 판다스

 

ㅇ 빅데이터 계산을 위한 파이썬 패키지에는 넘파이(Numpy)가 있으며, 넘파이 데이터에 라벨을 붙여 행과 열의 라벨로 데이터를 분석하고 처리할 수 있도록 한 것이 판다스(Pansda)

ㅇ 판다스 데이터 구조 : Series와 Data Frame 구조를 지원함

 - Series : 1차원 배열 구조로 모든 값이 고유한 인덱스를 가지며 하나의 데이터 형식으로 이루어짐

index  
index  
index  
index  

 - DataFrame : 행과 열로 이루어진 2차원 배열 구조로 각 행은 인덱스를 가지며, 각 열은 이름과 형식을 가짐. 각 열은 서로 다른 데이터 타입을 지닐 수 있음.

  column column column
index      
index      
index      

 

6. DataFrame 

ㅇ 패키지 설치 및 호출

pip install pandas   # pandas 패키지 설치

import pandas as pd    # pandas 모듈을 호출하며 앞으로 이 모듈을 'pd'라는 약칭으로 사용

ㅇ DataFrame 선언(list, dictionary, ndarray 등의 데이터 타입 사용 가능)

dataset = np.array([['kor',70],['math]])

df = pd.DataFrame(dataset, columns['class', 'score'])

df

ㅇ DataFrame 읽고 저장하기 : read_csv() / to_csv()

ㅇ DataFrame 출력 : head() / tail()

ㅇ DataFrame 요약, 통계정보 확인 : info() / describe()

 - describe() : 수치형 데이터의 개수, 평균, 표쥰편차, 최솟값, 제1사분위값, 제2사분위값(중앙값), 제3사분위값, 최댓값 제공

ㅇ DataFrame 인덱스 확인, 추가, 리셋 : set_index() / reset_indes()

 - set_index() : DataFrame 내 열을 인데스로 변경

 - reset_index() : 인덱스를 0부터 시작하는 정수로 재설정

ㅇ DataFrame 컬럼명 확인 및 변경 : columns / replace()

ㅇ DataFrame 컬럼의 데이터 타입확인 및 변경

 - dtypes : 컬럼 데이터 타입 확인

 - astype() : 데이터 타입 변경

ㅇ row/column 선택

 - row 선택 : DataFrame[n:m]

 - column 선택 : DataFrame['컬럼명1', '컬럼명2']]

 

 

2023.05.07 - [자격증공부/빅데이터분석기사] - [빅데이터분석기사] 빅데이터분석기사 시험정보

 

[빅데이터분석기사] 빅데이터분석기사 시험정보

[자격증 소개] ㅇ 소개 : 빅데이터 이해를 기반으로 빅데이터 분석기획, 빅데이터 수집/저장/처리, 빅데이터 분석 및 시각화를 수행하는 실무자를 빅데이터분석기사라고 정의한다. ㅇ 주관 : 한

inform.workhyo.com

 

2023.05.18 - [자격증공부/빅데이터분석기사] - [빅데이터분석기사][작업형1] 데이터핸들링을 위한 판다스 학습하기

 

[빅데이터분석기사][작업형1] 데이터핸들링을 위한 판다스 학습하기

1. 판다스(pandas) : 정형데이터를 다룰 때 편리한 파이썬 패키지 - csv 파일 형태(c : 콤마)로 콤마로 데이터 구분이 된 데이터를 읽어올 수 있음 - 판다스로 csv파일을 불러오면 DataFrame 형태로 예쁘게

inform.workhyo.com

 

320x100
반응형