1. 데이터출력, 연산, 자료유형, 형변환, 비교, 조건문
ㅇ 주석 : #
- 단축키(Windows) : Ctrl + /
ㅇ 데이터 출력 : pirnt()
- 숫자 : print(2022)
- 문자 : 큰따옴표 or 작음따옴표 print('happy') / print("happy")
ㅇ 산술연산자 : +.-,*,/, //(몫), %(나머지), **(제곱)
ㅇ 자료유형 확인 : type()
- 정수형(int) , 실수형(float), 문자열(str), 참/거짓(bool)
ㅇ 변수를 활용하여 값 대입, 연산 가능
ㅇ 형변환 : int(문자변수명) / str(숫자변수명)
- 숫자에 " "를 붙이면 문자로 인식
ㅇ 비교연산자 : > , <, >=, ==, !=
ㅇ 조건문 : if ㅇㅇ: elif else:
# 주석입니다
# 데이터출력
print(2022)
print("happy")
print('hello')
# 산술연산자
print(1+2)
print(3.14+5)
print("he"+"llo")
16//3
16%3
4**2
# 자료유형 확인
type(1)
type(3.14)
type('hello')
type(True)
# 변수활용
box = 10
print(box)
box2 = 20
print(box+box2)
box3 = box + box2
print(box3)
# 형변환
box = "15"
type(box)
box = int(box) + 10
type(box)
type(str(box))
box = "60"
int(box)
# 조건문
box = 2
if box >= 10:
print("box는 10 이상입니다.")
elif box < 10 and box >=5:
print("box는 5이상 10미만입니다.")
else:
print("box는 5미만입니다.")
2. 리스트, 딕셔너리, 인덱싱과 슬리이싱, 내장함수
ㅇ 리스트 : [a,b,c,d]
- 데이터 추가 : 변수명.append(데이터)
- 데이터 정렬 : 변수명.sort()
ㅇ 딕셔터리 : {'key' : '값", 'key' : '값}
- 키 값 확인 : 변수명.keys()
- 밸류 값 확인 : 변수명.values()
ㅇ 인덱싱과 슬라이싱 : 0번부터 시작, 마지막값[-1], 범위[0:3]
ㅇ 내장함수
- sum(변수), max(변수), min(변수),
- 길이, 갯수 : len(변수)
- 반올림 : round(변수, 자릿수)
- 문자열변경 : .replace("대상문자", "변경할 문자")
# 리스트
listbox = [4,2,10,6,8]
print(listbox)
type(listbox)
listbox2 = ['네모', '세모', '동그라미']
print(listbox2)
listbox2.appedn('별') # 데이터추가
print(listbox2)
listbox3 = [4,2,10,6,8]
listbox3.sort() # 정렬
# 딕셔너리
dictbox = {'name':'네모', 'level':5}
print(dictbox)
type(dictbox)
print(dictbox['name'])
print(dictbox['level'])
dictbox['level'] = 6
dictbox['level']
dictbox.keys()
dictbox.values()
# 인덱싱과 슬라이싱
listbox = [2,4,6,8,10]
print(listbox[0])
print(listbox[-1])
print(listbox[0:3])
print(listbox[3:])
listbox[::2]
# 함수
listbox = [4,2,10,6,8]
sum(listbox)
max(listbox)
min(listbox)
len(listbox)
round(1.2324, 2)
text = "빅데이터 분석기사 파이썬 공부"
text = text.replace("공부", "스터디")
text
text = text.replace("파이썬", "머신러닝").replace("분석기사", "분석을 위한")
text
text = "안녕하세요"
text[:2]
date = "2023-05-15"
date[5:7]
date[5:]
3. 반복문
ㅇ 반복문 : for item in 리스트 등 변수:
for item in range(5):
print(item)
for i in range(5,10):
print(i)
listbox = [2,4,6,8,10]
for item in listbox:
print(item)
listbox = [2, 4, 6, 8, 10]
for item in listbox:
result = item + 1
print(result)
listbox = ['네모', '세모', '동그라미']
for i in listbox:
print(i)
listbox = ['네모', '세모', '동그라미', '별']
for index, item in enumerate(listbox):
print(index)
print(item)
for index, item in enumerate(listbox):
print(f'인덱스 {index}인 값은 {item} 입니다.)
4. 함수
ㅇ 함수 정의 : def 함수명():
# 함수정의
def hello():
print("안녕하세요")
# 함수(파라미터)
def plus(x, y):
print(x+y)
a=2
b=3
plus(a,b)
# 함수(리턴 값)
def plus(x,y):
result = x+y
return result
a = plus(2,3)
print(a)
# 리턴값이 2개
listbox = [15, 46, 78, 24, 56]
def min_max(data):
mi = min(data)
ma = max(data)
return mi, ma
a, b = min_max(listbox)
print(a,b)
# 평균 구하는 함수
listbox = [15, 46, 78, 24, 56]
def mean(data):
return sum(data) / len(data)
mean(listbox)
# 최대값 - 최소값 구하는 함수
def maxmin(data):
return max(data) - min(data)
maxmin(listbox)
5. 판다스
ㅇ 빅데이터 계산을 위한 파이썬 패키지에는 넘파이(Numpy)가 있으며, 넘파이 데이터에 라벨을 붙여 행과 열의 라벨로 데이터를 분석하고 처리할 수 있도록 한 것이 판다스(Pansda)
ㅇ 판다스 데이터 구조 : Series와 Data Frame 구조를 지원함
- Series : 1차원 배열 구조로 모든 값이 고유한 인덱스를 가지며 하나의 데이터 형식으로 이루어짐
index | |
index | |
index | |
index |
- DataFrame : 행과 열로 이루어진 2차원 배열 구조로 각 행은 인덱스를 가지며, 각 열은 이름과 형식을 가짐. 각 열은 서로 다른 데이터 타입을 지닐 수 있음.
column | column | column | |
index | |||
index | |||
index |
6. DataFrame
ㅇ 패키지 설치 및 호출
pip install pandas # pandas 패키지 설치
import pandas as pd # pandas 모듈을 호출하며 앞으로 이 모듈을 'pd'라는 약칭으로 사용
ㅇ DataFrame 선언(list, dictionary, ndarray 등의 데이터 타입 사용 가능)
dataset = np.array([['kor',70],['math]])
df = pd.DataFrame(dataset, columns['class', 'score'])
df
ㅇ DataFrame 읽고 저장하기 : read_csv() / to_csv()
ㅇ DataFrame 출력 : head() / tail()
ㅇ DataFrame 요약, 통계정보 확인 : info() / describe()
- describe() : 수치형 데이터의 개수, 평균, 표쥰편차, 최솟값, 제1사분위값, 제2사분위값(중앙값), 제3사분위값, 최댓값 제공
ㅇ DataFrame 인덱스 확인, 추가, 리셋 : set_index() / reset_indes()
- set_index() : DataFrame 내 열을 인데스로 변경
- reset_index() : 인덱스를 0부터 시작하는 정수로 재설정
ㅇ DataFrame 컬럼명 확인 및 변경 : columns / replace()
ㅇ DataFrame 컬럼의 데이터 타입확인 및 변경
- dtypes : 컬럼 데이터 타입 확인
- astype() : 데이터 타입 변경
ㅇ row/column 선택
- row 선택 : DataFrame[n:m]
- column 선택 : DataFrame['컬럼명1', '컬럼명2']]
2023.05.07 - [자격증공부/빅데이터분석기사] - [빅데이터분석기사] 빅데이터분석기사 시험정보
2023.05.18 - [자격증공부/빅데이터분석기사] - [빅데이터분석기사][작업형1] 데이터핸들링을 위한 판다스 학습하기
'자격증공부 > 빅데이터분석기사' 카테고리의 다른 글
[빅데이터분석기사] 작업형1 기출문제 3회 (기초통계, 결측치) (0) | 2023.05.22 |
---|---|
[빅데이터분석기사] 작업형1 기출문제 2회 (이상치, 기초통계) (0) | 2023.05.21 |
[빅데이터분석기사] 작업형1 예시문제 Min-Max Scale (0) | 2023.05.20 |
[빅데이터분석기사] 데이터핸들링을 위한 판다스 학습 - 작업형1 (0) | 2023.05.18 |
[빅데이터분석기사] 빅데이터분석기사 시험정보 (0) | 2023.05.07 |