본문 바로가기

데이터분석

[빅데이터분석기사] 데이터핸들링을 위한 판다스 학습 - 작업형1 1. 판다스(pandas) : 정형데이터를 다룰 때 편리한 파이썬 패키지 - csv 파일 형태(c : 콤마)로 콤마로 데이터 구분이 된 데이터를 읽어올 수 있음 - 판다스로 csv파일을 불러오면 DataFrame 형태로 예쁘게 불러올 수 있고, range index가 0부터 붙여지게됨. - 즉, 판다스는 DataFrame 형태로 데이터를 읽어서 핸들링할 수 있는 패키지 2. 라이브러리 및 csv파일 불러와서 변수에 저장하기 ㅇ import pandas as pd ㅇ df = pd.read_csv('파일명.csv') ㅇ df.head() / df.tail() # 판다스 라이브러리 불러오기 import pandas as pd # 데이터 불러와서 변수에 담기 df = pd.read_csv('ㅇㅇㅇ.csv') .. 더보기
[빅데이터분석기사] 데이터분석을 위한 파이썬 학습 1. 데이터출력, 연산, 자료유형, 형변환, 비교, 조건문 ㅇ 주석 : # - 단축키(Windows) : Ctrl + / ㅇ 데이터 출력 : pirnt() - 숫자 : print(2022) - 문자 : 큰따옴표 or 작음따옴표 print('happy') / print("happy") ㅇ 산술연산자 : +.-,*,/, //(몫), %(나머지), **(제곱) ㅇ 자료유형 확인 : type() - 정수형(int) , 실수형(float), 문자열(str), 참/거짓(bool) ㅇ 변수를 활용하여 값 대입, 연산 가능 ㅇ 형변환 : int(문자변수명) / str(숫자변수명) - 숫자에 " "를 붙이면 문자로 인식 ㅇ 비교연산자 : > , =, ==, != ㅇ 조건문 : if ㅇㅇ: elif else: # 주석입니.. 더보기
[ADsP] (3과목) 데이터분석 - 군집분석과 연관분석 기출문제 1. 군집분석을 실시하기 위한 여러 거리 측도 중 범주형 데이터 거리를 계산하기 위한 측도는 무엇인가? ① 유클리디안 거리 ② 자카드 거리 ③ 맨하튼 거리 ④ 표준화 거리 ※ 정답 : 2번 2. 아래의 표를 보고 두 데이터 A와 B의 맨하튼 거리와 체비셰프 거리를 바르게 구한 것은? 맨하튼 거리 체비셰프 거리 ① 9 29 ② 4 29 ③ 9 4 ④ 4 4 ※ 정답 : 3번 - 맨하튼 : 차이 값들의 합 =2+3+4 = 9 - 체비셰프 : 최대값인 4 3. 다음 중 계층적 군집분석에 대한 설명으로 부적절한 것은 무엇인가? ① 범주형 데이터에서도 거리 측정이 가능하므로 분석 기법을 적용할 수 있다. ② R에서 최장연결법으로 수행하기 위해서는 complete를 사용한다. ③ 최장연결법은 가장 거리가 먼 데이터.. 더보기
[ADsP] (3과목) 데이터 분석 - 군집분석과 연관분석 요약 1.개요 ㅇ 비지도 학습 중 하나로 여러 변수로 표현된 데이터들 사이의 유사성을 측정하고 몇 개의 군집으로 나누어 특징을 파악하는 기법. 생물학에서 종의 분류, 마케팅에서의 시장 세분화 및 고객 성향 분석, 추천 시스템을 위한 협업 필터링 등 서비스의 기반을 제공 2. 종류 ㅇ 계층적 군집분석 : 병합적 방법 ㅇ 비계층적 군집분석 : 계층을 보유하지 않음. K평균 군집 3. 거리측도 ㅇ 연속형 변수 - 유클리디안 거리 : 두 점 사이의 거리를 계산하는 대표적인 방법으로 통계적 개념이 포함되지 않아 변수들의 산포 정도를 고려하지 않음 (가장 가까운 거리) - 맨하튼 거리 : 시가거리라고도 하며 도시에서 최단 거리를 구하듯 각 변수들의 차이의 단순 합으로 계산한 거리 - 체비셰프 거리 : 변수간 거리 차이 .. 더보기
[ADsP] (3과목) 데이터 분석 - 통계분석 Part1 요약 1. 통계와 통계분석 ㅇ 통계 : 분석하고자 하는 집단에 대해 조사하거나 실험을 통해 자료의 요약된 형태의 데이터를 추출, 불확실한 상황에서 효과적인 의사결정을 할 수 있도록 수치자료를 수집하고 분석하는 학문 ㅇ 통계분석 : 목적에 맞게 특정 대상으로부터 데이터를 획득하고, 적절한 통계기법을 활용해 의사결정을 하는 과정 2. 전수조사와 표본조사 ㅇ 전수조사 : 통계 분석을 수행하기 위해 조사 대상이 되는 자료 모두에 대해 데이터 수집을 실시 (ex. 대한민국 성인 남성의 평균키를 조사할 때 2천만명 모두를 조사) ㅇ 표본조사 : 통계분석을 수행하기 위해 조사 대상이 되는 자료의 일부분에 대하여 데이터 수집 실시 (ex. 대한민국 성인 남성 평균키 조사 시 현실적으로 2천만명을 대상으로 전수조사는 불가능하.. 더보기
[ADsP] ADsP 데이터분석준전문가 자격증 시험 정보(2023년 기준) [자격증 소개] ㅇ 소개 : 데이터분석 준전문가(ADsP : Advanced Data Analytics Semi-Professional)란 데이터 이해에 대한 기본지식을 바탕으로 데이터분석 기획 및 데이터분석 등의 직무를 수행하는 실무자를 양성하기 위한 자격제도 ㅇ 주관 : 한국데이터산업진흥원 [필요성] ㅇ 최근 데이터 처리 및 분석을 통한 데이터 활용은 생산성 향상, 고부가가치 및 고용창출 등 국가 경제적 가치 창출의 핵심동력으로 급부상하고 있다. 기업들은 자사의 경영 전략에 데이터분석을 도입하여 수익 증대를 실현할 수 있으며, 데이터 분석을 공공영역에 도입할 경우 사회적 경제적 효과가 높을 것으로 예상된다. 이러한 데이터분석 가능성을 실현하기 위해 데이터의 다각적 분석을 통해 조직 전략방향을 제시하는.. 더보기