본문 바로가기

자격증공부/데이터분석준전문가(ADsP)

[ADsP] (1과목) 데이터 이해 - 데이터의 이해

320x100

 

<데이터와 정보>

1. 데이터 정의

ㅇ 존재적 특성 : 가공되지 않은 있는 그대로의 객관적 사실
ㅇ 당위적 특성 : 추론, 예측, 전망, 추정을 위한 근거
* 데이터는 다른 객체와 상호관계일 때 가치 있으며, 객관적 사실로 개별 데이터는 중요하지 않다.

2. 데이터 유형

ㅇ 정성적 : 양으로 표현 불가능한 질적 자료로 언어, 문자 등 형태와 형식이 정해져 있지 않고, 비정형 데이터로 저장, 분석에 시간과 비용 필요 (ex. 설문조사 주관식 응답, 문자, 언어, 음성메시지, 그림문자, 트위터, 페이스북 등)
ㅇ 정량적 : 양으로 표현이 가능한 양적 데이터로 데이터양이 증가하더라도 저장, 분석 용이 (ex. 수치, 기호, 도형, 온도, 풍속, 강수량 등)

3. 데이터 유형 분류

정형 : 정형화된 구조가 있으며 연산 가능, RDBMS의 고정된 필드에 저장, 데이터 스키마 지원 (ex. CSV, 엑셀, RDB 등)
반정형 : 정형화된 구조는 있으나 연산 불가능, 데이터속성인 메타데이터를 가지며 일반적으로 스토리지에 저장되는 데이터 파일 (ex. XML, JSON, HTML, 센서데이터, 웹문서 등)
비정형 : 정형화된 구조가 없으며 연산 불가능, 형태나 구조가 복합된 이미지/동영상 같은 멀티미디어 데이터 (ex. 소셜데이터, 댓글, 영상, 음성, 이미지, 문서 등)
※ 메타데이터 : 대량의 정보 가운데에서 찾고 있는 정보를 효율적으로 찾아내서 이용하기 위해 일정한 규칙에 따라 콘텐츠에 대하여 부여되는 데이터. 콘텐츠의 위치와 내용, 작성자에 관한 정보, 권리조건, 이용조건, 이용내력 등이 기록

4. 암묵지와 형식지 

암묵지 : 학습과 체험을 통해 개인에게 습득되어 있는 지식으로 공통화, 내면화 단계를 보유. 겉으로 드러나지 않는 지식으로 개인에게 체화되어 있으므로 외부에 표출되어 공유 어려움.
- 공통화 : 암묵지 지식 노하우를 다른 사람에게 알려줌
- 내면화 : 만들어진 책, 교본을 보고 다른 직원의 암묵적 지식을 습득함
형식지 : 서적과 같이 외부로 표출되어 있는 지식으로 표출화, 연결화 단계를 보유. 교과서, 매뉴얼, 미디어, DB와 같이 형상화된 지식으로 유형의 대상이 있어 지식 전달과 공유가 쉬움
- 표출화 : 암묵지 지식 노하우를 책, 교본 형식으로 전환함
- 연결화 : 책, 교본에 자신이 알고 있는 새로운 지식을 추가함
ㅇ 암묵지와 형식지의 순환 : 표출화 > 연결화 > 내면화 > 공통화> 표출화 > ...

5. 데이터와 정보관계(DIKW 피라미드) : 데이터, 정보, 지식을 통해 최종적으로 지혜를 얻는 과정

데이터(Data) : 있는 그대로의 객관적인 사실로 존재 형식을 불문하고 타 데이터와 상관관계가 없는 가공하기 전의 순수한 수치나 기호 (ex. 연필가격 - A마트 : 100원 / B마트 : 200원)
정보(Information) : 데이터로부터 가공된 의미 있는 자료. 데이터의 가공 및 상관관계 간 이해를 통해 패턴을 인식하고 의미를 부여 (ex. A마트 연필 가격이 더 싸다)
지식(Knowledge) : 상호 연결된 정보 패턴을 이해하고 개인의 경험과 결합되어 미래 예측을 위한 자료 (ex. 상대적으로 저렴한 A마트에서 연필을 사야겠다)
지혜(Wisdom) : 지식의 축적과 아이디어가 결합된 창의적 산물. 근본 원리에 대한 깊은 이해를 바탕으로 도출되는 아이디어 (ex. A마트 다른 상품도 B마트보다 쌀 것이다.)

6. 데이터 양의 단위

ㅇ 일반적으로 8개 비트를 하나로 묶어 1 Byte라고 하며, 1Byte가 표현할 수 있는 정보의 개수는 2의 8승 = 256개가 된다.

ㅇ B(바이트) < KB(킬로바이트) < MB(메가바이트) < GB(기가바이트) < TB(테라바이트) < PB(페타바이트) < EB(엑사바이트) < ZB (제타바이트) < YB (요타바이트)

반응형

<DB정의와 특징>

1. 데이터베이스(DB) 정의

ㅇ DB : 동시에 복수의 적용 업무를 지원할 수 있도록 복수 이용자의 요구에 대응해서 데이터를 받아들이고 저장, 공급하기 위해 일정한 구조에 따라 편성된 데이터 집합체
ㅇ DBMS(DataBase Management System)
 - 사용자가 DB에 접근하고 명령을 내림으로써 DB를 구축 및 유지할 수 있게 하는 SW
 - DB를 구축하는 틀을 제공하고 효율적으로 데이터를 검색하고 저장하는 기능 제공.
 - 응용프로그램들이 DB에 접근할 수 있는 I/F를 제공하고 장애에 대한 복구, 사용자 권한에 따른 보안성 유지 기능 등을 제공

2. DB 특징

ㅇ 통합(동일한 내용의 데이터는 중복되지 않음), 저장(특정 매체에 저장됨), 공용(여러 사용자가 다른 목적으로 공동 사용 가능), 변화(입력, 수정, 삭제를 통해 항상 현재의 정확성을 유지하며 시시각각 변화)

3. DBMS 발전과정

ㅇ 1세대 : 네트워크 DBMS, 계층 DBMS > 복잡하고 변경 어려움
ㅇ 2세대 : 관계(RDBMS) > DB를 테이블 형태로 구성 (ex. 오라클, 액세스, MySQL)
ㅇ 3세대
 - 객체지향(Objected) DBMS : 멀티미디어 데이터의 확산으로 관계형 데이터 모델 표현 어려움.
 - 같은 행위를 갖는 객체는 한 클래스에 속하며, 클래스 연산을 나타내기 위해 메소드 함수로 정의.
 - 객체관계형모델(ORDBMS) : 기존의 관계형 모델에 객체지향형 모델의 장점을 선별하여 관계형 모델에 통합한 새로운 개념의 데이터 모델
ㅇ 4세대 : NoSQL DBMS > 데이터 구조를 미리 정해두지 않아 비정형 데이터를 저장하고 처리
 - SQL : 관계형 모델은 데이터를 행과 열로 구성된 테이블로 정규화, 일관성이 뛰어난 온라인 트랜잭션 프로세싱(OLTP) 어플리케이션을 위해 설계되어 온라인 분석 프로세싱(OLAP)에 적합
 - NoSQL : 키-값, 문서, 그래프 등 성능과 규모 확장에 최적화된 다양한 데이터 모델을 제공. 낮은 지연 시간의 어플리케이션을 포함한 수많은 데이터 액세스 패턴에 맞도록 설계됨. NoSQL 검색 DB는 반정형 또는 비정형 데이터에서 분석을 위해 설계됨.

4. DB 설계순서

ㅇ 요구분석 > 개념 설계(E-R모델) > 논리 설계(테이블 설계) > 물리 설계(데이터 구조화)

5. DB 특성

ㅇ 정보의 축적 및 전달(원격 조작성, 검색 가능성), 정보이용(데이터 획득), 정보관리(추가, 삭제 가능), 정보기술발전(NW), 경제/산업적 측면(효율성)

320x100

<DB활용>

1. DB의 활용

ㅇ OLTP (On-Line Transaction Processing) : 정보의 수집과 이를 조직 내에 공유하기 위한 정보시스템.
네트워크상의 여러 이용자가 실시간으로 DB 데이터를 갱신하거나 조회하는 등의 단위 작업을 처리하는 방식
(ex. 은행에서 수많은 입출금이 일어 날 때)
ㅇ OLAP (On-Line Analytic Processing) : 데이터 마이닝 기술의 등장으로 수집을 넘어선 분석 중심의 시스템.
정보 위주의 처리 분석 의미. 의사결정에 활용할 수 있는 정보를 얻을 수 있게 해주는 기술
(ex. 판매추이, 구매성향 파악, 재무회계분석 등을 프로세싱 하는 것)

ㅇ CRM (Customer Relationship Management) : 고객 관계 관리로써 기업의 분석을 통해 신규 고객의 창출 및 기존 고객의 이탈 방지 목적
ㅇ BI (Business Intelligence) : 기업의 의사결정 프로세스로써 기업의 경영권자가 올바른 의사결정을 내리기 위한 목적
: 데이터 기반의 의사결정을 지원하기 위한 리포트 중심의 도구(ex. 태뷸러)
ㅇ ERP (Enterprise Resource Planning) : 경영 자원 통합 관리로써 기업이 보유한 자원의 효율적인 활용과 분배 목적
ㅇ RTE (Real Tiem Enterprise) : 실시간 기업으로써 업무 프로세스 중 발생하는 정보들에 대해 신속하게 대응하기 위한 목적, 최신 정보를 사용해 자사의 비즈니스 프로세스들의 관리와 실행 과정에서 생기는 지연 상태를 지속적으로 제거함으로써 경쟁하는 기업
ㅇ SCM (Supply Chain Management) : 공급망 관리로써 원자재부터 기업을 거쳐 고객에게 도달할 때까지 유통단계 최적화 목적
ㅇ KMS (Knowledge Management System) : 지식 경영 시스템으로써 기업이 기업이 보유한 모든 지식을 통합해서 문제 해결 능력 향상 목적
ㅇ EAI (Enterprise Application Integration) : 기업 각종 서비스들을 하나의 중앙시스템으로 연결하여 효율적인 서비스 연결 목적, 기업 내의 ERP, CRM, SCM이나 인트라넷 등 시스템 간 상호 연동 가능하도록 통합하는 솔루션
ㅇ EDW(Enterprise Data Warehouse) : 기존 DW를 전사적으로 확장한 모델인 동시에 BPR과 CRM, BSC 같은 다양한 분석 APP들을 위한 원천이 됨, EDW를 구축한다는 것은 단순한 정보를 빠르게 전달하는 대형 시스템 도입 의미가 아니라 기업 리소스의 유기적 통합, 다원화된 관리체계 정비, 데이터의 중복방지 등을 위해 시스템을 재설계하는 것
※ BA (Business Analytics) : SW로 데이터를 분석해 미래를 예측하거나, 특정 접근법을 적용했을 때 발생할 수 있는 일을 내다보는 기술의 도움을 받는 과정. 고급분석이라고도 하며 의사결정을 위한 통계적이고 수학적인 분석에 초점을 둔다.

2. DB 종류

ㅇ 관계형(RDBMS) : 행과 열로 이루어진 테이블에 데이터 저장. 오랜 기간에 걸쳐 검증된 시스템으로 안정성과 대규모 정보 처리. 제한된 형태의 정보만 처리 가능하며 복잡한 정보 구조 모델링 어려움. (ex. 오라클, MYSQL, MAIRA DB, SQL)
ㅇ 비관계형 : 대용량 데이터 분석 및 분산 처리에 용이하며 비관계형 데이터를 저장
ㅇ 객체지향(ODBMS) : 사용자 정의 타입 및 비정형 복합 정보 타입 지원, 복잡한 정보 구조의 모델링 가능. 기본적인 DB관리 기능에 있어서 안정성 및 성능 검증 미비 (ex. HBASE, Mongo DB, Dynamo DB, Cassandra)

3. 스키마와 인스턴스

스키마(Schema) : 구조를 만드는 것. 구체적으로 DB의 구조와 제약조건을 기술 (ex. 상품ID : 문자형 / 카테고리 : 숫자형 / 상품명 : 문자형)
인스턴스(Instance) : 특정 시점의 DB내용으로 시시각각 변화

3. SQL (Structure Query Language) : RDBMS를 활용해 DB와 소통하기 위한 언어

ㅇ 데이터정의(DDL – Data Definition Language)
- 스키마, 테이블, 뷰 등을 정의하거나 변경, 삭제 (ex. CREATE, RENAME, ALTER, DROP)
ㅇ 데이터조작(DML – Data Manipulation Language)
- DB사용자가 저장된 데이터를 처리할 때 사용 (ex. SELECT, INSERT, DELETER, UPDATE)
ㅇ 데이터제어(Data Control Language)
- 데이터의 보안, 무결성 등을 정의하는데 사용, DB관리자가 데이터 관리 목적으로 사용 (ex. COMMIT, ROLLBACK, GRANT, REVOKE)

4. SELECT 기본 문법 : Selcet 컬럼 From 테이블 Where 조건

ㅇ SELECT price FROM item : item 테이블의 price 컬럼 조회
ㅇ SELECT name, price FROM item : item 테이블의 name 컬럼과 price 컬럼 조회
ㅇ SELECT * FROM item : item 테이블의 모든 컬럼 조회
ㅇ SELECT * FROM item WHERE price = 10000 : item 테이블 price 값이 10000인 데이터의 모든 컬럼 조회
ㅇ SELECT * FROM item WHERE price <= 10000
ㅇ SELECT * FROM item WHERE price between 9000 and 11000
ㅇ SELECT * FROM item WHERE name = ‘클래스101’
ㅇ SELECT * FROM item WHERE name like ‘클래스10_’ : item 테이블의 name 값이 클래스10으로 시작하면서 뒤에 한글자가 더 있는 데이터의 모든 컬럼을 조회
ㅇ SELECT * FROM item WHERE name like ‘클래스10%’ : item 테이블의 name 값이 클래스10으로 시작하면서 뒤에 0개 이상의 글자가 있는 데이터의 모든 컬럼을 조회
ㅇ SELECT * FROM item WHERE name is null : item 테이블의 name이 null인 모든 컬럼 조회
ㅇ SELECT * FROM item WHERE name is not null
ㅇ SELECT * FROM item WHERE name in (‘클래스101’, ‘클래스202’, ‘클래스303’)

 

<관련 기출문제 모음>

2023.02.13 - [자격증공부] - [ADsP] (1과목) 데이터 이해 - 데이터의 이해 관련 기출문제

 

[ADsP] (1과목) 데이터 이해 - 데이터의 이해 관련 기출문제

1. 다음 중 데이터의 유형이 다른 한가지는 무엇인가? ① CSV 파일 ② HTML 파일 ③ 엑셀 파일 ④ 관계형 데이터베이스 ※ 정답 : 2번 2. 다음 중 지식의 유형이 다른 한가지는 무엇인가? ① ADsP 자격

inform.workhyo.com

 

ㅇ ADsP 요약+기출문제 자료 다운로드(바로가기)

 

ADsP 빅데이터분석준전문가 자격증 대비 요약 및 기출 | 10000원부터 시작 가능한 총 평점 0점의 자

0개 총 작업 개수 완료한 총 평점 0점인 WorkHYO의 자료·템플릿, 취업·입시 자료, 기타 서비스를 0개의 리뷰와 함께 확인해 보세요. 자료·템플릿, 취업·입시 자료, 기타 제공 등 10000원부터 시작 가

kmong.com

 

320x100
반응형