2. 빅데이터 관리
ㅇ 데이터 관리
- 서로 관련 있는 데이터를 효율적으로 관리하기 위한 데이터 집합체로 각 데이터는 상호 유기적 관계에 의해 구성되어 있다.
- 데이터마트는 데이터웨어하우스를 소규모로 구축한 것으로 분석에 용이하게 사용된다.
- 파일 관리에서부터 시작하여 그 편리성을 도모하는 방향에서 데이터베이스로 발전되었다.
- 1960년대말 DB라는 용어가 최초로 생겼는데 한 조직의 응용 시스템들을 공용하기 위해 통합, 저장한 운영 데이터의 집합 이란 개념이었다.
* 응용시스템은 한 조직의 데이터를 공유하기 위해 통합, 저장한 데이터의 집합
ㅇ데이터 관리방법
- 수작업 문서상의 데이터 관리
. 컴퓨터가 출현하기 전 응용프로그램 역할은 사람이 하였고, 하드디스크는 문서함이 대신하였다.
. 컴퓨터가 출현하기 전에도 정보처리시스템은 존재하였다.
. 거래를 기록한 장부는 파일 역할을 하였다.
. 정확성이 떨어지고 신속하지 않았으며 자료당 처리비용이 많이 들었다.
- 파일시스템
. 파일에 이름을 붙이고 저장 및 검색을 위해 논리적으로 위치시키는 방법이다.
. 파일의 실제 데이터와 메타데이터를 유지, 저장하는 체계이다.
. IBM PC에서는 FAT와 NTFS, HPFS가 사용되고 있다.
. 파일 이름을 붙이는 규칙이 있는데 FAT16, FAT32, ext2, ext3 등이 있다.
. 도스, 윈도우, OS/2, 매킨토시 및 유닉스 기반의 운영체계들은 모두 파일이 계층적으로 구조로 위치하는 파일시스템에 해당한다.
. 파일처리시스템 : 응용프로그램은 특정 부서의 요구사항만을 만족시키는 것을 목표로 제작되었으며 데이터 관리가 응용프로그램별로 수행되었다. 부서간 정보를 통합적으로 요구하는 관리자의 요구사항에 효과적으로 대응하지 못했다. 타 부서와 공유할 수 없었고, 부서별 구축에 따라 중복이 발생하였으며 정보 품질 저하와 처리비용의 증가가 발생했다.
- 데이터베이스 시스템
. 상호 관계가 있는 자료들을 하나의 통합된 저장소에 논리적으로 저장, 공유, 관리하는 시스템 및 관리방법
. 조직 내 다수의 사용자나 다수의 부서의 정보요구사항에 부응할 수 있는 자료의 공유
. 조직 전체의 정보요구사항에 부응할 수 있는 자료의 통합 관리
. 한 곳에 집중되어 있는 자료를 모든 부서의 사용자가 쉽게 공유 가능
. 여러 부서에서 따로 보관하고 있던 여러 개의 자료가 하나만 존재하여도 되므로 자료 중복을 배제할 수 있다.
ㅇ DB / DW / DM
- 데이터마트(DM) : 고객관리, 상품관리, 재무/회계 등의 단일 주제별 또는 지역별, 단일 부서 또는 사용자 집단 등 의사결정 그룹별로 구축, DW 구축과 이용 관점에서 볼 때 소규모로 분할하여 구축 이용하는 것이 보다 효과적일 수 있다. 분석을 용이하게 하기 위해 주제별로 데이터마트를 구축해서 저장
- 데이터웨어하우스(DW) : 전사적인 수준에서 기업의 의사결정에 필요한 모든 데이터를 과거의 데이터까지 포함하여 축적한 대용량의 정보 저장소
. 소스부분 : 운영데이터, 관계형데이터, 외부파일 등이 포함
. 추출/변환/전송 부분 : 데이터 변환 도구들을 활용하여 소스 데이터를 DW에 적재하는 과정
. DW 부분 : 실제 구축된 DW
. 분석 부분 : DW 활용 단계를 의미하고, DW 도구들을 활용하여 마케팅, 중역정보시스템 등의 업무에 접근하도록 한다.
- 운영계 시스템에서 정보계 시스템으로 연계되는 과정에서 DW와 DM이 있는데 DW는 전사적관점에서 분석을 하며, 특정 주제별로 작게 만들어서 담당 업무별로 분석이 용이하게 한 것이 데이터마트이다. 대부분 분석작업은 DM에서 이루어지며 필요시 DW에 접근하여 분석을 하게 된다. 그럼에도 불구하고 보다 원천 데이터에 가까운 상세한 내용을 분석하고자 하는 경우 운영계와 정보계 사이에 존재하는 ODS에 접속해서 분석을 실시한다.
ㅇ OLTP / OLAP
- 데이터베이스는 OLTP 데이터를 저장하는 자료 저장소이며, 데이터웨어하우스는 OLAP 데이터를 저장하는 자료저장소이다.
- 은행 창구 업무나 항공사 예약업무 등 일상 업무와 관련된 데이터는 OLTP이다.
- OLAP은 다양한 분석과 의사결정을 위해 OLTP 데이터와 외부 데이터를 처리하여 다차원 정보를 생성하며, 산업 성장률과 제품의 변화 분석 업무 분석적 질의들을 처리하기 위한 분석뷰를 제공한다.
ㅇ 빅데이터 관리방법
- 빅데이터는 수집한 후 정제하고 정보를 생성한다.
- 대량의 데이터, 미세하고 정밀한 데이터 및 데이터 소유자 불분명 등의 특성에 따라 관리 방법을 달리해야 한다.
- 데이터 수집 과정의 타당성을 방해하는 예외 상황 탐지 수준으로 품질기준을 정의
- 개별 레코드에 대한 의미보다 데이터 전체가 나타내는 의미를 중심으로 품질기준을 정의하여야 한다.
- 데이터 생산과정과 소유자가 불분명하므로 목적이나 통제없이 생산된 데이터에 대한 데이터 품질 기준을 정의하기 위한 다른 방법 모색이 필요하다.
- 빅데이터는 비정형화된 데이터를 포함하고 있어 새로운 형태의 저장 및 관리 기술과 방법이 등장하고 있다.
ㅇ DB관리 / 빅데이터 관리 비교
시스템 | 요구의사 결정속도 | 처리 복잡도 | 처리 분석 유연성 | 동시데이터 처리필요 |
데이터베이스 | 빨라야 함 | 낮음 | 낮음 | 높음 |
빅데이터 | 덜 빨라도 됨 | 높음 | 높음 | 낮음 |
- 빅데이터는 대용량 데이터에 기반을 둔 분석 위주로 장기적, 전략적 접근이 필요
- 빅데이터는 제대로 정의된 데이터 모델, 상관관계, 절차 등이 없다.
- 비정형 빅데이터를 처리하기 위해 DB시스템은 저장의 안정성, 검색의 효율성, 분석의 정확성, 분석의 신속성을 제공해야 한다.
* 알고리즘의 다양성은 분석시스템에서 필요
< 경영빅데이터분석사2급 요약자료 다운로드 (바로가기) >
'자격증공부 > 경영빅데이터분석사2급' 카테고리의 다른 글
[경영빅데이터분석사2급] 1과목 빅데이터 이해 - 분석적 사고와 분석프로세스 (0) | 2023.03.30 |
---|---|
[경영빅데이터분석사 2급] 1과목 빅데이터 이해 - 빅데이터 비즈니스 모델 (0) | 2023.03.30 |
[경영빅데이터분석사 2급] 1과목 빅데이터 이해 - 빅데이터 가치와 영향 (0) | 2023.03.28 |
[경영빅데이터분석사 2급] 1과목 빅데이터 이해 - 빅데이터 개념 (0) | 2023.03.26 |
[경영빅데이터분석사] 경영빅데이터분석사 자격증 시험정보 (0) | 2023.03.25 |