4. 데이터 마이닝
ㅇ 개념 : 의미 있는 패턴, 규칙, 관계를 찾아내는 것이며 많은 DB로부터 지금까지 잘 알려지지 않고 유용하며 활용이 가능한 정보를 추출하는 과정
ㅇ 특징 : 사용자의 경험이나 편견을 배제하고 전적으로 데이터에 기반으로 하여 지식과 패턴을 추출하기 때문에 영역 전문가가 간과해 버릴 수도 있는 지식과 패턴을 찾아낼 수 있다. 또한 분석가의 경험이 높고 낮음에 따른 차이가 적어 일정범위 안에서는 유사한 결론을 얻을 수 있어 업무 경험을 통한 학습보다 유리하다.
ㅇ 활용분야 : 카드사의 사기 발견, 금융권 대출승인, 투자분석, 기업의 마케팅 및 판매데이터 분석, 생산 프로세스 분석, 기타 순수 과학 분야의 자료 분석 등 특별히 제한되는 분야는 없다.
ㅇ 기법
- 정형 : 연관관계분석, 의사결정나무, 인공신경망, 사례기반추론, 군집분석
- 비정형 : 웹문서, 소셜 데이터를 주로 분석하는 텍스트 마이닝, 웹 마이닝, 오피니언 마이닝, 소셜 네트워크 분석
ㅇ 시각화 기법 : 단순 시각화 기법이 아닌 마이닝 기법별 적합한 시각화 기능이 마이닝에 포함되어 있다. (ex.의사결정나무 기법에는 시각화를 규칙에 대해 나무의 가지처럼 수직적인 구조로 로직을 표현)
ㅇ 분석도구/프로그램
- 분석 도구 : R, SAS사의 Enterprise Miner, SPSS사의 Clementine, Weka, Rapid Miner, Python, SAP Infinity Insight 등
- 시각화 도구 : 마이닝 도구 자체 기능, Google Chart API, Flot ,D3, Processing 등
<정형데이터 데이터마이닝>
ㅇ 연관관계분석
- 상품 혹은 서비스 간의 관계를 살펴보고 이로부터 유용한 규칙을 찾아내고자 할 때 이용할 수 있는 기법이다. 동시 구매될 가능성이 큰 상품들을 찾아내는 기법으로 대형 마트의 장바구니 분석을 통해 제품 진열의 효율화 등의 문제에 많이 적용
- 대량의 데이터로부터 품목 간에 어떠한 관계가 있는지를 목적변수 없이 규칙 관계를 찾아낸다. 그 결과로 얻어진 규칙은 이해하기도 쉽고 적용도 쉽다.
- 지표 : 지지도(전체 거래 중 어떤 항목 조합이 포함된 거래의 빈도), 신뢰도(X가 포함된 거래 중 Y도 포함되어 있는 비율), 향상도(X를 구매한 경우 그 거래에 Y가 포함될 경우와 Y가 단독으로 거래된 경우의 비율로 Y가 X와 연관되어 구매되는 것이 일반적으로 Y가 구매되는 것에 비해 얼마나 더 많은지를 나타내는 것)
ㅇ 의사결정나무
- 분류 및 예측에 주로 사용되는 기법, 사용이 비교적 용이하고 그 결과를 이해하기가 수월하다, 결과가 의사결정나무라는 그래프로도 표현되고 규칙 세트의 형식으로도 도출된다
- 고객 분류, 기업의 부도 예측, 주가 예측, 환율 예측, 경제 전망 등
- 의사결정나무는 목표 변수들에 대한 규칙들을 나무 구조로 분류와 예측을 수행하는 기법으로 CART, CHAID와 같은 알고리즘이 있다.
- 의사결정나무의 형성 > 가지치기 > 타당성 평가 > 해석 및 예측
- 장점 : 주요 변수의 선정이 용이, 2개 이상의 변수가 결합하여 목표변수에 어떻게 영향을 주는지 쉽게 알 수 있다, 선형성 정규성 등분산성 등의 가정이 불필요, 의사결정나무를 룰로 자동 변환할 수 있으며 이 룰은 다양한 활용이 가능하다.
- 단점 : 연속형 변수를 비연속적인 값으로 취급하기 때문에 분리의 경계점 근방에서 예측 오류가 클 가능성이 있다, 선형 또는 주 효과 모형에서와 같은 결과를 얻을 수 없다는 한계점이 있다, 분석용 자료에만 의존하기 때문에 새로운 자료의 예측에서는 불안정할 가능성이 높다, 나무 형성시 컴퓨팅 비용이 많이 든다.
ㅇ 인공신경망
- 생물학적 뇌의 작동원리를 그대로 모방하는 방법, 데이터 안의 독특한 패턴이나 구조를 인지하는데 필요한 모델을 구축하는 기법, 가장 일반적인 모형은 다계층 퍼셉트론 모형, 예측오차를 줄이고 예측 정확성을 증진시키기 위해 반복적으로 가중치를 수정한다, 노드와 층으로 구성되며 층에는 입력층/은닉층/출력층이 있다.
- 장점 : 복잡하고 비선형적이며 관계성을 갖는 다변량을 분석할 수 있다, 회귀분석 같은 선형기법과 비교하여 비선형기법으로 예측이 뛰어나다, 자료에 대한 통계적 분석없이 결정을 수행할 수 있다. 통계적 기본가정이 적고 유연하다. 특히 소량의 데이터, 불완전 데이터, 노이즈 데이터가 많은 경우에도 다른 기법에 비해 우수하다.
- 단점 : 결과에 대한 해석이 어렵다, 모델 학습에 많은 시간이 소요된다, 전체관점의 최적해보다 지역 내 최적해가 선택될 수 있다, 과적합화가 될 수도 있다.
ㅇ 사례기반추론
- 과거에 있었던 사례들의 결과를 바탕으로 새로운 사례의 결과를 예측하는 기법으로 사례의 유사성 척도로 근접이웃 방법론이 가장 많이 이용되고 있다.
- 과정 : 검색 > 재사용 > 수정 > 유지
. 검색 : 사례 DB에서 적절한 유사한 사례 검색, 유사한 사례는 문제와 해결방법, 해결방법 도출 과정에 대한 설명을 포함
. 재사용 : 이전의 사례로부터 대상 문제의 해결방법을 연결한다. 새로운 상황에 해결방안을 적응시키는 것을 포함
. 수정 : 새로운 해결방법을 실제 테스트하고 수정한다.
. 유지 : 성공적인 해법을 찾으면 이를 적용 후 새로운 사례로서 DB에 저장한다.
- 장점 : 인간의 문제해결 방식과 유사하기 때문에 결과의 이해가 쉽다, 새로운 사례를 저장하는 것만으로 학습이 진행된다, 구조가 간단하고 이해가 용이하다, 복잡한 문제를 비교적 적은 정보로 의사결정/문제해결이 가능하다.
- 단점 : 정확도가 상대적으로 크게 떨어진다, 사례를 저장하기 위한 공간이 많이 필요하다, 일반화를 위한 학습과정과 해결이 동시에 일어나기 때문에 많은 시간이 소요된다, 사례를 설명하고 있는 속성이 적절하지 못한 경우 성능이 크게 저하된다.
- 적용이 쉽고 간단하다는 장점과 모형의 갱신이 실시간으로 이루어진다는 점 등으로 인해 온라인 환경에서의 고객관계 관리를 위한 도구로 많은 주목을 받고 있다. 프로젝트 관리, 기업신용평가, 채권등급평가, 콜센터의 자동응답시스템, 고장진단 헬프데스크, 전략수립, 유비쿼터스 컴퓨팅 시스템의 상황인식 기능 및 개인화 서비스 구현에도 활용
ㅇ 군집분석
- 전체 데이터를 군집을 통해 잘 구분하는 것으로 다양한 특징을 가진 관찰 대상으로부터 동일 집단으로 분류하는데 사용된다. 이는 유사한 특성을 가진 개체를 합쳐가면서 최종적으로 유사 특성의 군집을 찾아내는 분류방법으로 구분하려고 하는 각 군집에 대한 아무런 사전지식이 없는 상태에서 분류하는 것으로 무감독 학습에 해당한다.
- 거리측정함수 : 유클리디언 거리, 마할라노비스 거리, 헤밍 거리, 맨하탄 거리
- 계층적 군집분석은 덴드로그램을 그려줌으로써 군집의 형성과정을 정확히 파악할 수 있고, 한 개체가 일단 특정 군집에 소속되면 다른 군집으로 이동시킬 수 업삳.
- 비계층적 군집분석은 군집의 숫자를 사전에 정하는 것으로 많은 데이터를 빠르고 쉽게 분류할 수 있고, 군집 형성 초기 값에 따라 군집결과가 달라진다.
<비정형 데이터 데이터마이닝>
ㅇ 비정형 데이터
- 미리 정의된 데이터 모델을 가지고 있지 않은 데이터로서 아주 많은 양의 데이터를 가지고 있으면서 구조와 형태가 다르고 정형화되지 않은 문서, 영상, 음성 등을 말하며 책, 저널, 문서, 메타데이터, 건강기록, 오디오, 비디오, 아날로그 데이터, 이미지, 파일, 이메일, 웹페이지, 워드 프로세스 문서, 채팅, 단문메시지, 블로그, 트위터, 페이스북 등의 데이터
- 데이터마이닝 과정 : 탐색 > 이해 > 분석
. 탐색 : 질의, 집합연상, 재귀 및 팽창 등의 작업 수행
. 이해 : 통계, 분배, 특징 선택, 군집화, 분류 편집, 시각화 등의 작업 수행
. 분석 : 경향, 상관관계, 분류 등의 작업 수행
ㅇ 반정형 데이터
- 정형적 구조를 따르지 않지만 어의적 요소를 분리시키고 데이터 내의 레코드와 필드의 계층 구조가 있게 하는 태그나 다른 마커를 포함하고 있는 정형 데이터이다. 최근에 등장한 객체지향 데이터베이스에서의 데이터가 이에 속한다. 마크업 언어, 이메일, EDI 등도 이에 속한다.
ㅇ 텍스트 마이닝
- 인간의 언어로 이루어진 비정형 텍스트 데이터들을 자연어 처리 방식을 이용하여 대규모 문서에서 정보를 추출하거나 연계성을 파악하거나 분류 혹은 군집화, 요약 등 빅데이터에 숨겨진 의미를 발견하는 기법을 말한다. 텍스트 분석, 텍스트 DB로부터 지식발견, 문서 마이닝 등으로 불리기도 한다.
- 처리과정 : 입력 > 준비단계 > 전처리 단계 > 지식 추출 단계 > 출력
. 준비단계 : 정보검색이나 텍스트 식별을 말하며, 웹상에서나 파일시스템, 데이터베이스, 내용 관리 시스템 등에서 문제 범위에 맞는 일련의 텍스트들을 수집하거나 식별하여 텍스트 파일과 같은 컴퓨터 처리에 적합하게 통일된 형태로 디지털화하고 조직화하는 과정
. 전처리 단계 : 조직화된 텍스트들을 정형화된 표현양식으로 만드는 단계로 텍스트 문서에서 단어를 찾아 목록을 만들고, 단어 목록에서 분석 목적에 맞는 용어를 식별하여 텍스트 문서와의 관계를 인덱스로 연결하여 행렬구조로 만든다. 각 텍스트 문서에서 빈도가 지나치게 드문 것과 전문가 입장에서 분석 목적과 멀다고 생각되는 것을 제거하고 특이값 분해를 통해 행렬의 전반적인 의미 구조가 나타나도록 하여 다루기 쉬운 크기로 줄인다.
. 지식 추출 단계 : 분석 목적에 맞게 변환된 정형 데이터에서 의미 있는 패턴이나 관계와 같은 지식을 발견하는 것이다. 분류, 클러스터링, 개념 및 개체 추출, 세분화된 분류 체계의 생산, 심리 분석, 문서 요약, 개체 관계 모델링 등으로 패턴을 찾는다.
ㅇ 웹 마이닝
- 인터넷을 통해 웹 서비스를 이용하면서 웹에서 패턴을 발견하는 것으로 웹 사용 마이닝, 웹 콘텐츠 마이닝, 웹 구조 마이닝 등이 속한다.
- 웹 사용 마이닝 : 웹 상에서 사용자가 찾고자 했던 것을 기록하고 있는 웹 서버 로그에서 유용한 정보를 추출하는 과정을 말한다. 웹 사용자의 특성과 성향을 뽑아내는데 사용되며 사용 데이터의 종류에 보다 의존적인 것이다.
- 웹 구조 마이닝 : 웹사이트의 노드와 연결 구조를 분석하기 위해 그래프 이론을 사용하는 과정을 말한다.
- 웹 콘텐츠 마이닝 : 웹 페이지에서 유용한 데이터, 정보, 지식을 마이닝하고 추출하고 통합하는 것을 말한다.
ㅇ 오피니언 마이닝
- 어떤 사안이나 인물, 이슈, 이벤트 등과 관련된 원천 데이터에서 주제에 대한 의견이나 평가, 태도, 감정 등과 같은 주관적인 정보를 식별하고 추출하는 것
- 오피니언 분석, 평판 분석, 정서분석이라고도 한다. (분류분석X)
- 주요 분석 대상은 포털 게시판, 블로그, 쇼핑몰과 같은 대규모 웹 문서이기 때문에 자동화된 분석방법을 사용한다.
- 주로 텍스트 문서를 다루므로 자연어 처리, 텍스트 분석, 컴퓨터 언어학 등의 기술을 사용한다.
- 사용 예로는 상품이나 서비스에 대한 시장규모를 예측하거나 소비자의 반응 및 입소문을 분석하는데 활용된다.
- 문화적 요인, 언어적 뉘앙스, 맥락의 차이 등이 국가별, 산업별로 다르므로 수집된 단어에 대한 찬성과 반대가 상황에 따라 달라질 수 있다는 점이다. 이러한 단어에 대한 정서가 국가별, 산업별로 탄탄하게 구성되어야 의미 있는 분석이 가능한 쉽지 않은 영역이다.
ㅇ 소셜 네트워크 분석
- 개인의 생각이나 의견, 비전이나 가치 등을 디지털 콘텐츠 형태로 공유하거나 교환할 수 있도록 사회적 관계를 맺는 쌍방관계를 갖는 커뮤니티 서비스이다.
- 구성 : 노드(점, Vertex, 객체 / 행위자), 링크(선, Edge, 관계 / 우정, 연대감, 성향)
- 데이터 탐색 : 다양한 레이아웃으로 노드와 링크를 표시하고 색깔과 크기와 다른 진보된 속성 등을 노드에 덧붙임으로써 구별되게 하여 네트워크를 이해하는데 도움을 준다. 그러나 정량적으로 데이터를 이해하기 위한 수단이지 그것만으로 네트워크를 모두 설명하거나 이해했다고 생각하면 안 된다.
- 협동그래프 : 사람들 사이의 좋은 관계와 나쁜관계를 나타내는데 사용
- 균형그래프 : 모든 표시의 결과가 긍정적인 사이클로 그룹에서 다른 사람들에 대한 그들의 의견을 바꾸는 것을 좋아하지 않는 집단을 나타내는 그래프
- 불균형그래프 : 다른 사람들에 대한 그들의 의견을 바꾸는 것을 아주 좋아하는 사람들의 집단
- 참여 네트워크 매핑 : 변화를 촉진시키는 도구로서의 분석 기법으로 참여자와 면담자는 데이터 수집 시기에 그 네트워크에 실질적으로 매핑해 나감으로써 네트워크 데이터를 제공한다.
< 경영빅데이터분석사2급 요약자료 다운로드 (바로가기) >
'자격증공부 > 경영빅데이터분석사2급' 카테고리의 다른 글
[경영빅데이터분석사2급] 5과목 빅데이터기술 - 수집, 저장, 처리기술, 주요분석도구 (0) | 2023.04.08 |
---|---|
[경영빅데이터분석사2급] 4과목 빅데이터 분석 - 데이터 시각화 (0) | 2023.04.06 |
[경영빅데이터분석사 2급] 4과목 빅데이터 분석 - 통계분석 (0) | 2023.04.05 |
[경영빅데이터분석사 2급] 4과목 빅데이터 분석 - 빅데이터분석 프로세스 개념, 플랫폼 환경 (0) | 2023.04.04 |
[경영빅데이터분석사 2급] 3과목 빅데이터 기획 - 기획과 계획 (0) | 2023.04.03 |