
책 소개
요약
종합적인 학문 및 기술 분야로서 데이터 마이닝의 특징을 소개하며, 정보 기술의 진화와 데이터 마이닝의 필요성, 그리고 응용 분야의 중요성에 대해 설명한다. 먼저, 데이터 마이닝을 위한 다양한 유형의 데이터 타입에 대해 알아보고, 데이터 마이닝 작업의 주요 유형과 마이닝 지식의 종류, 사용되는 기술의 종류, 그리고 분석 환경에 따라 활용되는 다양한 기법에 대해 설명한다.
추천의 글
현대 산업에서 데이터 분석의 중요성은 더욱 높아졌고, 학계와 산업계에 더욱 확산되고 있다. 이제는 대용량 데이터셋을 쉽게 수집 및 저장할 수 있으며, 규모에 상관없이 대용량 데이터 디스크와 ‘클라우드 스토리지(cloud storage)’를 이용할 수 있는 시대가 됐다. 따라서 이제는 데이터에 존재하는 패턴, 추세, 이상치, 또는 예측치를 찾기 위해 누구나 데이터를 분석할 수 있다.
이 책은 데이터 마이닝(data mining)의 전통적이며 필수적인 내용을 모두 다루면서 최근 학계 및 산업계의 중요한 성취 자료를 추가했다. 하나의 장을 할애해 딥러닝(deep learning)을 소개하고, 내가 가장 좋아하는 알고리듬 중 하나인 TopMine, gSpan, CloseGraph 등 빈발 서브 그래프 발견, LIME 등 모델의 설명력에 대한 탁월한 정리, 유전적 알고리듬, 강화 학습, 거짓 정보 감지, 생산성 및 팀 과학을 위한 데이터 분석, 인과관계 분석, 공정성을 고려한 데이터 마이닝, 공익을 고려한 데이터 분석 등 주요 주제를 하위 절에서 살펴본다.
새로 추가된 부록은 데이터 분석에 필요한 수학적 배경 지식을 편리하며 집약적으로 제공한다. 경사 하강법, 뉴턴 방법을 포함한 최적화를 위한 수학 공식 자료, 행렬 대수 연산을 위한 특잇값 분해, 고윳값, 의사 역행렬 공식, 정보 이론을 위한 엔트로피(entropy) 및 쿨벡 라이블러 알고리듬 공식, 신호 처리를 위한 DFT 및 FFT 등 데이터 마이닝을 위한 모든 기본적인 수학 공식을 부록에서 간편하게 탐색하고 활용할 수 있다.
이 책에는 데이터 마이닝과 관련된 800개 이상의 중요한 참고 문헌 목록과 2015년 이후 출간된 250개 이상의 최신 연구 논문이 포함돼 있다. 즉, 이번 4판은 데이터 분석에 대한 교과서이자 백과사전적인 참고서 역할을 할 수 있다.
—크리스토스 팔로웃소스(Christos Faloutsos) 교수,
카네기 멜론 대학교(Carnegie Mellon University)
이 책에서 다루는 내용
◆ 딥러닝에 대한 포괄적인 지식을 제공하기 위해 딥러닝 모델 기반의 훈련 개선 전략, 합성곱 신경망(CNN), 순환 신경망(RNN), 그래프 신경망(GNN) 등에 대해 심도 있게 알아본다.
◆ 최신 연구 성과를 파악할 수 있도록 데이터 마이닝의 트렌드 및 각광받는 연구 분야를 다룬다. 텍스트, 시공간 데이터, 그래프/네트워크 등 리치 데이터 유형, 감정 분석, 진실 발견, 정보 전파 등 데이터 마이닝 응용 방법론, 데이터 마이닝 방법론 및 시스템, 사회적 가치를 고려한 데이터 마이닝에 대해 소개한다.
◆ 데이터에서 여러분이 필요로 하는 최상의 가치를 추출하기 위한 개념과 기법에 대해 살펴본다.
이 책의 구성
이 책의 1, 2, 3판 출간 이후 데이터 마이닝 분야에서 다수의 큰 진전이 있었다. 특히 정보 네트워크, 그래프, 복합 구조, 데이터 스트림 등 새로운 유형의 데이터 처리에 특화된 데이터 마이닝 방법론, 시스템, 애플리케이션이 개발됐다. 이러한 빠른 발전과 새롭게 추가된 풍부한 기술을 한 권의 책에 담기는 어려우므로 우리 공저자는 나름의 대안을 찾아야 했다. 결국, 이번 4판에서는 책의 범위를 확장하는 대신 핵심 주제를 충분한 범위와 깊이로 다루고, 복잡한 데이터 유형과 분석 환경 등 해당 주제에 좀 더 집중하기로 결정했다.
4판은 지난 1~3판의 내용을 큰 폭에서 개정하고, 데이터 마이닝 기술 부분을 재구성했다. 특히, 다양한 데이터 유형에 대한 마이닝 방법론을 처리하는 핵심 기술 자료가 크게 확장되고 개선됐다. 우리 공저자는 책을 간결하면서도 최신 상태로 유지하기 위해 다음 방법으로 개정 작업을 진행했다. (1) 3판에서 두 개 장으로 구성된 ‘데이터 이해’와 ‘데이터 전처리’를 하나의 장, ‘데이터, 측정, 데이터 전처리’로 통합했다. 또, 기존 ‘데이터 시각화’는 개념의 이해가 쉽고, 다른 전문 데이터 시각화 서적에서 다뤘으며, 소프트웨어 도구가 웹에서 널리 사용 가능하므로 제외했다. (2) 3판의 ‘데이터 웨어하우징과 온라인 분석 처리’와 ‘데이터 큐브 기술’ 장을 하나의 장으로 병합했으며, 유용성이 다소 떨어지는 데이터 큐브 계산 방법과 데이터 큐브 확장을 생략하고, ‘데이터 레이크(lake)’라는 새로운 개념을 추가했다. (3) 3판의 주요 데이터 마이닝 방법론 장인 패턴 발견, 분류, 클러스터링, 이상치 분석은 내용을 향상시키고 최신의 트렌드를 반영해 업데이트했다. (4) 새로운 장으로 ‘딥러닝’을 추가했으며, 신경망과 딥러닝 방법론에 대한 체계적인 소개를 포함시켰다. (5) 마지막 장인 ‘데이터 마이닝 트렌드 및 최신 연구 분야’는 완전히 다시 작성했으며, 데이터 마이닝의 다양한 고급 주제를 종합적이며 간결하게 다뤘다. 마지막으로, (6) 이 책의 내용을 이해하는 데 필요한 기본적인 수학적 배경 지식을 부록으로 포함시켰다.