오픈소스인 하둡(Hadoop)에서, 클러스터 구성 및 최적화는 사용자의 기술과 경험적인 영향을 많이 받는다. 맵리듀스(MapReduce)의 경우 하위 인프라에 추가로 수행될 맵리듀스 애플리케이션과 데이터, 사용자의 특성까지 고려하여 구성하고 튜닝해야 한다. 이 책에는 맵리듀스와 맵리듀스의 성능에 대해 개괄하고, 맵리듀스 클러스터 최적화 구성, 리소스 병목을 찾아내고 해결하는 저자의 소중한 노하우가 담겨있으며, 맵리듀스 애플리케이션과 데이터에 따른 맵리듀스의 각 단계별 상세한 튜닝법을 설명한다. 아울러 맵리듀스 애플리케이션 개발자가 반드시 숙지하고 있어야 할 코딩 기술과, 사용자의 맵리듀스 애플리케이션 성능을 극대화 할 수 있는 다양한 시스템 관련 튜닝(OS, JVM, GC, I/O 등)과 체크리스트, 그리고 애플리케이션 성능과 개발자의 생산성을 함께 높일 수 있는 맵리듀스 템플릿 코드를 제공한다.
이 책은 R 언어와 니터(Knitr) 패키지를 사용하여, ‘재현 가능한 연구(reproducible research)’ 방법으로 인쇄물, 웹 페이지, 웹 프리젠테이션, 웹 애플리케이션 등의 다양한 데이터 문서와 자료를 만드는 방법을 소개한다. 이 책에서 설명하는 모든 문서와 자료는 데이터와 다이내믹하게 연동되어 움직이고, 원래의 데이터와 결론에 이르는 과정을 투명하고 일관되게 보여줄 수 있다.
조직 내에 빅데이터를 활용하는 의사결정 문화를 뿌리내리고 싶은 사람들에게 테라데이타(Teradata)의 최고분석책임자인 빌 프랭크스(Bill Franks)가 들려주는 빅데이터 입문서. 빅데이터를 다루는 데 필요한 도구와 프로세스, 기법 등 기술적 측면과 빅데이터를 효과적으로 활용하는 데 필요한 사람과 조직구조, 혁신과 발견을 장려하는 조직 문화 등 조직적 측면을 균형 있게 서술한 책이다. 이 책을 통해 빅데이터 활용을 어떻게 시작해야 할지, 어디에 가장 중점을 두어야 할지, 피해야 할 함정이나 조직에서 부닥칠 문제는 무엇인지 등 실무적인 조언을 얻을 수 있다.
지은이 - 마이클 크롤리(Michael J. Crawley)옮긴이 - 정사범, 권정민55,000원 | 2014년 03월 31일 펴냄
빅데이터 시대에 가장 범용적으로 사용되는 통계 언어인 R의 기초부터 활용까지 전반적인 내용과 상세한 예제를 다룬 책이다. 이 책에서는 R을 이용하여 데이터 처리에 필요한 기초문법과 그래픽부터 가설 검정, 회귀분석, 분산 분석, 다변량 분석, 시계열 분석, 생존 분석, 베이지안 통계 등의 고급 분석까지 폭 넓게 다루고 있다. 이 책 한 권으로 R언어 초보자부터 전문가까지 누구나 필요로 하는 데이터 처리와 분석에 대한 다양한 정보를 습득할 수 있다. 특히 각 주제에 대한 분석방법을 상세한 예제코드와 함께 소개하고 있어 데이터 분석 기술과 R 프로그래밍 기술을 쉽게 익히고 실행하여 볼 수 있다.
샤이니(Shiny) 패키지는 환상적인 데이터 분석 능력을 가진 R의 기능을 그대로 확장하여, R 언어만으로도 쉽고 빠르면서도 강력한 웹 애플리케션을 만들 수 있는 기능을 제공한다. 웹과 R의 기능을 동시에 갖춘 샤이니 앱을 이용하면 데이터에 담긴 스토리를 이해관계에 있는 수많은 사람들과 효율적으로 공유할 수 있다. 어렵지 않다. 바로 시작할 수 있다. 특히, 이 책에는 초보자를 위해 R과 RStudio를 설치하는 방법과 RStudio에서 샤이니 앱 개발을 손쉽게 시작할 수 있는 한국어판 특별 부록도 수록했다.