Top

하이브 핵심정리 [하둡 기반 대용량 데이터 저장, 관리의 핵심 솔루션]

  • 원서명Apache Hive Essentials (ISBN 9781783558575)
  • 지은이다융 두(Dayong Du)
  • 옮긴이김용환
  • ISBN : 9788960779792
  • 20,000원
  • 2017년 02월 28일 펴냄
  • 페이퍼백 | 228쪽 | 188*235mm
  • 시리즈 : acorn+PACKT

책 소개

요약

이 책은 빅데이터 도메인의 배경과 개념을 소개하고, 하이브 작업 환경을 설정하는 방법을 설명한다. 많은 예시를 통해 빅데이터의 값을 찾는 방법과 변환하는 방법을 소개하며 하이브 언어를 효율적으로 사용할 수 있는 기술도 안내한다. 마지막에는 성능, 보안과 같은 고급 주제 뿐만 아니라, 하이브의 확장까지 설명한다. 이 책은 하이브 언어를 실무에 적용하고, 확장하고자 하는 이들에게 훌륭한 가이드가 되어 줄 것이다.

이 책에서 다루는 내용

■ 하이브 환경의 생성과 셋업
■ 데이터를 설명하는 하이브 정의 언어의 사용 방법 발견
■ 하이브의 데이터 집합에 조인과 필터링을 사용해 의미 있는 데이터 발견
■ 하이브 정렬, 순서, 함수를 사용해 데이터 변환
■ 데이터 집계와 샘플링
■ 하이브 쿼리 성능 개선과 데이터 보안성 향상
■ 하이브를 다른 툴과 연동하고, 사용자 정의 함수를 사용해 하이브를 최적화

이 책의 대상 독자

이 책은 하둡의 데이터를 확인하고 분석하는 데 하이브를 사용하려는 데이터 분석가, 개발자, 사용자를 대상으로 한다. 빅데이터에 대해 초보자든 전문가든, 이 책을 접한 독자는 하이브의 기본 기능과 고급 기능을 잘 다룰 수 있게 될 것이다.
하이브는 SQL과 같은 언어이기 때문에, SQL 언어와 데이터베이스에 대한 경험이 있다면 훨씬 이해가 쉽고, 유용하게 적용할 수 있다.

이 책의 구성

1장, ‘빅데이터와 하이브 소개’에서는 빅데이터의 진화, 하둡 생태계, 하이브를 소개한다. 하이브 아키텍처와 빅데이터 분석에서 하이브를 사용하는 장점도 살펴본다.
2장, ‘하이브 환경 설정’에서는 하이브 환경 설정을 설명한다. 하이브를 사용한 커맨드 라인과 개발 툴도 다룬다.
3장, ‘데이터 정의와 설명’에서는 하이브의 테이블, 파티션, 버킷, 뷰에 대한 기본 데이터 타입과 데이터 정의 언어를 소개한다.
4장, ‘데이터 선택과 범위’에서는 하이브에 데이터의 쿼리, 연결, 범위를 요청함으로써 데이터를 찾는 방법을 보여준다.
5장, ‘데이터 조작’에서는 하이브의 데이터를 변경, 이동, 정렬, 변환하는 과정을 설명한다.
6장, ‘데이터 집계와 샘플링’에서는 분석 함수, 윈도우 기능, 샘플 절을 사용해 집계하는 방법과 샘플링하는 방법을 설명한다.
7장, ‘성능 고려 사항’에서는 설계, 파일 포맷, 압축, 저장소, 쿼리, 작업 관점에서 성능 고려사항에 대한 모범 사례를 소개한다.
8장, ‘확장성 고려 사항’에서는 사용자 정의 함수, 스트리밍, 직렬화, 역직렬화를 생성해서 하이브를 확장하는 방법을 다룬다.
9장, ‘보안 고려 사항’에서는 인증, 권한, 암호화 관점으로 하이브의 보안 영역을 소개한다.
10장, ‘다른 툴과의 연동’에서는 기타 빅데이터 툴과 어떻게 연동할 수 있는지를 다룬다. 하이브 배포 버전의 주요 이정표를 살펴본다.

지은이의 말

빅데이터 분석에서 하이브에 대한 관심이 늘고 있는 것은 하둡 위에서 동작하는 하이브가 빅데이터의 저장, 계산, 분석에 관한 최신 데이터 솔루션이기 때문이다. SQL 같은 문법은 하이브를 쉽게 배울 수 있게 하고, 빅데이터 기반에 상호작용하는 SQL 질의에 대한 표준으로도 자주 채택되고 있다. 하이브에서는 고급 코딩 기술뿐 아니라 복잡한 빅데이터 분석까지 다양한 기능을 사용 할 수 있다. 하이브의 높은 성숙도는 하둡을 넘어 점차 다른 컴퓨팅 프레임워크 간의 의미 있는 아키텍처와 기능을 통합하고, 공유할 수 있게 할 것이다.

저자/역자 소개

지은이 소개

다융 두(Dayong Du)

빅데이터를 실제로 다루는 사람이고, 개발자 조직을 이끌고 있으며, 기술 컨설팅, 설계, 엔터프라이즈 빅데이터 솔루션 구현에 전문 지식이 많은 개발자다. 엔터프라이즈 데이터 웨어하우스, 비즈니스 인텔리전스, 빅데이터와 분석 분야에 10년 이상의 경력을 가지고 있으며, 방송 미디어, 여행사, 통신사 등 다양한 산업에 데이터 인텔리전스 경험을 제공하고 있다. 현재 캐나다의 토론토에 위치한 퀵플레이 미디어(QuickPlay Media) 사에서 근무하고 있으며, 온라인 미디어 서비스와 콘텐츠 제작자를 위한 엔터프라이즈 빅데이터 인텔리젼스 리포팅 시스템을 개발하고 있다. 댈하우지 대학교(Dalhousie University)에서 컴퓨터 과학 석사 학위를 받았고, 클라우데라 인증 아파치 하둡 개발자 인증서(Cloudera Certified Developer for Apache Hadoop certification)를 가지고 있다.

옮긴이의 말

하이브는 하둡을 기반으로 하는 데이터 웨어하우스 패키지입니다. 하이브는 하둡 HDFS의 대용량 데이터를 데이터베이스의 표준 SQL처럼 다룰 수 있기 때문에 SQL을 안다면 하둡도 쉽게 다룰 수 있습니다. 하지만, 하이브 언어인 HQLHive Query Langage는 SQL과 완벽하게 동일하지는 않습니다. 따라서 이 책에는 하이브 언어를 사용 할 때 알아야 하는 하둡 내부 구조와 주의할 내용이 담겨있습니다.
저는 카카오에서 대용량 서비스의 분석 업무를 진행할 때, 하둡 스트리밍(hadoop streaming)과 하이브를 사용합니다. 간혹 하이브가 없었더라면 하는 생각이 들 때면 아찔해지곤 합니다. 그만큼 하이브는 생산성을 높여주는 좋은 툴입니다. 최근에는 대용량을 다루는 작업을 병렬로 실행할 수 있는 스파크(Spark)라는 최신 툴이 사용되고 있습니다만, 스파크에서도 하이브를 연동하여 사용할 수 있는 환경(https://cwiki.apache.org/confluence/display/Hive/Hive+on+Spark)이 있기 때문에 하이브는 더욱 빛이 나고 있습니다.
이 책을 번역하면서 하이브에 대해 많이 배울 수 있었습니다. 이 책은 하이브 HQL의 중요한 부분을 설명하며, 하이브를 잘 확장하는 방법을 설명합니다. 하이브를 처음 접하는 독자나, 하이브의 전체적인 기능을 살펴보려는 독자가 참고할 만한 좋은 책이라 생각합니다.

옮긴이 소개

김용환

네이버, 라인(Line)을 거쳐 카카오(Kakao)에서 개발자로 일하고 있다. 현재 마흔한 살의 평범한 개발자로 다양한 도전에서 에너지를 얻으며, 개발과 실무 경험을 블로그(http://knight76.tistory.com)에 기록하고 있다. 에이콘출판사의 『Ansible 설정 관리』(2015), 『ElasticSearch Cookbook 2/e』(2016), 『Redis 핵심정리』(2016), 『일래스틱서치 입문과 활용』(2016), 『CentOS 7 리눅스 서버 쿡북』(2016)을 번역했다.

목차

목차
  • 1장. 빅데이터와 하이브 소개
    • 짧은 역사
    • 빅데이터의 소개
    • 관계형 데이터베이스와 NoSQL vs 하둡
    • 배치, 실시간, 스트림 처리
    • 하둡 생태계의 개요
    • 하이브 개요
    • 요약

  • 2장. 하이브 환경 설정
    • 아파치에서 하이브 설치하기
    • 외부 업체 패키지에서 하이브 설치하기
    • 클라우드에서 하이브 시작하기
    • 하이브 커맨드 라인과 비라인 사용하기
    • 하이브 통합 개발 환경
    • 요약

  • 3장. 데이터 정의와 설명
    • 하이브의 데이터 타입 이해하기
    • 데이터 타입 변환
    • 하이브 데이터 정의 언어
    • 하이브 데이터베이스
    • 하이브의 내부 및 외부 테이블
    • 하이브 파티션
    • Hive buckets
    • 하이브 뷰
    • 요약

  • 4장. 데이터 선택과 범위
    • SELECT 문
    • INNER JOIN 문
    • OUTER JOIN과 CROSS JOIN
    • 특수 조인: MAP JOIN
    • 집합 명령: UNION ALL
    • 요약

  • 5장. 데이터 조작
    • 데이터 교환 -LOAD
    • 데이터 교환: INSERT
    • 데이터 교환: EXPORT와 IMPORT
    • ORDER와 SORT
    • 명령어와 함수
    • 트랜잭션
    • 요약

  • 6장. 데이터 집계와 샘플링
    • 기초적인 집계: GROUP BY
    • 고급 집계: GROUPING SETS
    • 고급 집계: ROLLUP와 CUBE
    • 집계 조건: HAVING
    • 분석 함수
    • 샘플링
    • 요약

  • 7장. 성능 고려 사항
    • 성능 유틸리티
    • EXPLAIN 문
    • ANALYZE 문
    • 설계 최적화
    • 파티션 테이블
    • 버킷 테이블
    • 인덱스
    • 데이터 파일 최적화
    • 파일 포맷
    • 압축저장소 최적화
    • 작업과 쿼리 최적화
    • 로컬 모드
    • JVM 재사용
    • 병렬 실행
    • 작업 최적화
    • 일반 조인
    • 맵 조인
    • 버킷 맵 조인
    • 정렬 합병 버킷 조인
    • 정렬 합병 버킷 맵 조인
    • 왜곡 조인
    • 요약

  • 8장. 확장성 고려 사항
    • 사용자 정의 함수
    • UDF 코드 템플릿
    • UDAF 코드 템플릿
    • UDTF 코드 템플릿
    • 개발과 배포
    • 스트리밍
    • SerDe
    • 요약

  • 9장. 보안 고려 사항
    • 인증
    • 메타 저장소 서버 인증
    • HiveServer2 인증
    • 권한레거시 권한 모드
    • 저장소 기반 권한 모드
    • SQL 표준 기반 모드
    • 암호화
    • 요약

  • 10장. 다른 툴과의 연동
    • JDBC / ODBC 커넥터
    • HBase
    • Hue
    • HCatalog
    • 주키퍼
    • 우지
    • 하이브 로드맵

도서 오류 신고

도서 오류 신고

에이콘출판사에 관심을 가져 주셔서 고맙습니다. 도서의 오탈자 정보를 알려주시면 다음 개정판 인쇄 시 반영하겠습니다.

오탈자 정보는 다음과 같이 입력해 주시면 됩니다.

(예시) p.100 아래에서 3행 : '몇일'동안 -> 며칠동안