R을 활용한 기계 학습 [데이터 분석을 위한 머신 러닝 이론과 적용]

원서명Machine Learning with R (ISBN 9781782162148)
지은이브레트 란츠
옮긴이전철욱

ISBN : 9788960776135
35,000원
2014년 09월 30일 펴냄
페이퍼백 | 456쪽 | 188*235mm
시리즈 : acorn+PACKT, 데이터 과학

판매처

개정판

파일다운로드

책 소개
저자/역자 소개
목차
정오표
도서 오류 신고

책 소개

요약

이 책은 R이 제공하는 다양한 확률, 통계 기법을 모두 사용할 수 있을 뿐만 아니라 사용법도 쉽기 때문에 누구나 데이터를 분석하고 예측할 수 있게 한다. 손쉬운 CRAN을 통해 라이브러리를 설치는 다양한 라이브러리가 필요한 기계 학습에 매우 적합하다. 저자는 다양하고 흥미로운 실제 연구 데이터로 예제를 만들어 화려한 기법 소개보다 정확한 개념과 과정을 설명함으로써 어려운 개념을 쉽게 이해할 수 있게 한다.

이 책에서 다루는 내용

■ 기계 학습에 적용할 데이터 준비를 위한 R 사용

■ R을 활용한 데이터 탐험과 시각화

■ 최근접 이웃 기법을 이용한 데이터 분류

■ 데이터 분류를 위한 베이지안 기법 학습

■ 결정 트리, 규칙, 서포트 벡터 머신을 사용한 값 예측

■ 선형 회귀를 이용한 수치 값 예측

■ 신경망을 이용한 데이터 모델화

■ 장바구니 분석을 위한 연관 규칙을 사용한 패턴 찾기

■ 분할을 위한 데이터를 군집화하기

이 책의 대상 독자

이 책은 실제로 데이터를 사용하고자 하는 독자를 대상으로 한다. 기계 학습을 조금 알고 있지만 R을 한 번도 사용하지 않았거나, R에 대해 조금은 알지만 기계 학습은 잘 모르는 초보자를 대상으로 한다. 두 경우 모두 이 책을 통해 독자가 빠르게 학습하고 적용할 수 있게 한다. 기본적인 수학과 프로그래밍에 대한 친근함이 있으면 좋지만, 꼭 필요하지는 않다. 중요한 것은 호기심이다.

이 책의 구성

1장, ‘기계 학습 소개’에서는 용어와 기계 학습기를 구별하고 정의하는 개념을 소개한다. 기계 학습 작업과 적절한 알고리즘을 선정하기 위한 기법도 알려준다.

2장, ‘데이터 관리와 이해’에서는 R로 데이터를 가공해보면서 데이터를 로딩하고, 탐구하고, 이해하기 위해 데이터 구조와 프로시저를 사용한다.

3장, ‘게으른 학습: 최근접 이웃을 사용한 분류’에서는 첫 번째 기계 학습 작업인 악성 암 예제를 식별하기 위해, 단순하지만 강력한 학습 알고리즘을 적용하고 어떻게 작동하지 배운다.

4장 ‘확률론적 학습: 나이브 베이즈를 사용한 분류’에서는 최신 스팸 필터링 시스템에 사용하는 확률의 기본 개념을 알아본다. 자신만의 스팸 필터를 만드는 과정에서 텍스트 마이닝의 기본을 배운다.

5장, ‘분할 정복: 결정 트리와 규칙을 사용한 분류’에서는 정확하고 쉽게 설명할 수 있는 예측의 학습 알고리즘을 살펴본다. 이런 기법은 결정 투명성이 중요한 작업에 적용한다.

6장, ‘수치 데이터 예측: 회귀 기법’에서는 수치 예측을 할 수 있는 기계 학습 알고리즘을 소개한다. 이 기법은 통계 분야에 포함되기 때문에 수치 관계를 이해해야 하는 기본적인 메트릭(Metric)을 배운다.

7장, ‘블랙박스 기법: 신경망과 서포트 벡터 머신’에서는 극단적으로 복잡하지만 강력한 기계 학습을 다룬다. 수학 관련 지식은 부담스럽지만, 짧은 시간 내에 내부 작동을 설명하는 예제를 통해 작동 방법을 알아보자.

8장, ‘패턴 검색: 연관 규칙을 사용한 장바구니 분석’에서는 소매업계에서 사용하는 추천 시스템에 대한 알고리즘을 알아본다. 구매자 자신보다 소비 습관을 잘 아는 판매자에게 놀란 적이 있다면 그 비밀을 8장에서 알려준다.

9장, ‘데이터 그룹 검색: k 평균을 이용한 군집화’에서는 관련된 아이템의 군집(cluster)에 넣는 과정을 살펴본다. 웹 기반 커뮤니티 내에서 프로파일의 일부를 찾기 위해 이 알고리즘을 사용한다.

10장, ‘모델 성능 평가’에서는 기계 학습 프로젝트의 성과를 측정하는 정보를 제공한다. 미래 데이터에 대한 학습기의 성능에 대한 믿을 만한 측정 방식을 알아본다.

11장, ‘모델 성능 향상’에서는 기계 학습 경쟁의 우승 팀이 사용한 기법을 알려 준다. 경쟁에 도전하거나 데이터를 최대한 활용하고자 한다면 이런 기법을 꼭 알고 있어야 한다.

12장, ‘특화된 기계 학습 주제’에서는 기계 학습의 최신 정보를 알아본다. 빅데이터를 R에서 빠르게 사용할 수 있는 기법을 다뤄 R로 최대한 잘 사용할 수 있게 한다.

저자/역자 소개

저자 서문

기계 학습 그 중심에는 정보를 실행할 수 있는 지식으로 변환하는 알고리즘이 연관돼 있다. 이런 사실은 기계 학습이 빅데이터 시대인 오늘날과 잘 맞음을 의미한다. 기계 학습 없이 정보의 거대한 흐름을 따라가지 못한다.

증가하는 R(크로스플랫폼, 무료 통계 프로그래밍 환경)의 중요성을 고려해 기계 학습을 시작할 최적기다. R은 강력하며, 데이터에서 통찰력을 얻을 수 있는 배우기 쉬운 도구를 제공한다.

반드시 이해해야 하는 기본적인 이론과 더불어 하나씩 직접 예제를 만들어본다. 이 책은 여러분의 프로젝트에 기계 학습을 적용할 때 필요한 모든 지식을 알려준다.

저자 소개

브레트 란츠(Brett Lantz)

인간 행위를 이해하기 위해 10년 동안 혁신적인 데이터 기법을 활용하고 있다. 사회학을 전공했고, 10대들의 소셜네트워킹 웹사이트 프로필을 연구하면서 처음으로 기계 학습에 빠졌다. 이후 핸드폰 통화, 의료비 청구 데이터, 자선 활동 등 학제 간 연구를 하고 있다. 여유시간에 가족과 시간을 보내며, 나머지 시간에는 대학 스포츠, 닥스훈트와 시간을 보낸다. 데이터에서 통찰력을 찾는 지식을 나누고자 dataspelunking.com을 운영 중이다.

옮긴이의 말

잃어버린 ‘고리’를 찾아서

사물이 점차 디지털화되면서 사물과 행하는 모든 행위는 데이터로 남겨진다. 한 개인의 모든 행위는 데이터로 남겨지며, 바꿔 말하면 데이터가 개인을 나타내는 시대다. 아이폰에 저장된 아침 기상 시간, 출퇴근하면서 버스카드가 남기는 출발지, 출발시간, 도착지, 도착시간, 통화 기록, 음악 재생기록, 인터넷에서 구매한 목록, 집에서 보는 프로그램 로그까지 모두 한 사람을 나타내는 지표가 된다. 어떻게 보면 무서운 일이지만, 긍정적인 요소도 많다. 예를 들면 출근 시간과 근무지가 비슷한 사람들을 군집화(clustering)할 수 있으며, 좋아하는 음악 장르를 친구나 기계에서 추천 받을 수도 있다. 더 나아가 수집된 스팸 문자로부터 지금 받은 문자의 스팸 여부도 알 수 있으며, 상품을 진열할 때 최적의 위치도 알 수 있다. 이렇게 퍼져 있는 데이터에서 새로운 지식을 얻거나 새로운 데이터의 특성을 예측할 수 있는 기술이 기계학습이다. 기계 학습은 점점 더 많아지는 데이터에서 사람이 알지 못했던 ‘고리’를 찾아주는 데 큰 역할을 한다. 최신 기술을 이끄는 구글, 아마존, 애플 등과 같은 회사에서는 가장 활발하게 연구하는 분야이기도 하다. 이제 데이터를 어디서나 구할 수 있으며, 어떻게 데이터를 연관시키는가가 핵심이 됐다. 그 ‘고리’를 찾는 도구가 바로 기계 학습이다.

통계를 넘어서

기계 학습의 이론적 배경은 통계와 확률이다. 기계 학습 기법을 잘 적용하기 위해서는 가장 먼저 데이터를 분석해야 한다. 데이터가 어떻게 분포돼 있는지, 다른 분포로 변환할 수 없는지를 고민할 필요가 있다. R은 데이터 분석에 탁월한 언어다. 배우기도 쉬우며, CRAN(Comprehensive R Archive Network)을 통해 별다른 노력 없이 필요한 패키지를 설치할 수 있다. 필요에 따라 적절한 패키지를 찾아 바로 사용할 수 있다는 점은 마법처럼 매력적이다. 뿐만 아니라 시각화를 지원해 직관적으로 데이터를 분석할 수 있다는 점이 데이터 분석에 R이 잘 사용되는 이유다. 이 책은 R을 처음 접하는 사용자가 충분히 책을 다 읽을 수 있게 자세히 설명한다. 데이터를 분석할 때 필요한 기본 명령과 그 결과를 알기 쉽게 설명해 R 언어에 대한 부담감을 없게 했다. 실제 이 책을 다 읽고 난 후 R 언어에 대한 부담감은 거의 사라질 것이다. 데이터를 전처리해 분석하고, 기계 학습의 기법에 적용한 후 결과에 따라 다시 데이터를 처리하는 과정에서 R 언어의 차별화된 우수성을 느낄 수 있다.

거인의 어깨 위에서

아마존과 유튜브의 추천 시스템, 구글의 무인 자동차와 같이 기계 학습을 사용한 시스템과 사용하지 않은 시스템의 차이는 점점 더 커지고 있다. 기계학습을 사용한 기능이 전체 시스템을 좌우하는 것이 현실이다. 하지만 기계학습을 처음 접하는 학습자에게는 넘어야 할 산들이 많다. 예를 들면 반복적으로 사용하는 확률/통계의 기본 지식이나 데이터를 다룰 때 필요한 선형대수에 대한 지식이다. 그리고 각 기법에서 사용되는 수학적 모델과 그 모델의 유효성뿐만 아니라 문제 영역마다의 특수성을 염두에 둬야 한다. 이 책은 가장 먼저 기계 학습의 전체적인 이해를 높일 수 있게 설명하고, 기법마다 필요한 기반 지식을 충실히 설명한다. 기법의 장단점을 표로 비교해주고, 이미 학습했던 독자에게도 다른 기법과 비교하면서 학습할 수 있게 한다. 또한 기법을 적용할 때에는 데이터 수집, 데이터 전처리, 데이터로 모델 훈련, 모델 성능 평가, 모델 성능 향상으로 체계적으로 나눠 전체 과정을 이해할 수 있게 했다. 사실 이런 순서는 정확히 기계 학습 과정을 대표하지는 않지만, 처음 학습하는 독자에게는 모델을 선택하는 과정이나 차후 어느 단계에서 더 성능을 높일 수 있을지 알 수 있게 한다. 더욱이 저자의 실제 연구대상을 예제로 만들어 실제 현실 문제를 해결하는 것과 같은 현실감을 느낄 수 있다. 쉽고 체계적인 설명과 다양한 패키지를 설치할 수 있는 R은 기계학습에 쉽게 접근할 수 있게 한다.

옮긴이 소개

전철욱

(주)인실리코젠에서 생물 정보 데이터를 다루고 있으며, 일본, 호주에서 소프트웨어를 개발했다. 공익을 위한 재능을 만들고자 노력하며, 파이썬, R, 자바스크립트 같은 언어와 기계 학습의 예측성을 좋아한다. 에이콘출판사의 『Building Machine Learning Systems with Python 한국어판: scikit-learn 라이브러리로 구현하는 기계 학습 시스템』을 번역했다.

1장 기계 학습 소개
- 기계 학습의 기원
- 기계 학습의 사용과 남용
  - 윤리성 고려
- 기계는 어떻게 학습하는가?
  - 추상화와 지식의 표현성
  - 일반화
  - 학습 성공하기
- 데이터에 기계 학습을 적용하는 단계
- 기계 학습 알고리즘 선택
  - 입력 데이터에 대한 고려
  - 기계 학습 알고리즘의 종류에 대한 의견
  - 데이터에 맞는 적당한 알고리즘 선정
- 기계 학습을 위한 R 사용
  - R 패키지 설치와 로딩
    - R 패키지 설치
    - point-and-click 인터페이스로 패키지 설치
    - R 패키지 로드
- 정리
2장 데이터 관리와 이해
- R의 데이터 구조
- 벡터
- 팩터
  - 리스트
  - 데이터 프레임
  - 매트릭스와 어레이
- R과 데이터 관리
  - R 데이터 구조로 로드와 저장
  - CSV 파일의 데이터 임포트와 저장
  - SQL 데이터베이스로부터 데이터 임포트
- 데이터 이해와 탐험
  - 데이터 구조 살펴보기
  - 수치 변수 살펴보기
    - 중심 경향 측정: 평균과 중앙값
    - 퍼짐 측정: 사분위수와 5개 수의 요약
    - 수치 변수 시각화: boxplots
    - 수치 변수 시각화: 히스토그램
    - 수치 데이터의 이해: 단일 분포와 정규 분포
    - 퍼짐 측정: 분산과 표준 편차
  - 범주형 변수 살펴보기
    - 중심 경향 측정: 최빈값
  - 변수 사이 관계 살펴보기
    - 관계 시각화: 산점도
    - 관계 살펴보기: 이원 교차표
- 정리
3장 게으른 학습: 최근접 이웃을 사용한 분류
- 최근접 이웃을 사용한 분류의 이해
  - kNN 알고리즘
    - 거리 계산
    - 적당한 k 선택
    - kNN을 사용하기 위한 데이터 준비
  - 왜 kNN 알고리즘은 게으른가?
- kNN 알고리즘과 유방암 진찰
  - 1단계: 데이터 수집
  - 2단계: 데이터 준비와 탐구
    - 변환: 수치 데이터 정규화하기
    - 데이터 전처리: 훈련과 테스트 데이터 만들기
  - 3단계: 데이터에 적용해 모델 훈련
  - 4단계: 모델 성능 평가
  - 5단계: 모델 성능 높이기
    - 변환: z 점수 표준화
    - k의 대안적인 값 테스트
- 정리
4장 확률론적 학습: 나이브 베이즈를 사용한 분류
- 나이브 베이즈 이해
  - 베이지안 기법의 기본적인 개념
    - 확률
    - 조건부 확률
    - 베이즈 이론과 조건 확률
  - 나이브 베이즈 알고리즘
    - 나이브 베이즈 분류
    - 라플라스 추정기
    - 나이브 베이즈와 수치 속성 사용
    - 예제: 나이브 베이즈로 핸드폰 스팸 제거
  - 1단계: 데이터 모으기
  - 2단계: 데이터 준비와 탐구
  - 데이터 준비: 분석을 위한 텍스트 데이터 처리
    - 데이터 준비: 훈련과 테스트 데이터셋 생성
    - 텍스트 데이터 시각화: 단어 클라우드
    - 데이터 준비: 빈도 단어에 대한 지표 속성 생성
  - 3단계: 데이터를 적용해 모델 훈련
  - 4단계: 모델 성능 평가
  - 5단계: 모델 성능 향상
- 정리
5장 분할 정복: 결정 트리와 규칙을 사용한 분류
- 결정 트리 이해
  - 나누어 정복하기
    - C5.0 결정 트리 알고리즘
      - 최적의 구분 선택
      - 결정 트리 가지치기
- 예제: C5.0 결정 트리를 사용한 위험 은행 대출 확인
  - 1단계: 데이터 수집
  - 2단계: 데이터 준비와 탐구
    - 데이터 준비: 임의의 훈련 데이터와 테스트 데이터 생성
  - 3단계: 데이터에 대한 모델 훈련
  - 4단계: 모델 성능 평가
  - 5단계: 모델의 성능 향상
    - 결정 트리의 정확도 향상
    - 다른 것보다 좀 더 고비용 실수를 만들기
- 분류 규칙 이해
  - 구분해 정복하기
  - One Rule 알고리즘
  - RIPPER 알고리즘
  - 결정 트리로부터 규칙
- 예제: 규칙 학습기로 독버섯 식별
  - 1단계: 데이터 수집
  - 2단계: 데이터 준비와 탐구
  - 3단계: 데이터에 대해 모델 훈련
  - 4단계: 모델 성능 평가
  - 5단계: 모델 성능 향상
- 정리
6장 수치 데이터 예측: 회귀 기법
- 회귀 이해
  - 단순 선형 회귀
  - 정규 최소 제곱 추정
  - 상관관계
  - 다중 선형 회귀
- 예제: 선형 회귀를 사용한 의료비 예측
  - 1단계: 데이터 수집
  - 2단계: 데이터 준비와 탐구
    - 속성 간의 관계 살펴보기: 상관관계 매트릭스
    - 속성 간의 관계 시각화: 산점도 매트릭스
  - 3단계: 데이터로 모델 훈련
  - 4단계: 모델 성능 평가
  - 5단계: 모델 성능 향상
    - 모델 명세: 비선형 관계 추가
    - 변환: 수치 변수를 이진 지시자로 변환
    - 모델 명세: 상호 작용 효과 추가
    - 모두 다 적용: 향상된 회귀 모델
- 회귀 트리와 모델 트리 이해
  - 회귀에 트리 추가
- 예제: 회귀 트리와 모델 트리를 사용해 와인의 품질 추정
  - 1단계: 데이터 수집
  - 2단계: 데이터 준비와 탐구
  - 3단계: 데이터에 적용해 모델 훈련
    - 결정 트리 시각화
  - 4단계: 모델 성능 평가
    - 평균 절대 오차를 이용한 성능 측정
  - 5단계: 모델 성능 향상
- 정리
7장 블랙박스 기법: 신경망과 서포트 벡터 머신
- 신경망 이해
  - 생물체에서 인공 뉴런으로
  - 활성 함수
  - 망 구성
    - 층의 개수
    - 정보 진행 방향
    - 각 측의 노드 수
  - 역전파로 신경망 훈련
- ANNS와 콘크리트의 내구력 모델화
  - 1단계: 데이터 수집
  - 2단계: 데이터 준비와 탐구
  - 3단계: 데이터로 모델 훈련
  - 4단계: 모델 성능 평가
  - 5단계: 모델 성능 향상
- 서포트 벡터 머신 이해
  - 초평면과 분류
  - 최대 마진 찾기
    - 선형적으로 구별 가능한 데이터의 경우
    - 비선형적으로 구별 가능한 데이터의 경우
  - 비선형 공간에서 커널 사용
- SVM으로 OCR 수행
  - 1단계: 데이터 수집
  - 2단계: 데이터 준비와 탐구
  - 3단계: 데이터로 모델 훈련
  - 4단계: 모델 성능 평가
  - 5단계: 모델 성능 향상
- 정리
8장 패턴 검색: 연관 규칙을 사용한 장바구니 분석
- 연관 규칙 이해
  - 연관 규칙 학습을 위한 아프리오리 알고리즘
    - 규칙 흥미 측정: 지지도와 신뢰도
    - 아프리오리 원칙과 규칙 집합 생성
- 예제: 연관 규칙과 자주 구매하는 식료품 식별
  - 1단계: 데이터 수집
  - 2단계: 데이터 준비와 탐구
    - 데이터 준비: 거래 데이터를 위한 희소 매트릭스 생성
    - 제품 지지도 아이템 빈도 도식 시각화
    - 거래 데이터 시각화: 희소 매트릭스를 도식화
  - 3단계: 데이터로 모델 훈련
  - 4단계: 모델 성능 평가
  - 5단계: 모델 성능 향상
    - 연관 규칙의 집합 정렬
    - 연관 규칙의 부분집합 취하기
    - 연관 규칙을 파일이나 데이터 프레임으로 저장
- 정리
9장 데이터의 그룹 검색: k 평균을 이용한 군집화
- 군집화 이해
  - 기계 학습 태스크로서 군집화
  - 군집화를 위한 k 평균 알고리즘
    - 군집 지정과 변경을 위한 거리 사용
    - 군집의 적당한 개수 선택
    - k 평균을 이용한 10대 시장 영역 검색
  - 1단계: 데이터 수집
  - 2단계: 데이터 준비와 탐구
    - 데이터 준비: 결측치에 대한 더미 코딩
    - 데이터 준비: 결측치 대체
  - 3단계: 데이터에 대한 모델 훈련
  - 4단계: 모델 평가
  - 5단계: 모델 성능 향상
- 정리
10장 모델 성능 평가
- 분류를 위한 성능 측정
  - R에서 분류 예측 데이터로 작업
  - 혼돈 매트릭스 심층 학습
  - 성능을 측정하기 위한 혼돈 매트릭스 사용
  - 정확도를 넘어: 다른 성능 측정
    - 카파 통계
    - 민감도와 특이도
    - 정밀도와 재현율
    - F 측정
  - 성능 균형의 시각화
    - ROC 커브
  - 미래 성능 추정
    - 홀드아웃 기법
    - 교차 검증
    - 부트스트랩 샘플링
- 정리
11장 모델 성능 향상
- 좀 더 나은 성능을 위한 증권 모델 조절
  - 자동화된 매개변수 조율을 위한 caret 사용
    - 간단한 조절 모델 생성
    - 조절 과정 변경
- 메타 학습을 활용한 모델 성능 향상
  - 앙상블 이해
  - 배깅
  - 부스팅
  - 랜덤 포레스트
    - 랜덤 포레스트 훈련
    - 랜덤 포레스트 성능 평가
- 정리
12장 특화된 기계 학습 주제
- 특별한 데이터와 작업
  - RCurl 패키지로 웹에서 데이터 수집
  - XML 패키지로 XML 쓰고 읽기
  - rjson 패키지로 JSON 읽고 쓰기
  - xlsx을 사용해 마이크로소프트 엑셀 스프레드시트 읽고 쓰기
  - 바이오인포매틱스 데이터로 작업
  - 소셜 네트워크 데이터와 그래프 데이터로 작업
- R 성능 향상
  - 매우 큰 데이터 관리
  - 데이터 테이블(data.table)로 빠른 데이터 프레임 생성
  - ff로 디스크 기반 데이터 프레임 생성
  - bigmemory로 거대한 매트릭스 사용
- 병렬 계산으로 빠른 학습
  - 실행 시간 측정
  - foreach로 병렬 작업
  - 멀티코어로 멀티태스킹 운영체제 사용
  - snow와 snowfall로 멀티워크스테이션과 네트워킹
  - 맵리듀스와 하둡으로 병렬 클라우드 계산
- GPU 계산
- 최적화된 기계 학습 배포
  - biglm으로 좀 더 큰 회귀 모델 생성
  - bigrf로 좀 더 크고 빠른 랜덤 포레스트 생성
  - caret과 병렬로 모델 훈련과 평가
- 정리

도서 오류 신고

이름

e-mail

도서명

신고내용

에이콘출판사에 관심을 가져 주셔서 고맙습니다. 도서의 오탈자 정보를 알려주시면 다음 개정판 인쇄 시 반영하겠습니다.

오탈자 정보는 다음과 같이 입력해 주시면 됩니다.

(예시) p.100 아래에서 3행 : '몇일'동안 -> 며칠동안

개인정보수집ㆍ이용에 동의합니다.

정오표

4장의 코드에 다음 문제가 발생한 경우(등록일: 2015년 4월 8일)

영문 예제 파일은 여기에서 내려받으세요.

1쇄(2014년 9월 30일 출간) 수정 사항(등록일: 2015년 5월 8일)

수정 사항은 여기에서 내려받으세요.

2015. 12. 02 수정사항

[p.45: 아래에서 3행]
매트릭스 형태 데이터는 지금까지 기계 학습에서 사용되기 가장 일반적인 형태다.
→
매트릭스 형태의 데이터는 지금까지 기계 학습에서 사용되는 가장 일반적인 형태다.

[p.81: 아래에서 6행]
19904 - 10995 = 3909
->
14904 - 10995 = 3909를

[p.59: 아래에서 11행]
벡터는 다른 프로그래밍 언어에서 사용되는 '=' 지정 연산자를 사용하지만, R에서는 지정 연산자 '<-' 연산자를 사용해 이름을 부여한다.
→
벡터는 다른 프로그래밍 언어에서 '='로 지정 연산자를 사용하지만, R에서는 '<-' 로 지정 연산자를 사용해 이름을 부여한다.

[p.133 : 13행]
독립적인 사건 간의 관계는
->
종속적인 사건 간의 관계는

[p.133 : 15행]
사건 B가 일어남에 관해 사건 A의 확률은 독립적이기 때문에
->
사건 A의 확률은 사건 B가 일어났는가를 조건으로 하기 때문에

[p.193: 첫 행]
‘구분해 정복하기’ 알고리즘은 커버링(covering) 알고리즘으로 알려졌다.
->
‘구분해 정복하기’ 알고리즘은 커버링(covering) 알고리즘으로도 알려졌다.

[p. 271: 9행]
모델이 이해할지 못 할
->
모델이 이해하지 못 할

[p. 289: 5행]
수치 개수가 대단해 크다고
->
수치 개수가 대단히 크다고

[p. 293: 3행]
매개변수 C에 추가다.
->
매개변수 C의 추가다.

[p.301: 4행]
m <- ->
m <- ksvm

[p.301: 6행]
predictiors
->
predictors

[p.301: 아래에서 10행]
확류
->
확률

[p.301: 아래에서 10행]
메트릭스
->
매트릭스

[p.318: 8행]
이전의 대부분 분석처럼 데이터 프레임으로 데이터를 저장하면 어떨까?
->
이전의 대부분 분석처럼 데이터 프레임으로 저장하지 않는 이유는 무엇일까?

[p.324: 5행]
> image(sample(groceries, 100)
->
> image(sample(groceries, 100))

[p.326: 2행]
놀라
->
놀랄

[p.330: 3행]
25.4%
->
25.6%

[p.333: 아래에서 2행]
완벽한 일치(%pin%)
->
완벽한 일치(%ain%)

[p.352: 아래에서 2행]
20살 이하의
->
20살 미만의

[p.353: 아래에서 4행]
수차
->
수치

[p.366: 아래에서 9행]
충분하기
->
충분하지

[p.395: 3행]
전제적으로
->
전체적으로

[p.395: 5행]
무작의 홀드아웃으로
->
무작위의 홀드아웃으로

[p.400: 아래에서 6행]
이우
->
이유

[p.402: 10행]
경쟁 분야를
->
경쟁 분야는

[p.415: 3행]
이루게
->
이루기 위해

[p.420: 6행]
투표를 조합에 대한 함수가
->
투표를 조합하기 위한 함수가

[p.422: 5행]
양상블의
->
앙상블의

[p.425: 아래에서 7행]
sqrt(q)
->
sqrt(p)

[p.426: 7행]
포함한지
->
포함하는지를

[p.438: 8행]
일부에 대한
->
일부에 대해서