Top

파이썬 성능 높이기 2/e [프로그램 병목 찾기부터 파이썬 구현 선택, 병렬 시스템 확장까지]

  • 원서명Python High Performance - Second Edition : Build robust applications by implementing concurrent and distributed processing techniques (ISBN 9781787282896)
  • 지은이가브리엘레 라나로(Gabriele Lanaro)
  • 옮긴이임혜연
  • ISBN : 9791161752419
  • 28,000원
  • 2018년 11월 30일 펴냄
  • 페이퍼백 | 340쪽 | 188*235mm
  • 시리즈 : acorn+PACKT, 프로그래밍 언어

책 소개

소스 코드 파일은 여기에서 내려 받으실 수 있습니다.

본문에 쓰인 컬러 이미지는 여기에서 내려 받으세요.
요약

파이썬 프로그램의 성능을 높이기 위한 여러 가지 전략을 소개한다. 파이썬에서 기본적인 프로그램 성능을 높이기 위한 병목 찾기를 어떻게 진행하는지부터 성능이 좋은 라이브러리 도입, 확장 파이썬을 컴파일하는 컴파일러, 파이썬 프로그램을 병렬적으로 만드는 것까지 다양한 수준의 성능 개선 기법이 나와 있으므로 파이썬을 어느 정도 써본 사람이라면 도움 될 것이다.

이 책에서 다루는 내용

■ NumPy와 Pandas 라이브러리로 효율적인 수치 계산 코드 작성하기
■ Cython과 Numba를 사용해 네이티브 성능 달성하기
■ 프로파일러로 파이썬 코드의 성능 병목 찾기
■ Asyncio와 RxPy를 사용해 비동기 코드 작성하기
■ 파이썬에서 텐서플로와 테아노를 사용해 자동으로 병렬 처리하기
■ Dask와 PySpark를 사용해 클러스터에 분산 알고리즘 설정, 실행하기

이 책의 대상 독자

애플리케이션 성능을 개선하려는 파이썬 개발자를 대상으로 한다. 파이썬에 대한 기초 지식이 있다고 가정한다.

이 책의 구성

1장, ‘벤치마크와 프로파일링 파이썬’에서는 프로그램 성능을 평가하는 방법과 코드의 느린 부분을 알아내고 고립시키는 실용적인 전략을 알려준다.
2장, ‘순수 파이썬 최적화’에서는 파이썬 표준 라이브러리와 순수 파이썬 서드파티 모듈이 제공하는 효율적인 데이터 구조와 알고리즘을 사용해 실행 시간을 수십 배 단위로 향상시키는 방법을 다룬다.
3장, ‘NumPy와 Pandas를 사용한 고속 배열 연산’에서는 NumPy와 Pandas 패키지에 대한 안내를 한다. 이 패키지를 정복하면 빠르게 동작하는 수치적 알고리즘을 표현력 좋고 간결한 인터페이스로 구현할 수 있게 된다.
4장, ‘Cython으로 C 성능 얻기’에서는 효율적인 C 코드를 생성하기 위해 파이썬 호환 문법을 사용하는 언어인 Cython을 살펴본다.
5장, ‘컴파일러 탐구’에서는 파이썬을 효율적 기계어 코드로 컴파일하는 데 사용할 수 있는 도구를 다룬다. 파이썬 함수를 최적화하는 컴파일러인 Numba와 파이썬 프로그램을 실행하면서 바로 최적화할 수 있는 대안 인터프리터인 PyPy를 사용하는 방법을 배운다.
6장, ‘동시성 구현’에서는 비동기적 프로그래밍 및 반응형 프로그래밍에 대한 지침을 알아본다. 여기서는 주요 용어와 개념을 배우고, asyncio와 RxPy 프레임워크를 사용해 깔끔한 동시성 코드를 작성하는 방법을 시연할 것이다.
7장, ‘병렬 처리’에서는 다중 코어 프로세서와 GPU에서의 병렬 프로그래밍을 소개한다. multiprocessing 모듈을 사용하고 코드가 테아노(Theano)와 텐서플로(Tensorflow)를 사용하도록 해 병렬성을 얻는 법을 배운다.
8장, ‘분산 처리’에서는 대규모 문제와 빅데이터를 위한 분산 시스템에서 병렬 알고리즘을 실행하는 데 초점을 두고 7장의 내용을 확장한다. Dask, PySpark, mpi4py 라이브러리를 다룬다.
9장, ‘성능을 높이는 설계’에서는 고성능 파이썬 애플리케이션 개발과 테스트, 배포를 위한 일반적 최적화 전략과 모범 사례를 다룬다.

저자/역자 소개

지은이의 말

파이썬 프로그래밍 언어는 문법이 직관적이고 재미있으면서 최고 품질의 서드파티 라이브러리가 다양한 덕분에 최근 몇 년 동안 급격히 큰 인기를 얻었다. 수많은 대학 입문 강좌와 고급 강좌에서 꼽힌 데 더해 과학과 엔지니어링 분야와 같이 집중적으로 숫자를 다루는 분야를 위해서도 선택됐다. 머신 러닝과 시스템 스크립팅, 웹 애플리케이션도 파이썬이 주로 활용되는 영역이다.
대부분이 C나 C++, 포트란(Fortran)과 같은 저수준 언어에 비해 레퍼런스 파이썬 인터프리터인 CPython이 비효율적이라고 여긴다. CPython의 성능이 형편없는 이유는 프로그램 명령instruction을 효율적인 기계어 코드로 컴파일하는 대신 인터프리터가 처리하기 때문이다. 인터프리터를 사용하면 이식성이 좋아지고 추가적 컴파일 단계가 없어지는 등 몇 가지 장점이 있지만 프로그램과 기계 사이에 간접 계층이 더해져 실행 효율성이 떨어진다.
몇 년에 걸쳐 CPython의 성능 문제를 극복하기 위해 많은 전략을 개발했다. 이 책의 목적은 그 간극을 메우고 일관적으로 파이썬 프로그램의 성능을 강하게 만들 방법을 가르치는 것이다.
이 책은 숫자를 다루는 코드 및 과학적 코드의 최적화를 다룰 뿐만 아니라, 웹 서비스와 애플리케이션의 응답 시간을 개선하는 전략까지 다뤄 많은 독자들에게 도움될 것이다.

지은이 소개

가브리엘레 라나로(Gabriele Lanaro)

중대형 컴퓨터 시뮬레이션을 사용한 결정체의 형성과 성장 연구를 수행해왔다. 2017년 이론 화학에서 박사 학위를 취득했다. 머신 러닝과 수치 계산 시각화, 웹 기술에 관심사가 걸쳐 있다. 좋은 소프트웨어를 향한 열정을 갖고 있으며 오픈 소스 패키지인 chemlab, chemview의 저자다. 이 책의 초판인 『고성능 파이썬 프로그래밍』(에이콘, 2013)을 썼다.

옮긴이의 말

파이썬은 최근에 굉장히 인기 있는 언어로 널리 쓰이고 있습니다. 머신 러닝부터 데이터 가공, 웹 애플리케이션까지 다양한 분야에서 파이썬을 활용할 수 있으며 사용하기 쉽고 직관적인 문법을 갖고 있어 진입 장벽도 낮은 편입니다. 그러나 또 개발자들은 파이썬으로 프로그램을 빨리 만들어 사용할 수는 있지만, 규모가 커지면 성능상 문제가 일어날 것이기 때문에 중요한 곳에서는 사용할 수 없다고도 생각합니다. 그런 영역이 있을지도 모르지만, 저는 어쩌면 너무 빨리 파이썬을 포기하는 것이 아닐까 의심했습니다.
이 책은 파이썬을 사용하면서 충분한 성능을 얻을 수 있는 여러 가지 접근법에 대해 설명합니다. 첫 장에서는 일반적인 성능 개선에 대해 사용할 수 있는 프로파일링과 벤치마킹에 대해 다룹니다. 그다음은 알고리즘과 데이터 구조 및 캐싱을 활용하는 순수 파이썬 최적화를 다룹니다. 데이터 분석에서 널리 사용되는 NumPy와 Pandas로 고속 배열 연산을 하는 방법도 설명하며, Cython으로 확장 파이썬 문법을 사용해 효율적인 C 코드를 얻고 사용하는 방법도 소개합니다. JIT를 활용하는 파이썬 성능 개선 방법도 보여주며, 동시성과 병렬성, 분산 처리를 파이썬에서 구현하는 방법과 라이브러리에 대해서도 소개합니다. 이 과정에서 반응형 프로그래밍 개념, 테아노나 텐서플로, 스파크처럼 요즘 유명해진 라이브러리 등에 대해서도 소개합니다.
좀 더 확장된 파이썬 언어 구현이나 파이썬 성능을 높이는 다양한 방법에 대해 관심이 있다면 이 책이 좋은 길잡이 역할을 해줄 거라고 생각합니다.

옮긴이 소개

임혜연

파이썬을 접한 후 파이썬 문법에 매료돼버린 개발자. 인간 언어와 프로그래밍 언어, 프론트엔드부터 백엔드까지 다 파고들고 싶은 욕심이 있는 사람이다. 옮긴 책으로 『데이터 접근 패턴』(에이콘, 2013), 『자연어 텍스트 처리를 통한 검색 시스템 구축』(에이콘, 2015)이 있다.

목차

목차
  • 1장. 벤치마킹과 프로파일링
    • 애플리케이션 설계
    • 테스트와 벤치마크 작성하기
      • 벤치마크 시간 측정하기
    • pytest-benchmark로 개선된 테스트와 벤치마크
    • cProfile로 병목 찾기
    • line_profiler로 행 단위 프로파일
    • 코드 최적화
    • dis 모듈
    • memory_profiler를 통한 메모리 사용량 프로파일링
    • 요약

  • 2장. 순수 파이썬 최적화
    • 유용한 알고리즘 및 데이터 구조
      • 리스트와 덱
      • 딕셔너리
      • 집합
      • 트라이
    • 캐싱과 메모이제이션
      • JOBLIB
    • 조건 제시법과 제너레이터
    • 요약

  • 3장. NumPy와 Pandas를 사용한 고속 배열 연산
    • NumPy 시작하기
      • 배열 생성하기
      • 배열 접근하기
      • 브로드캐스팅
      • 수학 연산
      • 놈 계산
    • 입자 시뮬레이터를 NumPy로 다시 작성하기
    • numexpr로 최적의 성능에 도달하기
    • Pandas
      • Pandas 기초
      • Pandas를 사용한 데이터베이스 방식의 연산
    • 요약

  • 4장. Cython으로 C 성능 얻기
    • Cython 확장 컴파일
    • 정적 형식 추가
      • 변수
      • 함수
      • 클래스
    • 선언 공유
    • 배열 다루기
      • C 배열과 포인터
      • NumPy 배열
      • 형식화된 메모리뷰
    • Cython 입자 시뮬레이터
    • Cython 프로파일링
    • 주피터로 Cython 사용하기
    • 요약

  • 5장. 컴파일러 탐구
    • Numba
      • NUMBA 첫 단계
      • 형식 특수화
      • 객체 모드와 원시 모드
      • Numba와 NumPy
      • JIT 클래스
      • Numba 제약
    • PyPy 프로젝트
      • PyPy 설치
      • PyPy로 입자 시뮬레이터 실행하기
    • 그 밖의 흥미로운 프로젝트
    • 요약

  • 6장. 동시성 구현
    • 비동기적 프로그래밍
      • I/O 대기
      • 동시성
      • 콜백
      • 퓨처
      • 이벤트 루프
    • asyncio 프레임워크
      • 코루틴
      • 블로킹 코드를 논블로킹 코드로 변환하기
    • 반응형 프로그래밍
      • 옵저버블
      • 유용한 연산자
      • 뜨거운 옵저버블과 차가운 옵저버블
      • CPU 모니터 구축
    • 요약

  • 7장. 병렬 처리
    • 병렬 처리 개론
      • 그래픽 처리 장치
    • 여러 프로세스 사용하기
      • PROCESS와 POOL 클래스
      • Executor 인터페이스
      • 파이 값의 몬테 카를로 근사치 계산법
      • 동기화와 잠금
    • OpenMP를 사용한 병렬 Cython
    • 자동 병렬성
      • 테아노 시작
      • 텐서플로
      • GPU에서 코드 실행
    • 요약

  • 8장. 분산 처리
    • 분산 컴퓨팅 소개
      • 맵리듀스 소개
    • Dask
      • 방향성 비순환 그래프
      • Dask 배열
      • Dask Bag과 DataFrame
      • Dask distributed
    • 파이스파크 사용하기
      • 스파크와 파이스파크 설정
      • 스파크 아키텍처
      • RDD
      • 스파크 데이터프레임
    • mpi4py를 사용한 과학기술 컴퓨팅
    • 요약

  • 9장. 성능을 높이는 설계
    • 적절한 전략 선택하기
      • 일반 애플리케이션
      • 수치 코드
      • 빅데이터
    • 소스 코드 구조화하기
    • 격리와 가상 환경, 컨테이너
      • Conda 환경 사용하기
      • 가상화와 컨테이너
    • 지속적인 통합
    • 요약

도서 오류 신고

도서 오류 신고

에이콘출판사에 관심을 가져 주셔서 고맙습니다. 도서의 오탈자 정보를 알려주시면 다음 개정판 인쇄 시 반영하겠습니다.

오탈자 정보는 다음과 같이 입력해 주시면 됩니다.

(예시) p.100 아래에서 3행 : '몇일'동안 -> 며칠동안