Top

A/B 테스트 [신뢰할 수 있는 온라인 종합 대조 실험]

  • 원서명Trustworthy Online Controlled Experiments : A Practical Guide to A/B Testing (ISBN 9781108724265)
  • 지은이론 코하비(Ron Kohavi), 다이앤 탕(Diane Tang), 야 쉬(Ya Xu)
  • 옮긴이이기홍, 김기영
  • ISBN : 9791161755700
  • 30,000원 (eBook 24,000원)
  • 2022년 06월 30일 펴냄
  • 페이퍼백 | 378쪽 | 152*228mm
  • 시리즈 : 검색 마케팅· 웹 분석

책 소개

요약

신뢰도 높은 실험을 설계하는 가이드를 제공한다. 특히 각각 과정이 더욱 정확하게 측정가능한 온라인을 대상으로 한다. 구글, 링크드인과 마이크로소프트의 빅테크 기업에서 전 세계인을 대상으로 실행해온 수많은 실험의 노하우를 책에 담았다.
전반부는 온라인 실험에 대한 이론적인 내용을 담고 있으며, 후반부는 이를 실제로 적용할 때 발생할 수 있는 다양한 상황을 다루는 법을 알려준다.
웹 페이지나 앱 외에도 온라인상에서 수행하는 다양한 실험에 대한 조언을 담고 있다. 최근 관심을 받고 있는 메타버스는 높은 자유도를 지녔으며 현실과 매우 유사한 디지털화 된 세계다. 디지털화된 세계에서는 모든 것을 측정할 수 있기 때문에 이를 운영하는 플랫폼은 더욱 다양한 온라인 실험을 수행하고 결과를 활용할 수 있다. 이런 점에서 온라인 웹사이트를 기획하는 기획자, PO, 데이터 과학자뿐만 아니라 온라인 서비스를 운영하고자 하는 회사 대표나 투자자도 이 책을 통해 미래를 대비할 수 있을 것이다.

이 책에 쏟아진 찬사

“린(lean) 방법론의 핵심에는 가설 생성, 실험 실행, 데이터 수집, 통찰력과 가설의 검증과 수정과 같은 과학적 방법론이 있습니다. A/B 테스트는 검증 가능하고 반복 가능한 실험을 설계하는 표준이며, 이 책은 이를 위한 훌륭한 교과서입니다.”
— 스티븐 블랭크(Steve Blank)/ 스탠포드 대학교의 겸임교수, 현대 기업가 정신의 아버지, 『기업 창업가 매뉴얼』과 『Four Steps to the Epiphany(깨달음을 향한 4단계)』의 저자

“이 책은 제품 기능, 프로젝트 효율성 또는 매출을 최적화하기 위해 온라인 종합 대조 실험을 사용하고자 하는 경영진, 리더, 연구원 또는 엔지니어에게 유용한 자료입니다. 코하비의 연구가 빙과 마이크로소프트에 미치는 영향을 직접 알고 있었기에 그의 배움이 이제 더 많은 청중에게 전달될 수 있게 돼 기쁩니다.”
— 해리 셤(Harry Shum)/ 마이크로소프트 인공지능 및 리서치 그룹 전무이사

“엄밀하면서도 접근하기 쉬운 훌륭한 책입니다. 독자들은 인터넷 제품 개발에 혁명을 일으킨 신뢰도 높은 온라인 종합 대조 실험을 조직에 가져오는 방법을 배우게 될 것입니다.”
— 애덤 단젤로(Adam D’Angelo)/ 쿼라(Quora)의 공동 설립자이자 CEO, 페이스북의 전 CTO

“여러 회사가 온라인 실험과 A/B 테스트를 사용해 제품을 개선하는 방법을 한눈에 알아볼 수 있는 훌륭한 책입니다. 저자들은 풍부한 경험과 훌륭한 조언을 하고자 수년 동안 배운 많은 실전 사례와 교훈을 이 책에 담았습니다.”
— 제프 딘(Jeff Dean)/ 구글 선임연구원 및 구글 리서치 상무

“조직이 지속적으로 더 나은 결정을 내리기를 원하십니까? 이 책은 디지털 시대에서 데이터 기반으로 의사결정을 할 수 있도록 돕는 바이블입니다. 이 책을 읽는 것은 아마존, 구글, 링크드인, 마이크로소프트 내부의 회의에 참석하는 것과 같습니다. 저자들은 세계에서 가장 성공적인 기업들이 의사결정을 내리는 방법을 처음으로 공개합니다. 일반 비즈니스 서적에서 볼 수 있는 지침이나 일화 이외에도, 데이터에 기반한 의사결정을 위해 무엇을 어떻게 잘해야 하는지를 보여줍니다. 이 책은 비즈니스 리더, 엔지니어, 데이터 분석가를 위한 디지털 세계의 의사 결정 매뉴얼입니다.”
— 스콧 쿡(Scott Cook)/ 인튜이트(Intuit) 공동 설립자 겸 실행 위원회 회장

“온라인 종합 대조 실험은 강력한 도구입니다. 온라인 종합 대조 실험이 어떻게 작동하고, 강점이 무엇이고, 어떻게 최적화될 수 있는지를 이해하는 것은 전문가와 많은 청중 모두에게 도움이 될 것입니다. 이 책은 기술적으로 권위 있으면서도 읽기 쉽고, 매우 중요한 문제를 다루는 세상에 많지 않은 책입니다.”
— 존 P.A.(John P.A.)/ 이오아니디스 의학과 보건연구정책학 교수, 스탠포드 대학교의 생물의학 데이터 과학 및 통계학과

“과거 20년 동안 기술 산업은 과학자들이 수세기 동안 알고 있었던 것을 학습해왔는데, 그것은 바로 종합 대조 실험이 복잡한 현상을 이해하고 매우 어려운 문제를 해결하기 위한 최고의 도구 중 하나라는 것입니다. 종합 대조 실험을 설계하고, 규모에 맞게 실행하고, 그 결과를 해석할 수 있는 능력은 현대 첨단 기술 기업이 어떻게 운영되는지 보여주는 토대입니다. 저자들은 세계에서 가장 강력한 실험 플랫폼들을 설계하고 구현했습니다. 이 책은 이러한 도구와 기술을 사용하는 방법에 대한 경험을 통해 배울 수 있는 좋은 기회입니다.”
— 케빈 스콧(Kevin Scott)/ 마이크로소프트의 전무 및 CTO

한국어판 추천의 글

IT 서비스에서 프로덕트를 성장시키고, 사용자를 더 잘 이해하고자 한다면 실험이 필수적이고, 신뢰성 있는 실험을 통해 올바른 결론을 얻는 것이 중요합니다. 하지만 실제 현업에서 신뢰성 있는 실험을 하기란 쉽지 않습니다. 실험에 대한 조직 구성원들의 이해, 실험 진행을 기술적으로 뒷받침할 수 있는 실험 플랫폼, 데이터와 지표의 신뢰성 등 많은 요소를 갖추고 있어야 신뢰성 있는 실험을 진행할 수 있습니다.

이 책은 신뢰성 있는 온라인 종합 대조 실험을 진행하기 위해 알아야 할 항목들을 많은 사례와 함께 설명합니다. 주로 실험의 진행 과정이나 통계 및 기술적인 측면을 다루지만, 실험을 잘 진행하기 위한 조직과 문화적인 부분도 함께 다룹니다. 개인적으로 이 책에 수록된 마이크로소프트 빙과 링크드인 등의 실제 사례에서 많은 도움을 받았는데, 이 사례들을 바탕으로 현업에서의 시행착오를 많이 줄일 수 있었습니다. 실험을 더 잘하고자 하거나 실험을 통해 서비스를 성장시키고 싶은 모든 분께 이 책을 추천드립니다.
— 허성연/ 소프트웨어 엔지니어, 당근마켓 데이터 가치화 팀

이 책에서 다루는 내용

◆ 과학적 방법을 사용한 종합 대조 실험을 통해 가설 평가
◆ 주요 메트릭 및 전반적인 평가 기준 정의
◆ 결과의 신뢰도를 검증하고, 실험자들에게 위배된 가정에 대한 경고 제공
◆ 실험 결과의 빠른 해석과 반복 실험
◆ 주요 사업목표를 보호하기 위한 가드레일 구축
◆ 실험의 한계 비용을 0에 가깝게 낮추는 확장 가능한 플랫폼 구축
◆ 이월 효과, 트위먼의 법칙, 심슨의 역설, 네트워크 상호작용과 같은 흔한 실수 피하기
◆ 일반적인 가정 위반을 포함해 통계 문제 처리 이해

이 책의 구성

1부는 배경에 상관없이 모든 사람이 읽을 수 있도록 설계됐으며, 총 4장으로 구성돼 있다.
1장에서는 온라인 종합 대조 실험 실행의 이점을 간략히 설명하고 실험 용어를 소개한다.
2장에서는 예를 들어 엔드-투-엔드로 실험을 실행하는 과정을 살펴본다.
3장에서는 일반적인 함정 및 실험 신뢰도 구축 방법을 설명한다.
4장에서는 실험 플랫폼을 구축하고 온라인 실험을 확장하기 위해 필요한 사항을 개략적으로 설명한다.
2부에서 5부까지는 필요에 따라 모든 사람이 이용할 수 있지만, 각 장은 특정 청중에 초점을 두고 작성됐다. 2부에는 조직 지표와 같은 펀더멘털에 관한 5개의 장들이 포함돼 있다. 2부에서는 특히 리더와 임원 모두에게 권장되는 내용을 다룬다.
3부의 2개 장은 리더, 데이터 과학자, 엔지니어, 분석가, 제품 관리자들이 온라인 종합 대조 실험을 보완하는 기법을 소개한다. 이 기법은 자원 및 시간을 투자할 때, 유용한 지침으로 사용될 수 있을 것이다.
4부는 실험 플랫폼 구축에 중점을 두고 엔지니어를 대상으로 설명한다.
마지막으로, 5부에서는 고급 분석 주제를 파고들어 데이터 과학자를 대상으로 한다.

저자/역자 소개

지은이의 말

아마존과 마이크로소프트(Ron), 구글(Diane), 마이크로소프트와 링크드인(Ya)에서 수십 년 동안 온라인 종합 대조 실험(online controlled experiment)을 여러 규모로 실행해온 경험에서 얻은 실질적인 교훈을 공유하는 것이 이 책의 목표다. 구글, 링크드인 또는 마이크로소프트의 담당자가 아닌 한 개인으로써 이 책을 집필하는 동안, 수년간에 걸쳐 마주했던 중요한 교훈과 함정을 뽑아, HiPPO(Highest Paid Person’s Opinion, 최고 보수를 받는 자의 의견), 즉 최고경영자의 의견에 의존하는 것이 아니라 그들에게 정보를 제공하는 데이터 기반 문화를 구축하기 위해 소프트웨어 플랫폼과 기업 문화 측면 모두에 대한 지침을 제공하고자 한다. 이러한 많은 교훈이 온라인 환경, 대기업 또는 중소기업, 심지어 회사 내의 팀과 조직에도 적용된다고 믿으며, 우리 모두는 실험 결과의 신뢰도를 평가할 필요가 있다고 생각한다. 흥미로워 보이거나 다르게 보이는 어떤 수치는 대체로 틀린다. 독자들이 다시 한 번 결과를 확인하고, 특히 획기적이고 긍정적인 결과를 위해 유효성 검사를 실행하도록 장려한다. 숫자를 얻는 것은 쉽지만, 믿을 수 있는 숫자를 얻는 것은 어렵다.

지은이 소개

론 코하비(Ron Kohavi)

에어비앤비의 상무 이사이자 기술 펠로우이다. 이 책은 마이크로소프트의 기술 펠로우이자 본사 상무 이사로 있을 때 쓴 것으로, 그 이전에는 아마존의 데이터 마이닝 및 개인화 책임자였다. 스탠포드 대학교에서 컴퓨터 과학 박사 학위를 받았다. 그의 논문은 40,000개 이상의 인용됐으며, 그중 3개가 컴퓨터 과학에서 가장 많이 인용된 상위 1,000개의 논문에 속한다.

다이앤 탕(Diane Tang)

대규모 데이터 분석 및 인프라, 온라인 종합 대조 실험 및 광고 시스템에 대한 전문 지식을 보유한 구글 연구원이다. 하버드 대학교에서 학사를, 스탠포드 대학교에서 석사 및 박사 학위를 취득했으며 모바일 네트워킹, 정보 시각화, 실험 방법론, 데이터 인프라, 데이터 마이닝, 대용량 데이터에 대한 특허를 받았으며, 관련 저서를 썼다.

야 쉬(Ya Xu)

링크드인에서 데이터 과학 및 실험을 주관한다. 실험에 관한 여러 논문을 발표했으며, 탑티어 콘퍼런스와 대학에서 종종 발표를 한다. 이전에 마이크로소프트에서 일했으며 스탠포드 대학교에서 통계학 박사 학위를 받았다.

옮긴이의 말

이 책은 빙(Bing)에서의 광고 페이지 속 한 줄의 변화로 전체 매출의 10%를 향상시킨 놀라운 사례로 시작한다. 단순한 A/B 테스트의 기술서가 아닌 마이크로소프트, 구글, 링크드인에서 수년간 온라인 종합 대조 실험을 주도했던 저자들의 경험과 교훈을 공유하는 책이다.
숫자를 얻는 것은 쉽다. 하지만 믿을 수 있는 숫자를 얻는 것은 어렵다. 실험 결과를 단순한 숫자로 얻는 것이 아니라 믿을 수 있는 숫자를 얻을 수 있도록 신뢰도 높은 온라인 종합 대조 실험을 설계하고, A/B 테스트를 사용해 혁신을 가속화하는 방법에 대해 이야기하고 있다. 저자들은 현재 연간 20,000건 이상의 종합 대조 실험을 실행하는 각 기업에서의 경험을 바탕으로 학생과 업계 전문가가 실험을 시작할 수 있도록 예시, 빠지기 쉬운 실수 및 조언을 공유하고 있을 뿐만 아니라 데이터 기반 의사결정 방식을 개선하고자 하는 숙련된 실무자들에게도 도움될 심화 주제에 대해서도 깊이 있게 논의한다.
온라인 종합 대조 실험인 A/B 테스트는 2000년 중반부터 시작된 테크기업들의 문화적 혁신, 예를 들면 에릭 리스의 린 스타트업(Lean Startup) 및 MVP(최소 기능 제품)의 개념과 그 맥을 같이 한다. 기능 또는 서비스의 작은 변화를 지속적으로 온라인에서 테스트하면서 조금씩 기능 또는 서비스를 개선한다. A/B 테스트는 과거의 설계-개발-테스트-배포의 상품개발이 3년의 주기에 걸쳐 진행되던 행태를 해방시켜 이제는 빠르게 기능 또는 서비스를 출시하고 이를 지속적으로 테스트해 고객과 실시간으로 소통할 수 있도록 한다. 또한 이러한 점에서 A/B 테스트는 개인화된 서비스를 중시하는 여러 분야에서 전통적인 설문조사나 시장조사를 탈피해 실제 상황에서 고객의 취향을 가장 잘 반영하는 서비스와 추천을 가장 효율적으로 달성시킬 수 있는 방법이기도 하다.
A/B 테스트의 기능 중 가장 중요한 것은 한꺼번에 모든 것을 테스트하는 것이 아니라 조금씩 테스트하는 것이다. 통제된 상황에서 이를 실행하는데, 이는 온라인상의 통제이므로 실제 상황을 반영하는 통제이다. 따라서 연관분석(예를 들어 장바구니 분석)에서와 같이 상관관계를 발견하는 것을 넘어서 원인과 결과를 밝히는 설명력이 가능한 인과성을 발견하고자 하는 것이 주된 목적이다. (그래서 그 테스트 대상은 작은 무엇인가가 될 것이다.) 이러한 발견은 보다 설명력이 있기 때문에 테스트의 승자가 상품 또는 서비스의 개선을 위해 큰 신뢰도로 강건하게 도입될 수 있는 것이다. 이에 대한 많은 예제가 이 책에 담겨있으니 독자들은 이를 즐기기를 바란다.

옮긴이 소개

이기홍

카네기멜론대학교에서 석사 학위를 받았고, 피츠버그대학교의 Finance Ph.D, CFA, FRM이자 금융, 투자, 경제 분석 전문가다. 삼성생명, HSBC, 새마을금고중앙회, 한국투자공사 등과 같은 국내 유수의 금융기관, 금융 공기업에서 자산 운용 포트폴리오 매니저로 근무했으며 현재 딥러닝과 강화학습을 금융에 접목시켜 이를 전파하고 저변을 확대하는 것을 보람으로 삼고 있다. 저서로는 『엑셀 VBA로 쉽게 배우는 금융공학 프로그래밍』(한빛미디어, 2009)이 있으며, 번역서로는 『포트폴리오 성공 운용』(미래에셋투자교육연구소, 2010), 『딥러닝 부트캠프 with 케라스』(길벗, 2017), 『프로그래머를 위한 기초 해석학』(길벗, 2018)과 에이콘출판사에서 펴낸 『실용 최적화 알고리즘』(2020), 『초과 수익을 찾아서 2/e』(2020), 『자산운용을 위한 금융 머신러닝』(2021), 『존 헐의 비즈니스 금융 머신러닝 2/e』(2021), 『퀀트 투자를 위한 머신러닝•딥러닝 알고리듬 트레이딩 2/e』(2021), 『자동머신러닝』(2021), 『금융 머신러닝』(2022), 『퇴직 연금 전략』(2022) 등이 있다. 누구나 자유롭게 머신러닝과 딥러닝을 자신의 연구나 업무에 적용해 활용하는 그날이 오기를 바라며 매진하고 있다.

김기영

서울대학교 기계항공공학부를 졸업한 뒤 동대학원에서 유체역학, 응용수학 분야 연구로 박사 학위를 받았다. 이후 디지털 마케팅 플랫폼에서 인공지능 기반 웹데이터 분석 솔루션을 만들었으며 금융 데이터 분석 전문 회사에서 인공지능 연구소장으로 다양한 기업 및 결제 데이터를 분석하고 활용하는 일을 했다. 현재는 인공지능 기술을 개발 및 서비스하는 아티피셜 소사이어티(Artificial Society)의 대표로 메타버스와 헬스케어를 결합한 서비스를 운영하고 있다.

목차

목차
  • 1부. 모두를 위한 입문 주제
  • 1장. 소개와 동기
  • 2장. 실험의 실행과 분석–엔드-투-엔드 예제
  • 3장. 트위먼의 법칙과 실험의 신뢰도
  • 4장. 실험 플랫폼과 문화

  • 2부 모두를 위해 선택된 주제
  • 5장. 속도의 중요성: 엔드-투-엔드 사례 연구
  • 6장. 조직 운영을 위한 지표
  • 7장. 실험을 위한 지표와 종합 평가 기준
  • 8장. 제도적 기억과 메타 분석
  • 9장. 종합 대조 실험의 윤리

  • 3부 종합 대조 실험에 대한 보완 및 대체 기법들
  • 10장. 보완 기법들
  • 11장. 관측 인과 연구

  • 4부 실험 플랫폼 구축을 위한 고급 주제
  • 12장. 클라이언트 측 실험
  • 13장. 계측
  • 14장. 무작위 단위 선택
  • 15장. 실험 노출 증가시키기: 속도, 품질 및 위험의 트레이드오프
  • 16장. 실험 분석 확장

  • 5부 실험 분석을 위한 고급 주제
  • 17장. 온라인 종합 대조 실험에 사용되는 통계 이론
  • 18장. 분산 추정 및 민감도 개선: 함정 및 해결책
  • 19장. A/A 테스트
  • 20장. 민감도 향상을 위한 트리거링
  • 21장. 샘플 비율 불일치 및 기타 신뢰 관련 가드레일 지표
  • 22장. 실험 간의 누출 및 간섭
  • 23장. 장기 실험효과 측정

관련 블로그 글

신뢰도 높은 A/B 테스트 설계를 위한 실전 가이드

마케팅에서 퍼포먼스 마케팅은 상품을 구경하고 구매하는 등의
구매 결정 과정에서 각 단계의 성과를 측정하고 관리하는 방법을 일컫는다. 

상품을 고객에게 알리는 데 쓰는 비용 대비로 몇 명이 구경하는지,
구경한 사람 중 몇 명이 실제로 구매했는지 측정하며 각 단계를 최적화한다. 

이런 측정은 오프라인보다는 온라인에서 쉽게 이뤄지기에
퍼포먼스 마케팅은 대부분 온라인 웹사이트에서 진행된다.



(이미지 출처: https://kr.freepik.com/vectors/people ; People 벡터 제작 pikisuperstar - kr.freepik.com)

옷 가게 주인은 자신이 판매하는 옷을 고객에게 알리려고 한다.
가게 앞에 마네킹을 설치하면 고객 방문 수가 증가할 것이라는 예상해본다.
과연 마네킹을 두는 게 효과가 있을까? 

이를 확인하기 위해서는 주인이 일주일 동안은 마네킹 없이,
그다음 일주일 동안은 마네킹을 두고 방문한 고객을 살펴보면 된다.
아마 마네킹을 둔 일주일의 고객 방문 수가 더욱 많을 것이다. 

그런데 만약 마네킹을 두지 않은 일주일에는 연휴가 끼어 있어서 고객의 방문이 훨씬 늘었다면 어떨까?
같은 실험을 하더라도 특수한 상황이 발생해서 결과가 왜곡될 수 있다.
따라서 신뢰성 있는 실험 방법이 필요하게 된다.