실시간 데이터 처리에는 아파치 카프카



아파치 카프카(Apache Kafka)는 메시징 큐(messaging queue) 또는 기업용 메시징 시스템 역할을 하는, 잘 알려진 분산 스트리밍 플랫폼이다.

다양한 유형의 데이터를 실시간으로 수집하는 데 쓰이는 오픈소스 시스템으로, LinkedIn에서 개발했다.

웹사이트, 애플리케이션, 센서 등에서 취합한 데이터 스트림을 실시간으로 관리할 수 있는 아파치 카프카는 대용량 데이터를 수집하며,

이를 기업 사용자들이 실시간 스트림으로 사용할 수 있도록 단일화시켜주며 기업의 중추 신경계에 비해지기도 한다.



2014년, 카프카 개발자 3명은 기업이 카프카를 규모 있는 생산에 사용할 수 있도록 돕기 위해 콘플루언트(Confluent)라는 벤처를 설립했다.

컨플루언트는 보안, 관리 용이성 등의 요소를 더해 카프카를 좀 더 기업 친화적으로 업그레이드했다.

크렙스에 따르면 포천 500대 기업 중 상당수가 대용량 데이터를 프로세싱, 분석하는 과정에서 아파치 카프카를 사용하고 있다.

특히 대규모 IoT 프로젝트나, 운송 수단 자동화에 AI를 사용하는 경우 카프카를 활용하는 경우가 많다.


"카프카는 기업 전반에 데이터를 이동하고 그 데이터를 끊임없이 자유롭게 흐르는 스트림으로 데이터를 필요로 하는 이에게 빠르게 보내줄 수 있게 해준다." - 네하 나케데 (카프카 개발자 중 1인 , 콘플루언트 공동창업자)




개별 애플리케이션은 서로 다른 프로그래밍 언어와 플랫폼을 기반으로 작성된다.

단일화를 위해서는 애플리케이션들 간의 정보 공유가 필요하다. 이런 정보 교환은 네트워크상에서 이뤄진다.

통합 시스템을 구축하기 위해 기업은 일반적으로 메시징 시스템을 사용한다.

카프카는 폭넓은 확장성우수한 성능을 가진 분산 메시징 플랫폼이다.




Cerner headquarters in North Kansas City RICH SUGG rsugg@kcstar.com

미국의 건강 정보 관리 회사 서너(Cerner Corp.)는 업무 효율을 높이기 위해

병원, 진료소, 약국, 헬스장, 직장 등 다양한 출처에서 건강 데이터를 수집해 빅데이터 플랫폼을 이용할 계획이다.

이 빅데이터 플랫폼은 클라우데라(Cloudera)의 기업 데이터 허브(EDH)로 구성되고,

EDH는 실시간 데이터 스트림 처리에 아파치 카프카(Apache Kafka)를 사용한다.

아파치 카프카 사용으로 서너는 실시간에 가까운 스트리밍 시스템 확장 및 여러 소스의 데이터 수집 등과 관련된 문제를 해결할 수 있다.



『아파치 카프카로 데이터 스트리밍 애플리케이션 제작』은 이와 비슷한 실제 산업 현장의 경험에서 비롯된 모범 사례를 들어서,

아파치 카프카와 다른 빅데이터 도구를 사용해 기업용 스트리밍 프로그램을 설계하고 구축할 수 있도록 설명하고 있다.

메시징 시스템의 개념부터 시작해 아파치 카프카로 데이터 스트리밍 애플리케이션을 제작하는 방법은 물론, 이후 관리 방법까지 소개하고 있다.

아파치 카프카로 빅데이터 관리를 하려고 하면 읽어볼만한 책이다.






CC

크리에이티브 커먼즈 라이센스 에이콘출판사에 의해 창작된 이 저작물크리에이티브 커먼즈 코리아 저작자표시 2.0 대한민국 라이센스에 따라 이용하실 수 있습니다.