Kafka

Kafka^[1]
開發者	Apache軟體基金會，領英
首次釋出	2011年1月，13年前
目前版本	3.0.0（2021年9月21日，3年前）
原始碼庫	github.com/apache/kafka;
程式語言	Scala、Java
作業系統	跨平台
類型	串流處理, 訊息中介軟體（英語：message broker）
授權條款	Apache授權條款 2.0
網站	kafka.apache.org

Kafka是由Apache軟體基金會開發的一個開源流處理平台，由Scala和Java編寫。該專案的目標是為處理即時資料提供一個統一、高吞吐、低延遲的平台。其持久化層本質上是一個「按照分散式事務紀錄檔架構的大規模釋出/訂閱訊息佇列」，^[3]這使它作為企業級基礎設施來處理串流資料非常有價值。此外，Kafka可以通過Kafka Connect連接到外部系統（用於資料輸入/輸出），並提供了Kafka Streams——一個Java串流處理庫。

該設計受事務紀錄檔（英語：Transaction log）的影響較大。^[4]

Kafka的歷史

Kafka最初是由領英開發，並隨後於2011年初開源，並於2012年10月23日由Apache Incubator孵化出站。2014年11月，幾個曾在領英為Kafka工作的工程師，建立了名為Confluent的新公司，^[5]，並著眼於Kafka。根據2014年Quora的貼文，Jay Kreps似乎已經將它以作家弗朗茨·卡夫卡命名。Kreps選擇將該系統以一個作家命名是因為，它是「一個用於最佳化寫作的系統」，而且他很喜歡卡夫卡的作品。^[6]

Kafka的架構

Kafka概覽

Kafka儲存的訊息來自任意多被稱為「生產者」（Producer）的行程。資料從而可以被分配到不同的「分割區」（Partition）、不同的「Topic」下。在一個分割區內，這些訊息被索引並連同時間戳儲存在一起。其它被稱為「消費者」（Consumer）的行程可以從分割區查詢訊息。Kafka執行在一個由一台或多台伺服器組成的叢集上，並且分割區可以跨叢集結點分布。

Kafka高效地處理即時串流資料，可以實現與Storm、HBase和Spark的整合。作為群集部署到多台伺服器上，Kafka處理它所有的釋出和訂閱訊息系統使用了四個API，即生產者API、消費者API、Stream API和Connector API。它能夠傳遞大規模串流訊息，內建容錯功能，已經取代了一些傳統訊息系統，如JMS、AMQP等。

Kafka架構的主要術語包括Topic、Record和Broker。Topic由Record組成，Record持有不同的資訊，而Broker則負責複製訊息。Kafka有四個主要API：

生產者API：支援應用程式釋出Record流。
消費者API：支援應用程式訂閱Topic和處理Record流。
Stream API：將輸入流轉換為輸出流，並產生結果。
Connector API：執行可重用的生產者和消費者API，可將Topic連結到現有應用程式。

設計目標

Kafka的效能

由於其廣泛整合到企業級基礎設施中，監測Kafka在規模執行中的效能成為一個日益重要的問題。監測端到端效能，要求跟蹤所有指標，包括Broker、消費者和生產者。除此之外還要監測ZooKeeper，Kafka用它來協調各個消費者。^[7]^[8]目前有一些監測平台可以追蹤Kafka的效能，有開源的，如領英的Burrow；也有付費的，如Datadog。除了這些平台之外，收集Kafka的資料也可以使用工具來進行，這些工具一般需要Java，包括JConsole。^[9]

Consumer Group

Kafka檔案格式

00000000000000000000.index 00000000000000000000.log 00000000000000000000.timeindex 00000000000000782248.snapshot leader-epoch-checkpoint

使用Kafka的企業

下面的列表是曾經或正在使用Kafka的知名企業：

參見

Apache ActiveMQ
Apache Flink
Qpid（英語：Apache Qpid）
Samza（英語：Apache Samza）
Apache Spark
資料釋出服務（英語：Data Distribution Service）
企業整合模式（英語：Enterprise Integration Patterns）
企業訊息系統（英語：Enterprise Messaging System）
事件串流處理（英語：Event stream processing）
事件驅動SOA（英語：Event-driven SOA）
訊息導向中介層（英語：Message-oriented middleware）
面向服務的架構
StormMQ（英語：StormMQ）

參考資料

^ GitHub仓库镜像. [2014-04-09]. （原始內容存檔於2020-08-16）.
^ Open-sourcing Kafka, LinkedIn's distributed message queue [開源的Kafka，LinkedIn的分散式訊息佇列]. [2016-10-27]. （原始內容存檔於2021-01-11）.
^ Monitoring Kafka performance metrics [監控Kafka效能資料]. Datadog官方部落格. [2016-05-23]. （原始內容存檔於2020-11-08）（英語）.
^ The Log: What every software engineer should know about real-time data's unifying abstraction [The Log: What every software engineer should know about real-time data's unifying abstraction]. 領英官方部落格. [2014-05-05]. （原始內容存檔於2014-03-17）（英語）.
^ Primack, Dan. LinkedIn engineers spin out to launch 'Kafka' startup Confluent [領英工程師推遲釋出Kafka啟動Confluent]. [2015-02-10]. （原始內容存檔於2020-10-22）（英語）.
^ What is the relation between Kafka, the writer, and Apache Kafka, the distributed messaging system? [作家卡夫卡和Apache Kafka那個分散式訊息系統之間有什麼關係？]. [2017-06-12] （英語）.
^ Monitoring Kafka performance metrics [監測Kafka效能指標]. 2016-04-06 [2016-10-05]. （原始內容存檔於2020-11-08）（英語）.
^ Mouzakitis, Evan. Monitoring Kafka performance metrics [監測Kafka效能指標]. 2016-04-06 [2016-10-05]. （原始內容存檔於2020-11-08）（英語）.
^ Collecting Kafka performance metrics - Datadog [收集Kafka效能指標－Datadog]. 2016-04-06 [2016-10-05]. （原始內容存檔於2020-11-27）（英語）.
^ More data, more data [更多資料，更多資料]. [2017-12-22]. （原始內容存檔於2018-10-21）（英語）.
^ Kafka Usage in Ebay Communications Delivery Pipeline [Kafka在Ebay通訊傳遞管道中的用途]. [2017-12-22]. （原始內容存檔於2019-02-16）（英語）.
^ Doyung Yoon. S2Graph : A Large-Scale Graph Database with HBase [S2Graph：基於HBase的大規模圖形資料庫]. [2017-12-22]. （原始內容存檔於2016-03-09）（英語）.
^ Cheolsoo Park and Ashwin Shankar. Netflix: Integrating Spark at Petabyte Scale [Netflix：在Pb級規模整合Spark]. [2017-12-22]. （原始內容存檔於2016-03-04）（英語）.
^ Shibi Sudhakaran of PayPal. PayPal: Creating a Central Data Backbone: Couchbase Server to Kafka to Hadoop and Back (talk at Couchbase Connect 2015) [PayPal：建立中心資料骨幹：Couchbase Server到Kafka到Hadoop和Back（在Couchbase Connect 2015上的講話）]. Couchbase. [2016-02-03]. （原始內容存檔於2016-09-17）（英語）.
^ Josh Baer. How Apache Drives Spotify's Music Recommendations [Apache如何驅動Spotify的音樂推薦]. [2017-12-22]. （原始內容存檔於2016-03-09）（英語）.
^ Streaming Messages from Kafka into Redshift in near Real-Time [從Kafka到Redshift的串流訊息接近於即時]. Yelp. [2017-07-19]. （原始內容存檔於2017-06-03）（英語）.
^ Boerge Svingen. Publishing with Apache Kafka at The New York Times [在紐約時報使用Kafka進行出版]. [2017-09-19]. （原始內容存檔於2017-09-17）（英語）.
^ OpenSOC: An Open Commitment to Security [OpenSOC：一份公開的安全承諾]. 思科部落格. [2016-02-03]. （原始內容存檔於2016-03-09）（英語）.
^ Apache Kafka for Item Setup [Kafka用於專案設定]. medium.com. [2017-06-12]. （原始內容存檔於2019-05-03）（英語）.
^ Stream Processing in Uber [優步的串流處理]. InfoQ. [2015-12-06]. （原始內容存檔於2015-12-05）（英語）.

外部連結

Apache Kafka網站（頁面存檔備份，存於網際網路檔案館）（英文）
專案設計討論（頁面存檔備份，存於網際網路檔案館）（英文）
Github鏡像（頁面存檔備份，存於網際網路檔案館）
Morten Kjetland對Apache Kafka的介紹（頁面存檔備份，存於網際網路檔案館）（英文）
Quora上與RabbitMQ的對比（英文）
Kafka開發者郵寄清單中與RabbitMQ的對比（頁面存檔備份，存於網際網路檔案館）（英文）
Stackoverflow上與RabbitMQ和ZeroMQ的對比（頁面存檔備份，存於網際網路檔案館）（英文）
Apache Kafka中的叢集內部回應（頁面存檔備份，存於網際網路檔案館）（英文）
Kafka使用者郵寄清單討論（英文）

[1] GitHub仓库镜像. [2014-04-09]. （原始內容存檔於2020-08-16）.

[2] Open-sourcing Kafka, LinkedIn's distributed message queue [開源的Kafka，LinkedIn的分散式訊息佇列]. [2016-10-27]. （原始內容存檔於2021-01-11）.

[3] Monitoring Kafka performance metrics [監控Kafka效能資料]. Datadog官方部落格. [2016-05-23]. （原始內容存檔於2020-11-08）（英語）.

[4] The Log: What every software engineer should know about real-time data's unifying abstraction [The Log: What every software engineer should know about real-time data's unifying abstraction]. 領英官方部落格. [2014-05-05]. （原始內容存檔於2014-03-17）（英語）.

[5] Primack, Dan. LinkedIn engineers spin out to launch 'Kafka' startup Confluent [領英工程師推遲釋出Kafka啟動Confluent]. [2015-02-10]. （原始內容存檔於2020-10-22）（英語）.

[6] What is the relation between Kafka, the writer, and Apache Kafka, the distributed messaging system? [作家卡夫卡和Apache Kafka那個分散式訊息系統之間有什麼關係？]. [2017-06-12] （英語）.

[7] Monitoring Kafka performance metrics [監測Kafka效能指標]. 2016-04-06 [2016-10-05]. （原始內容存檔於2020-11-08）（英語）.

[8] Mouzakitis, Evan. Monitoring Kafka performance metrics [監測Kafka效能指標]. 2016-04-06 [2016-10-05]. （原始內容存檔於2020-11-08）（英語）.

[9] Collecting Kafka performance metrics - Datadog [收集Kafka效能指標－Datadog]. 2016-04-06 [2016-10-05]. （原始內容存檔於2020-11-27）（英語）.

[10] More data, more data [更多資料，更多資料]. [2017-12-22]. （原始內容存檔於2018-10-21）（英語）.

[11] Kafka Usage in Ebay Communications Delivery Pipeline [Kafka在Ebay通訊傳遞管道中的用途]. [2017-12-22]. （原始內容存檔於2019-02-16）（英語）.

[12] Doyung Yoon. S2Graph : A Large-Scale Graph Database with HBase [S2Graph：基於HBase的大規模圖形資料庫]. [2017-12-22]. （原始內容存檔於2016-03-09）（英語）.

[13] Cheolsoo Park and Ashwin Shankar. Netflix: Integrating Spark at Petabyte Scale [Netflix：在Pb級規模整合Spark]. [2017-12-22]. （原始內容存檔於2016-03-04）（英語）.

[14] Shibi Sudhakaran of PayPal. PayPal: Creating a Central Data Backbone: Couchbase Server to Kafka to Hadoop and Back (talk at Couchbase Connect 2015) [PayPal：建立中心資料骨幹：Couchbase Server到Kafka到Hadoop和Back（在Couchbase Connect 2015上的講話）]. Couchbase. [2016-02-03]. （原始內容存檔於2016-09-17）（英語）.

[15] Josh Baer. How Apache Drives Spotify's Music Recommendations [Apache如何驅動Spotify的音樂推薦]. [2017-12-22]. （原始內容存檔於2016-03-09）（英語）.

[16] Streaming Messages from Kafka into Redshift in near Real-Time [從Kafka到Redshift的串流訊息接近於即時]. Yelp. [2017-07-19]. （原始內容存檔於2017-06-03）（英語）.

[17] Boerge Svingen. Publishing with Apache Kafka at The New York Times [在紐約時報使用Kafka進行出版]. [2017-09-19]. （原始內容存檔於2017-09-17）（英語）.

[18] OpenSOC: An Open Commitment to Security [OpenSOC：一份公開的安全承諾]. 思科部落格. [2016-02-03]. （原始內容存檔於2016-03-09）（英語）.

[19] Apache Kafka for Item Setup [Kafka用於專案設定]. medium.com. [2017-06-12]. （原始內容存檔於2019-05-03）（英語）.

[20] Stream Processing in Uber [優步的串流處理]. InfoQ. [2015-12-06]. （原始內容存檔於2015-12-05）（英語）.

[3]

[1]

[2]

[4]

[5]

[6]

[7]

[8]

[9]

[10]

[11]

[12]

[13]

[14]

[15]

[16]

[17]

[18]

[19]

[20]