最近在工作中遇到一個這樣的需求,為區塊鏈網絡寫一個中間件,以發布-消費模型對上鏈流量進行整型,解決區塊鏈TPS低的問題。當上層高并發的流量過來后,流量統一進入中間件層,中間件對消息整合后才發送到區塊鏈上。
針對這個需求,經調研后決定選用Kafka,再次記錄下學習過程。
一、Kafka簡介
1.1 是什么
Apache Kafka 是一款開源的消息引擎系統。所謂的消息引擎系統,根據維基百科的定義:消息引擎系統是一組規范,企業利用這組規范在不同系統之間傳遞語義準確的消息,實現松耦合的異步式數據傳遞。通俗的講就是A發送消息到消息引起系統,B從消息引擎系統中讀取A發送的消息,消息引擎系統處理的核心對象就是消息。
Kafka采用二進制字節序列對消息進行編碼,從而在不同系統直接進行傳輸。Kafka支持兩種消息傳輸模型:
- 點對點模型(Peer to Peer,P2P),A發布的消息只能被B消費。
- 發布-訂閱模型,不同的消息根據關聯性抽象為主題(Topic),發布者向主題發送消息,訂閱者訂閱主題獲得消息,發布者和訂閱者是多對多的關系。
同時,Kafka又不僅僅是消息引擎系統,也是一個分布式流處理平臺。在0.10.0.0之前的版本中,官方對Kafka的定位是分布式、分區化且帶備份功能的提交日志(Commit Log)服務,而隨著Kafka的流行和應用場景越來越廣泛,很多公司將Kafka應用到了企業內部的數據管道中,一個系統的數據流入Kafka在流入另一個系統,基于Kafka在數據流轉中扮演的角色,社區在0.10.0.0版本中正式推出了流處理組件Kafka Streams,從這個版本開始,Kafka正式升級為分布式流處理平臺。
Kafka除了是消息引擎系統、分布式流處理平臺外,還能夠被用作分布式存儲系統。就目前而言,Kafka還是主要被用作消息引擎系統,不過分布式流處理平臺也被越來越多的人接受。
1.2 解決了什么問題
Kafka主要適用于兩類應用場景:
- 構造實時的消息管道,在不同系統/應用直接可靠的傳輸消息(數據),相當于消息隊列。Kafka主要作為消息引擎系統使用。
- 構建實時的流式應用程序,通過對topic進行轉換從而實現流處理。Kafka主要作為分布式流處理平臺使用。
Kafka作為消息引擎系統,最核心的價值是解決了“削峰填谷”的問題。利用Kafka可以對上下游系統進行流量解耦,上游系統瞬時突發流量,可以平緩的過渡到下游系統,不至于造成系統雪崩。
二、關鍵概念
Kafka有很多的專業術語,在剛接觸時,如果對這些術語沒有弄明白就直接動手實踐,會有些無所適從的感覺。
Record-消息
消息是Kafka主要的處理對象。
Topic-主題
主題是在消息之上的一種邏輯封裝,在實際使用中多用來區分具體的業務。在Kafka的發布-消費模型中,發布訂閱的對象就是主題。
Producer-生產者
向主題發布消息的客戶端稱為生產者,生產者可以向一個或多個主題發送消息。
Consumer-消費者
從主題中獲取消息的客戶端程序成為消費者。消費者可以同時訂閱從一個或多個主題。
Broker
Broker是Kafka的服務器端的服務進程,一個Kafka集群由多個Broker組成,Broker負責接收和處理客戶端(生產者和消費者)發送的請求并對消息進行持久化。
Replication-備份機制
Kafka實現高可用的機制之一。Kafka會把相同的數據拷貝到不同的機器上,這些相同的數據稱為副本(Replica)。Kafka定義了兩種副本:
- 領導者副本(Leader Replica),對外提供服務,生產者向領導者副本寫消息,消費者從領導者副本讀消息。
- 追隨者副本(Follower Replica),不對外提供服務,向領導者副本發送請求,同步最新消息,與領導者保持同步。
Partition-分區
副本機制保證了Kafka消息的持久化,確不能解決伸縮性問題,當領導者副本過多,會導致單臺機器的Broker服務無法承載。針對這個問題,Kafka使用分區來解決。
Kafka將每個主題劃分為多個分區,每個分區是一組有序的消息日志,生產者生產的消息只會被發送到一個分區中。分區編號采用有序整數,從0開始。
副本是在分區的層級上定義的,每個分區可以配置若干個副本,其中只有一個領導者副本,若干個追隨者副本。
Consumer Offset-消費者位移
生產者向分區寫入消息時,每條消息在分區中的位置信息由一個叫位移(Offset)的數據來表征。分區位移從0開始,并依次累加。
Consumer Group-消費者組
Kafka實現點對點消費模型的方法是引入了消費者組。消費者組是指多個消費者實例共同組成的一個組,同時消費多個分區以實現高吞吐。
Rebalance-重平衡
消費者組內某個消費者實例掛掉后,其他消費者實例自動重新分配訂閱主題分區的過程。Rebalance 是 Kafka 消費者端實現高可用的重要手段。
從Kafka的核心概念中,可以看到三層消息架構:
- 第一層是主題層,每個主題可以配置 M 個分區,而每個分區又可以配置 N 個副本。
- 第二層是分區層,每個分區的 N 個副本中只能有一個充當領導者角色,對外提供服務;其他 N-1 個副本是追隨者副本,只是提供數據冗余之用。
- 第三層是消息層,分區中包含若干條消息,每條消息的位移從 0 開始,依次遞增。最后,客戶端程序只能與分區的領導者副本進行交互。
Kafka各概念之間的關系如下圖所示。
三、參考
https://kafka.apachecn.org/intro.html
http://gk.link/a/103IA