kafka原理

一、概述

Kafka 是一個(gè)消息系統(tǒng),原本開發(fā)自 LinkedIn,用作 LinkedIn 的活動(dòng)流數(shù)據(jù)(Activity Stream)和運(yùn)營(yíng)數(shù)據(jù)處理管道(Pipeline)的基礎(chǔ)。現(xiàn)在它已被多家公司作為多種類型的數(shù)據(jù)管道和消息系統(tǒng)使用。

  • 活動(dòng)流數(shù)據(jù) 是幾乎所有站點(diǎn)在對(duì)其網(wǎng)站使用情況做報(bào)表時(shí)都要用到的數(shù)據(jù)中最常規(guī)的部分。活動(dòng)數(shù)據(jù)包括頁面訪問量(Page View)、被查看內(nèi)容方面的信息以及搜索情況等內(nèi)容。這種數(shù)據(jù)通常的處理方式是先把各種活動(dòng)以日志的形式寫入某種文件,然后周期性地對(duì)這些文件進(jìn)行統(tǒng)計(jì)分析。
  • 運(yùn)營(yíng)數(shù)據(jù) 指的是服務(wù)器的性能數(shù)據(jù)(CPU、IO 使用率、請(qǐng)求時(shí)間、服務(wù)日志等等數(shù)據(jù)),總的來說,運(yùn)營(yíng)數(shù)據(jù)的統(tǒng)計(jì)方法種類繁多。

Kafka通常用于應(yīng)用中的兩種廣播類型:

  • 在系統(tǒng)和應(yīng)用間建立實(shí)時(shí)的數(shù)據(jù)管道,能夠可信賴的獲取數(shù)據(jù)。
  • 建立實(shí)時(shí)的流應(yīng)用,可以處理或者響應(yīng)數(shù)據(jù)流。

由此可見,kafka給自身的定位并不只是一個(gè)消息系統(tǒng),而是通過發(fā)布訂閱消息這種機(jī)制實(shí)現(xiàn)了流平臺(tái)。

作為一個(gè)分布式流平臺(tái),通過需要具備以下三個(gè)關(guān)鍵能力:

  1. 發(fā)布訂閱記錄流,和消息隊(duì)列或者企業(yè)新消息系統(tǒng)類似。
  2. 以可容錯(cuò)、持久的方式保存記錄流
  3. 當(dāng)記錄流產(chǎn)生時(shí)就進(jìn)行處理

Kafka和大多數(shù)消息系統(tǒng)一樣,搭建好kafka集群后,生產(chǎn)者向特定的topic生產(chǎn)消息,而消費(fèi)者通過訂閱topic,能夠準(zhǔn)實(shí)時(shí)的拉取到該topic新消息,進(jìn)行消費(fèi)。如下圖:

screenshot

kafka主要有以下特性:

  • 消息持久化
  • 高吞吐量
  • 可擴(kuò)展性

尤其是高吞吐量,是他的最大賣點(diǎn)。kafka之所以能夠?qū)崿F(xiàn)高吞吐量,是基于他自身優(yōu)良的設(shè)計(jì),及集群的可擴(kuò)展性。

Kafka應(yīng)用場(chǎng)景

  • 消息系統(tǒng)
  • 日志系統(tǒng)
  • 流處理

二、基本術(shù)語

  1. Broker:Kafka 集群包含一個(gè)或多個(gè)服務(wù)器,這種服務(wù)器被稱為 broker。

  2. Topic:每條發(fā)布到 Kafka 集群的消息都有一個(gè)類別(主題),這個(gè)類別被稱為 Topic。(物理上不同 Topic 的消息分開存儲(chǔ),邏輯上一個(gè) Topic 的消息雖然保存于一個(gè)或多個(gè) broker 上,但用戶只需指定消息的 Topic 即可生產(chǎn)或消費(fèi)數(shù)據(jù)而不必關(guān)心數(shù)據(jù)存于何處)。
    kafka中消息訂閱和發(fā)送都是基于某個(gè)topic。比如有個(gè)topic叫做NBA賽事信息,那么producer會(huì)把NBA賽事信息的消息發(fā)送到此topic下面。所有訂閱此topic的consumer將會(huì)拉取到此topic下的消息。Topic就像一個(gè)特定主題的收件箱,producer往里丟,consumer取走。

  3. Partition:Partition 是物理上的概念,每個(gè) Topic 包含一個(gè)或多個(gè) Partition。

  4. Producer:負(fù)責(zé)發(fā)布消息到 Kafka broker。

  5. Consumer:消息消費(fèi)者,向 Kafka broker 讀取消息的客戶端。

  6. Consumer Group:每個(gè) Consumer 屬于一個(gè)特定的 Consumer Group(可為每個(gè) Consumer 指定 group name,若不指定 group name 則屬于默認(rèn)的 group)。

三、主題(Topic)和日志(Log)

一個(gè)Topic可以認(rèn)為是一類消息,每個(gè)topic將被分成多個(gè)partition(區(qū)),每個(gè)partition在存儲(chǔ)層面是append log文件。任何發(fā)布到此partition的消息都會(huì)被直接追加到log文件的尾部,每條消息在文件中的位置稱為offset(偏移量),offset為一個(gè)long型數(shù)字,它用來唯一標(biāo)記某個(gè)分區(qū)內(nèi)的一條消息。kafka并沒有提供其它額外的索引機(jī)制來存儲(chǔ)offset,因?yàn)樵趉afka中幾乎不允許對(duì)消息進(jìn)行“隨機(jī)讀寫”。

screenshot

四、Consumer與topic關(guān)系以及機(jī)制

Kafka和其它消息系統(tǒng)有一個(gè)不一樣的設(shè)計(jì),在consumer之上加了一層group。同一個(gè)group的consumer可以并行消費(fèi)同一個(gè)topic的消息,但是同group的consumer,不會(huì)重復(fù)消費(fèi)。這就好比多個(gè)consumer組成了一個(gè)團(tuán)隊(duì),一起干活,當(dāng)然干活的速度就上來了。group中的consumer是如何配合協(xié)調(diào)的,其實(shí)和topic的分區(qū)相關(guān)聯(lián),后面我們會(huì)詳細(xì)論述。

如果同一個(gè)topic需要被多次消費(fèi),可以通過設(shè)立多個(gè)consumer group來實(shí)現(xiàn)。每個(gè)group分別消費(fèi),互不影響。

  • 如果所有的consumer都具有相同的group,這種情況和JMS queue模式很像,消息將會(huì)在consumers之間負(fù)載均衡。
  • 如果所有的consumer都具有不同的group,那這就是"發(fā)布-訂閱",消息將會(huì)廣播給所有的消費(fèi)者。

在kafka中,一個(gè)partition中的消息只會(huì)被group中的一個(gè)consumer消費(fèi)(同一時(shí)刻),每個(gè)group中consumer消息消費(fèi)互相獨(dú)立,我們可以認(rèn)為一個(gè)group是一個(gè)"訂閱"者。一個(gè)Topic中的每個(gè)partions只會(huì)被一個(gè)"訂閱者"中的一個(gè)consumer消費(fèi),不過一個(gè)consumer可以同時(shí)消費(fèi)多個(gè)partitions中的消息。

kafka只能保證一個(gè)partition中的消息被某個(gè)consumer消費(fèi)時(shí)是順序的。事實(shí)上,從Topic角度來說,,當(dāng)有多個(gè)partitions時(shí),消息仍不是全局有序的。

通常情況下,一個(gè)group中會(huì)包含多個(gè)consumer,這樣不僅可以提高topic中消息的并發(fā)消費(fèi)能力,而且還能提高"故障容錯(cuò)"性。如果group中的某個(gè)consumer失效,那么其消費(fèi)的partitions將會(huì)有其他consumer自動(dòng)接管。kafka的設(shè)計(jì)原理決定對(duì)于一個(gè)topic,同一個(gè)group中不能有多于partitions個(gè)數(shù)的consumer同時(shí)消費(fèi),否則將意味著某些consumer將無法得到消息。


參考文章如下:
作者:稀有氣體
來源:CSDN
原文:https://blog.csdn.net/liyiming2017/article/details/82790040

最后編輯于
?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請(qǐng)聯(lián)系作者
平臺(tái)聲明:文章內(nèi)容(如有圖片或視頻亦包括在內(nèi))由作者上傳并發(fā)布,文章內(nèi)容僅代表作者本人觀點(diǎn),簡(jiǎn)書系信息發(fā)布平臺(tái),僅提供信息存儲(chǔ)服務(wù)。
  • 序言:七十年代末,一起剝皮案震驚了整個(gè)濱河市,隨后出現(xiàn)的幾起案子,更是在濱河造成了極大的恐慌,老刑警劉巖,帶你破解...
    沈念sama閱讀 228,316評(píng)論 6 531
  • 序言:濱河連續(xù)發(fā)生了三起死亡事件,死亡現(xiàn)場(chǎng)離奇詭異,居然都是意外死亡,警方通過查閱死者的電腦和手機(jī),發(fā)現(xiàn)死者居然都...
    沈念sama閱讀 98,481評(píng)論 3 415
  • 文/潘曉璐 我一進(jìn)店門,熙熙樓的掌柜王于貴愁眉苦臉地迎上來,“玉大人,你說我怎么就攤上這事。” “怎么了?”我有些...
    開封第一講書人閱讀 176,241評(píng)論 0 374
  • 文/不壞的土叔 我叫張陵,是天一觀的道長(zhǎng)。 經(jīng)常有香客問我,道長(zhǎng),這世上最難降的妖魔是什么? 我笑而不...
    開封第一講書人閱讀 62,939評(píng)論 1 309
  • 正文 為了忘掉前任,我火速辦了婚禮,結(jié)果婚禮上,老公的妹妹穿的比我還像新娘。我一直安慰自己,他們只是感情好,可當(dāng)我...
    茶點(diǎn)故事閱讀 71,697評(píng)論 6 409
  • 文/花漫 我一把揭開白布。 她就那樣靜靜地躺著,像睡著了一般。 火紅的嫁衣襯著肌膚如雪。 梳的紋絲不亂的頭發(fā)上,一...
    開封第一講書人閱讀 55,182評(píng)論 1 324
  • 那天,我揣著相機(jī)與錄音,去河邊找鬼。 笑死,一個(gè)胖子當(dāng)著我的面吹牛,可吹牛的內(nèi)容都是我干的。 我是一名探鬼主播,決...
    沈念sama閱讀 43,247評(píng)論 3 441
  • 文/蒼蘭香墨 我猛地睜開眼,長(zhǎng)吁一口氣:“原來是場(chǎng)噩夢(mèng)啊……” “哼!你這毒婦竟也來了?” 一聲冷哼從身側(cè)響起,我...
    開封第一講書人閱讀 42,406評(píng)論 0 288
  • 序言:老撾萬榮一對(duì)情侶失蹤,失蹤者是張志新(化名)和其女友劉穎,沒想到半個(gè)月后,有當(dāng)?shù)厝嗽跇淞掷锇l(fā)現(xiàn)了一具尸體,經(jīng)...
    沈念sama閱讀 48,933評(píng)論 1 334
  • 正文 獨(dú)居荒郊野嶺守林人離奇死亡,尸身上長(zhǎng)有42處帶血的膿包…… 初始之章·張勛 以下內(nèi)容為張勛視角 年9月15日...
    茶點(diǎn)故事閱讀 40,772評(píng)論 3 354
  • 正文 我和宋清朗相戀三年,在試婚紗的時(shí)候發(fā)現(xiàn)自己被綠了。 大學(xué)時(shí)的朋友給我發(fā)了我未婚夫和他白月光在一起吃飯的照片。...
    茶點(diǎn)故事閱讀 42,973評(píng)論 1 369
  • 序言:一個(gè)原本活蹦亂跳的男人離奇死亡,死狀恐怖,靈堂內(nèi)的尸體忽然破棺而出,到底是詐尸還是另有隱情,我是刑警寧澤,帶...
    沈念sama閱讀 38,516評(píng)論 5 359
  • 正文 年R本政府宣布,位于F島的核電站,受9級(jí)特大地震影響,放射性物質(zhì)發(fā)生泄漏。R本人自食惡果不足惜,卻給世界環(huán)境...
    茶點(diǎn)故事閱讀 44,209評(píng)論 3 347
  • 文/蒙蒙 一、第九天 我趴在偏房一處隱蔽的房頂上張望。 院中可真熱鬧,春花似錦、人聲如沸。這莊子的主人今日做“春日...
    開封第一講書人閱讀 34,638評(píng)論 0 26
  • 文/蒼蘭香墨 我抬頭看了看天上的太陽。三九已至,卻和暖如春,著一層夾襖步出監(jiān)牢的瞬間,已是汗流浹背。 一陣腳步聲響...
    開封第一講書人閱讀 35,866評(píng)論 1 285
  • 我被黑心中介騙來泰國(guó)打工, 沒想到剛下飛機(jī)就差點(diǎn)兒被人妖公主榨干…… 1. 我叫王不留,地道東北人。 一個(gè)月前我還...
    沈念sama閱讀 51,644評(píng)論 3 391
  • 正文 我出身青樓,卻偏偏與公主長(zhǎng)得像,于是被迫代替她去往敵國(guó)和親。 傳聞我的和親對(duì)象是個(gè)殘疾皇子,可洞房花燭夜當(dāng)晚...
    茶點(diǎn)故事閱讀 47,953評(píng)論 2 373

推薦閱讀更多精彩內(nèi)容

  • 姓名:周小蓬 16019110037 轉(zhuǎn)載自:http://blog.csdn.net/YChenFeng/art...
    aeytifiw閱讀 34,737評(píng)論 13 425
  • 本文轉(zhuǎn)載自http://dataunion.org/?p=9307 背景介紹Kafka簡(jiǎn)介Kafka是一種分布式的...
    Bottle丶Fish閱讀 5,486評(píng)論 0 34
  • 目標(biāo) 高吞吐量來支持高容量的事件流處理 支持從離線系統(tǒng)加載數(shù)據(jù) 低延遲的消息系統(tǒng) 持久化 依賴文件系統(tǒng),持久化到本...
    jiangmo閱讀 1,305評(píng)論 0 4
  • 背景介紹 Kafka簡(jiǎn)介 Kafka是一種分布式的,基于發(fā)布/訂閱的消息系統(tǒng)。主要設(shè)計(jì)目標(biāo)如下: 以時(shí)間復(fù)雜度為O...
    高廣超閱讀 12,858評(píng)論 8 167
  • 過往的歲月,不著痕跡的悄然去遠(yuǎn)。再回首,明滅在記憶中的,卻是大片大片的空白。這種虛空無著的飄懸之感,時(shí)常在氣定神閑...
    翻了車閱讀 505評(píng)論 31 2