插: 前些天發(fā)現(xiàn)了一個(gè)巨牛的人工智能學(xué)習(xí)網(wǎng)站,通俗易懂,風(fēng)趣幽默,忍不住分享一下給大家。點(diǎn)擊跳轉(zhuǎn)到網(wǎng)站。
堅(jiān)持不懈,越努力越幸運(yùn),大家一起學(xué)習(xí)鴨~~~
2哥:3妹,干嘛呢,要不要出去吃大餐?
3妹:在學(xué)習(xí)MQ呢,昨天你不是教了我消息隊(duì)列的使用場(chǎng)景有哪些?嘛。我想再系統(tǒng)學(xué)習(xí)下MQ的工作流程是怎樣的。
2哥:不錯(cuò)嘛,作為一個(gè)有追求的程序媛,就是不僅要知其然,還要知其所以然。
3妹:恩,向2哥大神看齊~
2哥:哈哈,說的我都不好意思了,我也有很多不懂的。只是工作時(shí)間長,經(jīng)驗(yàn)比你豐富一些。
3妹:2哥,kfaka的工作流程是怎樣的?你給我講講唄
2哥:emm, 肚子餓了,等我吃飽了再說。
3妹:午飯時(shí)間還早,先給我講講,呆會(huì)兒請(qǐng)你吃大餐。
2哥:好呀好呀,不許反悔啊。
1.首先一個(gè)kafka集群有很多個(gè)kafka的服務(wù)器,每個(gè)kafka服務(wù)器就是一個(gè)broker,每一類消息有一個(gè)topic,生產(chǎn)者將一個(gè)消息發(fā)送給broker。
2.每個(gè)topic會(huì)有一個(gè)或者多個(gè)分區(qū),broker根據(jù)分發(fā)機(jī)制將這個(gè)消息分給這個(gè)topic下的某個(gè)分區(qū)的leader,
分發(fā)機(jī)制:
- 1.發(fā)的消息指定了分區(qū)就發(fā)到特定分區(qū)下
- 2.指定了key,就根據(jù)murmur2 哈希算法對(duì)key計(jì)算得到一個(gè)哈希值,將哈希值與分區(qū)數(shù)量取余,得到分區(qū)。
- 3.沒有指定分區(qū),也沒有指定key,那么就根據(jù)一個(gè)自增計(jì)數(shù)與分區(qū)數(shù)取余得到分區(qū),這樣可以讓消息分發(fā)在每個(gè)分區(qū)更加均勻。
3.每個(gè)分區(qū)就是一個(gè)目錄,目錄名是topic+分區(qū)編號(hào),在收到消息后會(huì)將消息寫入到日志文件中,如果一個(gè)分區(qū)的消息都有存放在一個(gè)日志文件中,那么文件會(huì)比較大,查詢時(shí)會(huì)比較慢,而且也不便于之后刪除舊的消息。所以每個(gè)分區(qū)對(duì)應(yīng)多個(gè)大小相等的segment文件,每個(gè)segment的名稱是上一個(gè)segment最后一條消息的offset,一個(gè)segment有兩個(gè)文件,一個(gè)是.index文件,記錄了消息的offset及這條消息數(shù)據(jù)在log文件中的偏移量。一個(gè)是.log文件,實(shí)際存儲(chǔ)每個(gè)消息數(shù)據(jù),每條消息數(shù)據(jù)大小不一,每條消息數(shù)據(jù)包含offset,消息體大小,消息體等等內(nèi)容。查的時(shí)候根據(jù)offset先去index文件找到偏移量,然后去log文件中讀。
具體的segment切分有很多個(gè)觸發(fā)條件:
- 當(dāng)log文件>log.segment.bytes時(shí)切分,默認(rèn)是1G。
- 或者是segment文件中最早的消息距離現(xiàn)在的時(shí)間>log.roll.ms配置的時(shí)間,默認(rèn)是7天。
- 或者是索引文件index>log.index.size.max.bytes的大小,默認(rèn)是10M。)
4.分區(qū)leader將消息存儲(chǔ)到日志文件中后還不能算是寫成功,會(huì)把消息同步給所有follower,當(dāng)follower同步好消息之后就會(huì)給leader發(fā)ack,leader收到所有follower返回的ack之后,這條才算是寫成功,然后才會(huì)給生產(chǎn)者返回寫成功。(依據(jù)ACK配置來決定多少follower同步成功才算生產(chǎn)者發(fā)送消息成功)
5.消費(fèi)者讀數(shù)據(jù)時(shí)就去分區(qū)的leader中去讀,一個(gè)消費(fèi)者可以消費(fèi)多個(gè)分區(qū),但是一個(gè)分區(qū)只能一個(gè)消費(fèi)者來消費(fèi),默認(rèn)消費(fèi)者取完數(shù)據(jù)就會(huì)自動(dòng)提交,一般會(huì)關(guān)閉自動(dòng)提交,消費(fèi)者消費(fèi)成功后,進(jìn)行手動(dòng)提交,分區(qū)的offset才會(huì)向后移動(dòng)。(默認(rèn)是會(huì)自動(dòng)提交,一般會(huì)關(guān)閉自動(dòng)提交)
注意事項(xiàng):
1.replication.factor>=2,也就是一個(gè)分區(qū)至少會(huì)有兩個(gè)副本。
2.min.insync.replicas默認(rèn)是1,leader至少要有一個(gè)follow跟自己保持聯(lián)系沒有掉線。(這個(gè)配置只有在ack為all或者-1時(shí)有用,也就是ack為all也只是要求生產(chǎn)者發(fā)送的消息,被leader以及ISR集合里面的從節(jié)點(diǎn)接收到,就算所有節(jié)點(diǎn)都接收到了。)
3.一般設(shè)置了ack=all就不會(huì)丟數(shù)據(jù)。因?yàn)闀?huì)保證所有的follower都收到消息,才算broker接收成功,默認(rèn)ack=1。
4.retries=,生產(chǎn)者寫入消息失敗后的重試次數(shù)。
5.每個(gè)partition有一個(gè)offset,
6.生產(chǎn)者ACK配置:
1(默認(rèn)) 數(shù)據(jù)發(fā)送到Kafka后,經(jīng)過leader成功接收消息的的確認(rèn),就算是發(fā)送成功了。在這種情況下,如果leader宕機(jī)了,則會(huì)丟失數(shù)據(jù)。
0 生產(chǎn)者將數(shù)據(jù)發(fā)送出去就不管了,不去等待任何返回。這種情況下數(shù)據(jù)傳輸效率最高,但是數(shù)據(jù)可靠性確是最低的。
-1 也就是all,producer需要等待ISR中的所有follower都確認(rèn)接收到數(shù)據(jù)后才算一次發(fā)送完成,可靠性最高。