flume-ng+Kafka+Storm+HDFS 實時系統搭建

問題導讀:

flume和kafka整合需要什么組件?

flume-conf.properties需要做哪些修改?

kafka和storm的整合需要經過哪些步驟?

一直以來都想接觸Storm實時計算這塊的東西,之前在弄這個的時候,跟群里的一些人討論過,有的人說,直接用storm不就可以做實時處理了,用不著那么麻煩;其實不然,做軟件開發的都知道模塊化思想,這樣設計的原因有兩方面:

一方面是可以模塊化,功能劃分更加清晰,從“數據采集--數據接入--流失計算--數據輸出/存儲”

1).數據采集

負責從各節點上實時采集數據,選用cloudera的flume來實現

2).數據接入

由于采集數據的速度和數據處理的速度不一定同步,因此添加一個消息中間件來作為緩沖,選用apache的kafka

3).流式計算

對采集到的數據進行實時分析,選用apache的storm

4).數據輸出

對分析后的結果持久化,暫定用mysql

另一方面是模塊化之后,加入當Storm掛掉了之后,數據采集和數據接入還是繼續在跑著,數據不會丟失,storm起來之后可以繼續進行流式計算;

那么接下來我們來看下整體的架構圖

詳細介紹各個組件及安裝配置:

操作系統:ubuntu

Flume

Flume是Cloudera提供的一個分布式、可靠、和高可用的海量日志采集、聚合和傳輸的日志收集系統,支持在日志系統中定制各類數據發送方,用于收集數據;同時,Flume提供對數據進行簡單處理,并寫到各種數據接受方(可定制)的能力。

下圖為flume典型的體系結構:

Flume數據源以及輸出方式:

Flume提供了從console(控制臺)、RPC(Thrift-RPC)、text(文件)、tail(UNIX tail)、syslog(syslog日志系統,支持TCP和UDP等2種模式),exec(命令執行)等數據源上收集數據的能力,在我們的系統中目前使用exec方式進行日志采集。

Flume的數據接受方,可以是console(控制臺)、text(文件)、dfs(HDFS文件)、RPC(Thrift-RPC)和syslogTCP(TCP syslog日志系統)等。在我們系統中由kafka來接收。

Flume下載及文檔:

http://flume.apache.org/

Flume安裝:

$tar zxvf apache-flume-1.4.0-bin.tar.gz/usr/local

復制代碼

Flume啟動命令:

$bin/flume-ng agent --conf conf --conf-file conf/flume-conf.properties --name producer -Dflume.root.logger=INFO,console

復制代碼

Kafka

kafka是一種高吞吐量的分布式發布訂閱消息系統,她有如下特性:

通過O(1)的磁盤數據結構提供消息的持久化,這種結構對于即使數以TB的消息存儲也能夠保持長時間的穩定性能。

高吞吐量:即使是非常普通的硬件kafka也可以支持每秒數十萬的消息。

支持通過kafka服務器和消費機集群來分區消息。

支持Hadoop并行數據加載。

kafka的目的是提供一個發布訂閱解決方案,它可以處理消費者規模的網站中的所有動作流數據。 這種動作(網頁瀏覽,搜索和其他用戶的行動)是在現代網絡上的許多社會功能的一個關鍵因素。 這些數據通常是由于吞吐量的要求而通過處理日志和日志聚合來解決。 對于像Hadoop的一樣的日志數據和離線分析系統,但又要求實時處理的限制,這是一個可行的解決方案。kafka的目的是通過Hadoop的并行加載機制來統一線上和離線的消息處理,也是為了通過集群機來提供實時的消費。

kafka分布式訂閱架構如下圖:--取自Kafka官網

羅寶兄弟文章上的架構圖是這樣的

其實兩者沒有太大區別,官網的架構圖只是把Kafka簡潔的表示成一個Kafka Cluster,而羅寶兄弟的架構圖就相對詳細一些;

Kafka版本:0.8.0

Kafka下載及文檔:http://kafka.apache.org/

Kafka安裝:

> tar xzf kafka-.tgz

> cd kafka-

> ./sbt update

> ./sbt package

> ./sbt assembly-package-dependency

復制代碼

啟動及測試命令:

(1) start server

> bin/zookeeper-server-start.shconfig/zookeeper.properties

> bin/kafka-server-start.shconfig/server.properties

復制代碼

這里是官網上的教程,kafka本身有內置zookeeper,但是我自己在實際部署中是使用單獨的zookeeper集群,所以第一行命令我就沒執行,這里只是些出來給大家看下。

配置獨立的zookeeper集群需要配置server.properties文件,講zookeeper.connect修改為獨立集群的IP和端口

zookeeper.connect=nutch1:2181

復制代碼

(2)Create a topic

> bin/kafka-create-topic.sh --zookeeper localhost:2181 --replica 1 --partition 1 --topic test

> bin/kafka-list-topic.sh --zookeeperlocalhost:2181

復制代碼

(3)Send some messages

> bin/kafka-console-producer.sh--broker-list localhost:9092 --topic test

復制代碼

(4)Start a consumer

> bin/kafka-console-consumer.sh--zookeeper localhost:2181 --topic test --from-beginning

復制代碼

kafka-console-producer.sh和kafka-console-cousumer.sh只是系統提供的命令行工具。這里啟動是為了測試是否能正常生產消費;驗證流程正確性

在實際開發中還是要自行開發自己的生產者與消費者;

kafka的安裝也可以參考我之前寫的文章:http://blog.csdn.net/weijonathan/article/details/18075967

Storm

Twitter將Storm正式開源了,這是一個分布式的、容錯的實時計算系統,它被托管在GitHub上,遵循 Eclipse Public License 1.0。Storm是由BackType開發的實時處理系統,BackType現在已在Twitter麾下。GitHub上的最新版本是Storm 0.5.2,基本是用Clojure寫的。

Storm的主要特點如下:

簡單的編程模型。類似于MapReduce降低了并行批處理復雜性,Storm降低了進行實時處理的復雜性。

可以使用各種編程語言。你可以在Storm之上使用各種編程語言。默認支持Clojure、Java、Ruby和Python。要增加對其他語言的支持,只需實現一個簡單的Storm通信協議即可。

容錯性。Storm會管理工作進程和節點的故障。

水平擴展。計算是在多個線程、進程和服務器之間并行進行的。

可靠的消息處理。Storm保證每個消息至少能得到一次完整處理。任務失敗時,它會負責從消息源重試消息。

快速。系統的設計保證了消息能得到快速的處理,使用?MQ作為其底層消息隊列。(0.9.0.1版本支持?MQ和netty兩種模式)

本地模式。Storm有一個“本地模式”,可以在處理過程中完全模擬Storm集群。這讓你可以快速進行開發和單元測試。

由于篇幅問題,具體的安裝步驟可以參考我之前寫的文章:http://blog.csdn.net/weijonathan/article/details/17762477

接下來重頭戲開始拉!那就是框架之間的整合啦

flume和kafka整合

1.下載

flume-kafka-plus:https://github.com/beyondj2ee/flumeng-kafka-plugin

2.提取插件中的flume-conf.properties文件

修改該文件:#source section

producer.sources.s.type = exec

producer.sources.s.command = tail -f -n+1 /mnt/hgfs/vmshare/test.log

producer.sources.s.channels = c

修改所有topic的值改為test

將改后的配置文件放進flume/conf目錄下

在該項目中提取以下jar包放入環境中flume的lib下:

注:這里的flumeng-kafka-plugin.jar這個包,后面在github項目中已經移動到package目錄了。找不到的童鞋可以到package目錄獲取。

完成上面的步驟之后,我們來測試下flume+kafka這個流程有沒有走通;

我們先啟動flume,然后再啟動kafka,啟動步驟按之前的步驟執行;接下來我們使用kafka的kafka-console-consumer.sh腳本查看是否有flume有沒有往Kafka傳輸數據;

以上這個是我的test.log文件通過flume抓取傳到kafka的數據;說明我們的flume和kafka流程走通了;

大家還記得剛開始我們的流程圖么,其中有一步是通過flume到kafka,還有一步是到hdfs的;而我們這邊還沒有提到如何存入kafka且同時存如hdfs;

flume是支持數據同步復制,同步復制流程圖如下,取自于flume官網,官網用戶指南地址:http://flume.apache.org/FlumeUserGuide.html

怎么設置同步復制呢,看下面的配置:

#2個channel和2個sink的配置文件 這里我們可以設置兩個sink,一個是kafka的,一個是hdfs的;

a1.sources = r1

a1.sinks = k1 k2

a1.channels = c1 c2

復制代碼

具體配置大伙根據自己的需求去設置,這里就不具體舉例了

kafka和storm的整合

1.下載kafka-storm0.8插件:https://github.com/wurstmeister/storm-kafka-0.8-plus

2.使用maven package進行編譯,得到storm-kafka-0.8-plus-0.3.0-SNAPSHOT.jar包??--有轉載的童鞋注意下,這里的包名之前寫錯了,現在改正確了!不好意思!

3.將該jar包及kafka_2.9.2-0.8.0-beta1.jar、metrics-core-2.2.0.jar、scala-library-2.9.2.jar (這三個jar包在kafka項目中能找到)

備注:如果開發的項目需要其他jar,記得也要放進storm的Lib中比如用到了mysql就要添加mysql-connector-java-5.1.22-bin.jar到storm的lib下

那么接下來我們把storm也重啟下;

完成以上步驟之后,我們還有一件事情要做,就是使用kafka-storm0.8插件,寫一個自己的Storm程序;

這里我給大伙附上一個我弄的storm程序,百度網盤分享地址:鏈接:http://pan.baidu.com/s/1dD28mDr密碼: 44r3

先稍微看下程序的創建Topology代碼

數據操作主要在WordCounter類中,這里只是使用簡單JDBC進行插入處理

這里只需要輸入一個參數作為Topology名稱就可以了!我們這里使用本地模式,所以不輸入參數,直接看流程是否走通;

storm-0.9.0.1/bin/storm jar storm-start-demo-0.0.1-SNAPSHOT.jar com.storm.topology.MyTopology

先看下日志,這里打印出來了往數據庫里面插入數據了

然后我們查看下數據庫;插入成功了!

到這里我們的整個整合就完成了!

但是這里還有一個問題,不知道大伙有沒有發現。

由于我們使用storm進行分布式流式計算,那么分布式最需要注意的是數據一致性以及避免臟數據的產生;所以我提供的測試項目只能用于測試,正式開發不能這樣處理;

同時給的建議是建立一個zookeeper的分布式全局鎖,保證數據一致性,避免臟數據錄入!

?著作權歸作者所有,轉載或內容合作請聯系作者
平臺聲明:文章內容(如有圖片或視頻亦包括在內)由作者上傳并發布,文章內容僅代表作者本人觀點,簡書系信息發布平臺,僅提供信息存儲服務。
  • 序言:七十年代末,一起剝皮案震驚了整個濱河市,隨后出現的幾起案子,更是在濱河造成了極大的恐慌,老刑警劉巖,帶你破解...
    沈念sama閱讀 228,505評論 6 533
  • 序言:濱河連續發生了三起死亡事件,死亡現場離奇詭異,居然都是意外死亡,警方通過查閱死者的電腦和手機,發現死者居然都...
    沈念sama閱讀 98,556評論 3 418
  • 文/潘曉璐 我一進店門,熙熙樓的掌柜王于貴愁眉苦臉地迎上來,“玉大人,你說我怎么就攤上這事。” “怎么了?”我有些...
    開封第一講書人閱讀 176,463評論 0 376
  • 文/不壞的土叔 我叫張陵,是天一觀的道長。 經常有香客問我,道長,這世上最難降的妖魔是什么? 我笑而不...
    開封第一講書人閱讀 63,009評論 1 312
  • 正文 為了忘掉前任,我火速辦了婚禮,結果婚禮上,老公的妹妹穿的比我還像新娘。我一直安慰自己,他們只是感情好,可當我...
    茶點故事閱讀 71,778評論 6 410
  • 文/花漫 我一把揭開白布。 她就那樣靜靜地躺著,像睡著了一般。 火紅的嫁衣襯著肌膚如雪。 梳的紋絲不亂的頭發上,一...
    開封第一講書人閱讀 55,218評論 1 324
  • 那天,我揣著相機與錄音,去河邊找鬼。 笑死,一個胖子當著我的面吹牛,可吹牛的內容都是我干的。 我是一名探鬼主播,決...
    沈念sama閱讀 43,281評論 3 441
  • 文/蒼蘭香墨 我猛地睜開眼,長吁一口氣:“原來是場噩夢啊……” “哼!你這毒婦竟也來了?” 一聲冷哼從身側響起,我...
    開封第一講書人閱讀 42,436評論 0 288
  • 序言:老撾萬榮一對情侶失蹤,失蹤者是張志新(化名)和其女友劉穎,沒想到半個月后,有當地人在樹林里發現了一具尸體,經...
    沈念sama閱讀 48,969評論 1 335
  • 正文 獨居荒郊野嶺守林人離奇死亡,尸身上長有42處帶血的膿包…… 初始之章·張勛 以下內容為張勛視角 年9月15日...
    茶點故事閱讀 40,795評論 3 354
  • 正文 我和宋清朗相戀三年,在試婚紗的時候發現自己被綠了。 大學時的朋友給我發了我未婚夫和他白月光在一起吃飯的照片。...
    茶點故事閱讀 42,993評論 1 369
  • 序言:一個原本活蹦亂跳的男人離奇死亡,死狀恐怖,靈堂內的尸體忽然破棺而出,到底是詐尸還是另有隱情,我是刑警寧澤,帶...
    沈念sama閱讀 38,537評論 5 359
  • 正文 年R本政府宣布,位于F島的核電站,受9級特大地震影響,放射性物質發生泄漏。R本人自食惡果不足惜,卻給世界環境...
    茶點故事閱讀 44,229評論 3 347
  • 文/蒙蒙 一、第九天 我趴在偏房一處隱蔽的房頂上張望。 院中可真熱鬧,春花似錦、人聲如沸。這莊子的主人今日做“春日...
    開封第一講書人閱讀 34,659評論 0 26
  • 文/蒼蘭香墨 我抬頭看了看天上的太陽。三九已至,卻和暖如春,著一層夾襖步出監牢的瞬間,已是汗流浹背。 一陣腳步聲響...
    開封第一講書人閱讀 35,917評論 1 286
  • 我被黑心中介騙來泰國打工, 沒想到剛下飛機就差點兒被人妖公主榨干…… 1. 我叫王不留,地道東北人。 一個月前我還...
    沈念sama閱讀 51,687評論 3 392
  • 正文 我出身青樓,卻偏偏與公主長得像,于是被迫代替她去往敵國和親。 傳聞我的和親對象是個殘疾皇子,可洞房花燭夜當晚...
    茶點故事閱讀 47,990評論 2 374

推薦閱讀更多精彩內容