好久沒有寫分享了,繼前一個系列進行了Kafka源碼分享之后,接下來進行Flume源碼分析系列,望大家繼續(xù)關(guān)注,今天先進行開篇文章Flume+kafka的環(huán)境配置與使用。
一、FLUME介紹
Flume是一個分布式、可靠、和高可用的海量日志聚合的系統(tǒng),支持在系統(tǒng)中定制各類數(shù)據(jù)發(fā)送方,用于收集數(shù)據(jù);同時,F(xiàn)lume提供對數(shù)據(jù)進行簡單處理,并寫到各種數(shù)據(jù)接受方(可定制)的能力。
設(shè)計目標:
(1) 可靠性
當節(jié)點出現(xiàn)故障時,日志能夠被傳送到其他節(jié)點上而不會丟失。Flume提供了三種級別的可靠性保障,從強到弱依次分別為:end-to-end(收到數(shù)據(jù)agent首先將event寫到磁盤上,當數(shù)據(jù)傳送成功后,再刪除;如果數(shù)據(jù)發(fā)送失敗,可以重新發(fā)送。),Store on failure(這也是scribe采用的策略,當數(shù)據(jù)接收方crash時,將數(shù)據(jù)寫到本地,待恢復(fù)后,繼續(xù)發(fā)送),Best effort(數(shù)據(jù)發(fā)送到接收方后,不會進行確認)。
(2) 可擴展性
Flume采用了三層架構(gòu),分別為agent,collector和storage,每一層均可以水平擴展。其中,所有agent和collector由master統(tǒng)一管理,這使得系統(tǒng)容易監(jiān)控和維護,且master允許有多個(使用ZooKeeper進行管理和負載均衡),這就避免了單點故障問題。
(3) 可管理性
所有agent和colletor由master統(tǒng)一管理,這使得系統(tǒng)便于維護。多master情況,F(xiàn)lume利用ZooKeeper和gossip,保證動態(tài)配置數(shù)據(jù)的一致性。用戶可以在master上查看各個數(shù)據(jù)源或者數(shù)據(jù)流執(zhí)行情況,且可以對各個數(shù)據(jù)源配置和動態(tài)加載。Flume提供了web 和shell script command兩種形式對數(shù)據(jù)流進行管理。
(4) 功能可擴展性
用戶可以根據(jù)需要添加自己的agent,collector或者storage。此外,F(xiàn)lume自帶了很多組件,包括各種agent(file, syslog等),collector和storage(file,HDFS等)。
二、Flume 的 一些核心概念:
組件名稱 | 功能介紹 |
---|---|
Agent代理 | 使用JVM 運行Flume。每臺機器運行一個agent,但是可以在一個agent中包含多個sources和sinks。 |
Client客戶端 | 生產(chǎn)數(shù)據(jù),運行在一個獨立的線程。 |
Source源 | 從Client收集數(shù)據(jù),傳遞給Channel。 |
Sink接收器 | 從Channel收集數(shù)據(jù),進行相關(guān)操作,運行在一個獨立線程。 |
Channel通道 | 連接 sources 和 sinks ,這個有點像一個隊列。 |
Events事件 | 傳輸?shù)幕緮?shù)據(jù)負載。 |
三、Flume的整體構(gòu)成圖
注意
源將事件寫到一個多或者多個通道中。
接收器只從一個通道接收事件。
代理可能會有多個源、通道與接收器。
四、Flume環(huán)境配置
- 在http://flume.apache.org/ 下載Flume安裝包,我們選擇最新的1.6.0版本。
- 安裝包內(nèi)容如下
- 配置文件
常用配置模式一
掃描指定文件
agent.sources.s1.type=exec
agent.sources.s1.command=tail -F /Users/it-od-m/Downloads/abc.log
agent.sources.s1.channels=c1
agent.channels.c1.type=memory
agent.channels.c1.capacity=10000
agent.channels.c1.transactionCapacity=100
#設(shè)置Kafka接收器
agent.sinks.k1.type= org.apache.flume.sink.kafka.KafkaSink
#設(shè)置Kafka的broker地址和端口號
agent.sinks.k1.brokerList=127.0.0.1:9092
#設(shè)置Kafka的Topic
agent.sinks.k1.topic=testKJ1
#設(shè)置序列化方式
agent.sinks.k1.serializer.class=kafka.serializer.StringEncoder
agent.sinks.k1.channel=c1
常用配置模式二
Agent名稱定義為agent.
Source:可以理解為輸入端,定義名稱為s1
channel:傳輸頻道,定義為c1,設(shè)置為內(nèi)存模式
sinks:可以理解為輸出端,定義為sk1,
agent.sources = s1
agent.channels = c1
agent.sinks = sk1
#設(shè)置Source的內(nèi)省為netcat 端口為5678,使用的channel為c1
agent.sources.s1.type = netcat
agent.sources.s1.bind = localhost
agent.sources.s1.port = 3456
agent.sources.s1.channels = c1
#設(shè)置Sink為logger模式,使用的channel為c1
agent.sinks.sk1.type = logger
agent.sinks.sk1.channel = c1
#設(shè)置channel信息
agent.channels.c1.type = memory #內(nèi)存模式
agent.channels.c1.capacity = 1000
agent.channels.c1.transactionCapacity = 100 #傳輸參數(shù)設(shè)置。
常用配置模式三
掃描目錄新增文件
agent.sources = s1
agent.channels = c1
agent.sinks = sk1
#設(shè)置spooldir
agent.sources.s1.type = spooldir
agent.sources.s1.spoolDir = /Users/it-od-m/logs
agent.sources.s1.fileHeader = true
agent.sources.s1.channels = c1
agent.sinks.sk1.type = logger
agent.sinks.sk1.channel = c1
#In Memory !!!
agent.channels.c1.type = memory
agent.channels.c1.capacity = 10004
agent.channels.c1.transactionCapacity = 100
我們今天重點使用第一種模式,因為要與Kafka相結(jié)合。
配置好參數(shù)以后,回到如下目錄:
使用如下命令啟動Flume:
./bin/flume-ng agent -n agent -c conf -f conf/hw.conf -Dflume.root.logger=INFO,console
最后一行顯示Component type:SINK,name:k1 started表示啟動成功。
在啟動Flume之前,Zookeeper和Kafka要先啟動成功,不然啟動Flume會報連不上Kafka的錯誤。
1、使用./zkServer.sh start
啟動zookeeper。
2、使用如下命令啟動Kafka,更詳細的Kafka命令請參照我之前總結(jié)的http://www.lxweimin.com/p/cfedb7122e38 (Kafka常用命令行總結(jié))
./kafka-server-start.sh -daemon ../config/server.properties
3、使用Kafka默認提供的Consumer來接收消息
./kafka-console-consumer.sh -zookeeper localhost:2181 --from-beginning --topic testKJ1
4、編寫簡單Shell腳本output.sh,并修改權(quán)限為可執(zhí)行權(quán)限
for((i=0;i<=50000;i++));
do echo "test-"+$i>>abc.log;
done
循環(huán)向abc.log文件插入test文本消息。
5、執(zhí)行output.sh。
整個過程流程如下:
至此簡單的使用介紹已經(jīng)講完,關(guān)于Flume還有非常多的屬性和配置技巧需要我們?nèi)ネ诰颍覀円源宋恼伦鳛殚_篇為的是為以后源碼分析作為鋪墊。