概覽
wiki-edits教程是一個監(jiān)控wikipedia編輯的flink監(jiān)控程序,實(shí)時計(jì)算編輯者的編輯的byte數(shù)。它通過wikipedia connector來獲取數(shù)據(jù)源,最終把數(shù)據(jù)sink到kafka中。
建立Maven工程
我們使用Flink的Maven原型來創(chuàng)建工程。Flink的版本號為1.5.0,腳本命令如下:
$ mvn archetype:generate \
-DarchetypeGroupId=org.apache.flink \
-DarchetypeArtifactId=flink-quickstart-java \
-DarchetypeVersion=1.5.0 \
-DgroupId=wiki-edits \
-DartifactId=wiki-edits \
-Dversion=0.1 \
-Dpackage=wikiedits \
-DinteractiveMode=false
然后我們可以通過tree命令來查看目錄結(jié)構(gòu)。
$ wiki-edits/
├── pom.xml
├── src
│ └── main
│ ├── java
│ │ └── wikiedits
│ │ ├── BatchJob.java
│ │ ├── StreamingJob.java
│ └── resources
│ └── log4j.properties
最后我們用IDEA打開工程,并在pom.xml中添加如下依賴,分別為對flink-connector-wikiedits和flink-connector-kafka的依賴。
<dependency>
<groupId>org.apache.flink</groupId>
<artifactId>flink-connector-wikiedits_2.11</artifactId>
<version>${flink.version}</version>
</dependency>
<dependency>
<groupId>org.apache.flink</groupId>
<artifactId>flink-connector-kafka-0.8_2.11</artifactId>
<version>${flink.version}</version>
</dependency>
編寫Flink程序
首先我們創(chuàng)建一個WikipediaAnalysis.java文件,并在main方法中添加如下代碼。其大致步驟分為如下:
- 獲取環(huán)境信息
- 為環(huán)境信息添加WikipediaEditsSource源
- 根據(jù)事件中的用戶名為key來區(qū)分?jǐn)?shù)據(jù)流
- 設(shè)置窗口時間為5s
- 聚合當(dāng)前窗口中相同用戶名的事件,最終返回一個tuple2<user,累加的ByteDiff>
- 把tuple2映射為string
- sink數(shù)據(jù)到kafka,topic為wiki-result
- 執(zhí)行操作
keyBy(...)函數(shù)是用來分片數(shù)據(jù)源的,可以把相同key的放在一個task任務(wù)中執(zhí)行。
timeWindow(...)函數(shù)默認(rèn)使用tumbling windows。
這邊聚合函數(shù)使用了Aggregation函數(shù),替換了原先的fold函數(shù)(提示為deprecated)。
package wikiedits;
import org.apache.flink.api.common.functions.AggregateFunction;
import org.apache.flink.api.common.functions.MapFunction;
import org.apache.flink.api.common.serialization.SimpleStringSchema;
import org.apache.flink.api.java.functions.KeySelector;
import org.apache.flink.api.java.tuple.Tuple2;
import org.apache.flink.streaming.api.datastream.DataStream;
import org.apache.flink.streaming.api.datastream.KeyedStream;
import org.apache.flink.streaming.api.environment.StreamExecutionEnvironment;
import org.apache.flink.streaming.api.windowing.time.Time;
import org.apache.flink.streaming.connectors.kafka.FlinkKafkaProducer08;
import org.apache.flink.streaming.connectors.wikiedits.WikipediaEditEvent;
import org.apache.flink.streaming.connectors.wikiedits.WikipediaEditsSource;
public class WikipediaAnalysis {
public static void main(String[] args) throws Exception{
//1.獲取環(huán)境信息
StreamExecutionEnvironment env = StreamExecutionEnvironment.getExecutionEnvironment();
//2.為環(huán)境信息添加WikipediaEditsSource源
DataStream<WikipediaEditEvent> edits = env.addSource(new WikipediaEditsSource());
//3.根據(jù)事件中的用戶名為key來區(qū)分?jǐn)?shù)據(jù)流
KeyedStream<WikipediaEditEvent, String> keyedEdits = edits
.keyBy(new KeySelector<WikipediaEditEvent, String>() {
@Override
public String getKey(WikipediaEditEvent wikipediaEditEvent) throws Exception {
return wikipediaEditEvent.getUser();
}
});
DataStream<Tuple2<String, Integer>> result = keyedEdits
//4.設(shè)置窗口時間為5s
.timeWindow(Time.seconds(5))
//5.聚合當(dāng)前窗口中相同用戶名的事件,最終返回一個tuple2<user,累加的ByteDiff>
.aggregate(new AggregateFunction<WikipediaEditEvent, Tuple2<String, Integer>, Tuple2<String,Integer>>() {
@Override
public Tuple2<String, Integer> createAccumulator() {
return new Tuple2<>("",0);
}
@Override
public Tuple2<String, Integer> add(WikipediaEditEvent value, Tuple2<String, Integer> accumulator) {
return new Tuple2<>(value.getUser(), value.getByteDiff()+accumulator.f1);
}
@Override
public Tuple2<String, Integer> getResult(Tuple2<String, Integer> accumulator) {
return accumulator;
}
@Override
public Tuple2<String, Integer> merge(Tuple2<String, Integer> a, Tuple2<String, Integer> b) {
return new Tuple2<>(a.f0+b.f0, a.f1+b.f1);
}
});
//6.把tuple2映射為string
result.map(new MapFunction<Tuple2<String,Integer>, String>() {
@Override
public String map(Tuple2<String, Integer> stringLongTuple2) throws Exception {
return stringLongTuple2.toString();
}
//7.sink數(shù)據(jù)到kafka,topic為wiki-result
}).addSink(new FlinkKafkaProducer08<String>("localhost:9092", "wiki-result", new SimpleStringSchema()));
//8.執(zhí)行操作
env.execute();
}
}
最后我們添加一下IDEA的運(yùn)行配置信息。
安裝運(yùn)行zookeeper&kafka
Mac可以通過brew來安裝zookeeper和kafka。
$ brew install zookeeper
$ brew install kafka
然后運(yùn)行上述組件。在zookeeper目錄下執(zhí)行以下命令來zookeeper開啟服務(wù)。
$ ./bin/zkServer start
在kafka目錄下執(zhí)行以下命令來開啟kafka服務(wù)。
$ ./bin/kafka-server-start /usr/local/etc/kafka/server.properties
接著創(chuàng)建一個topic。
$ ./bin/kafka-console-producer --topic wiki-result --broker-list localhost:9092
運(yùn)行程序并消費(fèi)kafka中的數(shù)據(jù)
在IDEA中run剛才的程序,然后在kafka目錄中執(zhí)行開啟消費(fèi)者的命令,可以查看實(shí)時消費(fèi)的數(shù)據(jù)。
$ ./bin/kafka-console-consumer --zookeeper localhost:2181 --topic wiki-result
(Tony1,17)
(2.177.40.137,9)
(Waelabdelhamid,279)
(Falconatic,182)
(JackintheBox,1934)
(Zzbrandon123,26)
(0.86.42.171,56)
(.37.168.68,-44)
(Aditya debnath wiki,3)
總結(jié)
本文實(shí)踐了Flink的wiki-edit例子。其通過從wiki-connector中獲取source,并sink數(shù)據(jù)到kafka中。
參考
Monitoring the Wikipedia Edit Stream
kafka
zookeeper
Flink: How to convert the deprecated fold to aggregrate?