Flink中的wiki-edits例子實(shí)踐

image

概覽

wiki-edits教程是一個監(jiān)控wikipedia編輯的flink監(jiān)控程序,實(shí)時計(jì)算編輯者的編輯的byte數(shù)。它通過wikipedia connector來獲取數(shù)據(jù)源,最終把數(shù)據(jù)sink到kafka中。

建立Maven工程

我們使用Flink的Maven原型來創(chuàng)建工程。Flink的版本號為1.5.0,腳本命令如下:

$ mvn archetype:generate \
    -DarchetypeGroupId=org.apache.flink \
    -DarchetypeArtifactId=flink-quickstart-java \
    -DarchetypeVersion=1.5.0 \
    -DgroupId=wiki-edits \
    -DartifactId=wiki-edits \
    -Dversion=0.1 \
    -Dpackage=wikiedits \
    -DinteractiveMode=false

然后我們可以通過tree命令來查看目錄結(jié)構(gòu)。

$ wiki-edits/
├── pom.xml
├── src
│   └── main
│       ├── java
│       │   └── wikiedits
│       │       ├── BatchJob.java
│       │       ├── StreamingJob.java
│       └── resources
│           └── log4j.properties

最后我們用IDEA打開工程,并在pom.xml中添加如下依賴,分別為對flink-connector-wikiedits和flink-connector-kafka的依賴。

        <dependency>
            <groupId>org.apache.flink</groupId>
            <artifactId>flink-connector-wikiedits_2.11</artifactId>
            <version>${flink.version}</version>
        </dependency>
        <dependency>
            <groupId>org.apache.flink</groupId>
            <artifactId>flink-connector-kafka-0.8_2.11</artifactId>
            <version>${flink.version}</version>
        </dependency>

編寫Flink程序

首先我們創(chuàng)建一個WikipediaAnalysis.java文件,并在main方法中添加如下代碼。其大致步驟分為如下:

  1. 獲取環(huán)境信息
  2. 為環(huán)境信息添加WikipediaEditsSource源
  3. 根據(jù)事件中的用戶名為key來區(qū)分?jǐn)?shù)據(jù)流
  4. 設(shè)置窗口時間為5s
  5. 聚合當(dāng)前窗口中相同用戶名的事件,最終返回一個tuple2<user,累加的ByteDiff>
  6. 把tuple2映射為string
  7. sink數(shù)據(jù)到kafka,topic為wiki-result
  8. 執(zhí)行操作

keyBy(...)函數(shù)是用來分片數(shù)據(jù)源的,可以把相同key的放在一個task任務(wù)中執(zhí)行。

timeWindow(...)函數(shù)默認(rèn)使用tumbling windows。

這邊聚合函數(shù)使用了Aggregation函數(shù),替換了原先的fold函數(shù)(提示為deprecated)。

package wikiedits;

import org.apache.flink.api.common.functions.AggregateFunction;
import org.apache.flink.api.common.functions.MapFunction;
import org.apache.flink.api.common.serialization.SimpleStringSchema;
import org.apache.flink.api.java.functions.KeySelector;
import org.apache.flink.api.java.tuple.Tuple2;
import org.apache.flink.streaming.api.datastream.DataStream;
import org.apache.flink.streaming.api.datastream.KeyedStream;
import org.apache.flink.streaming.api.environment.StreamExecutionEnvironment;
import org.apache.flink.streaming.api.windowing.time.Time;
import org.apache.flink.streaming.connectors.kafka.FlinkKafkaProducer08;
import org.apache.flink.streaming.connectors.wikiedits.WikipediaEditEvent;
import org.apache.flink.streaming.connectors.wikiedits.WikipediaEditsSource;


public class WikipediaAnalysis {
    public static void main(String[] args) throws Exception{
        //1.獲取環(huán)境信息
        StreamExecutionEnvironment env = StreamExecutionEnvironment.getExecutionEnvironment();

        //2.為環(huán)境信息添加WikipediaEditsSource源
        DataStream<WikipediaEditEvent> edits = env.addSource(new WikipediaEditsSource());

        //3.根據(jù)事件中的用戶名為key來區(qū)分?jǐn)?shù)據(jù)流
        KeyedStream<WikipediaEditEvent, String> keyedEdits = edits
                .keyBy(new KeySelector<WikipediaEditEvent, String>() {
                    @Override
                    public String getKey(WikipediaEditEvent wikipediaEditEvent) throws Exception {
                        return wikipediaEditEvent.getUser();
                    }
                });

        
        DataStream<Tuple2<String, Integer>> result = keyedEdits
                //4.設(shè)置窗口時間為5s
                .timeWindow(Time.seconds(5))
                //5.聚合當(dāng)前窗口中相同用戶名的事件,最終返回一個tuple2<user,累加的ByteDiff>
                .aggregate(new AggregateFunction<WikipediaEditEvent, Tuple2<String, Integer>, Tuple2<String,Integer>>() {
                    @Override
                    public Tuple2<String, Integer> createAccumulator() {
                        return new Tuple2<>("",0);
                    }

                    @Override
                    public Tuple2<String, Integer> add(WikipediaEditEvent value, Tuple2<String, Integer> accumulator) {
                        return new Tuple2<>(value.getUser(), value.getByteDiff()+accumulator.f1);
                    }

                    @Override
                    public Tuple2<String, Integer> getResult(Tuple2<String, Integer> accumulator) {
                        return accumulator;
                    }

                    @Override
                    public Tuple2<String, Integer> merge(Tuple2<String, Integer> a, Tuple2<String, Integer> b) {
                        return new Tuple2<>(a.f0+b.f0, a.f1+b.f1);
                    }
                });

        //6.把tuple2映射為string
        result.map(new MapFunction<Tuple2<String,Integer>, String>() {

            @Override
            public String map(Tuple2<String, Integer> stringLongTuple2) throws Exception {
                return stringLongTuple2.toString();
            }
            //7.sink數(shù)據(jù)到kafka,topic為wiki-result
        }).addSink(new FlinkKafkaProducer08<String>("localhost:9092", "wiki-result", new SimpleStringSchema()));

        //8.執(zhí)行操作
        env.execute();

    }
}

最后我們添加一下IDEA的運(yùn)行配置信息。

image.png

安裝運(yùn)行zookeeper&kafka

Mac可以通過brew來安裝zookeeperkafka

$ brew install zookeeper
$ brew install kafka

然后運(yùn)行上述組件。在zookeeper目錄下執(zhí)行以下命令來zookeeper開啟服務(wù)。

$ ./bin/zkServer start

在kafka目錄下執(zhí)行以下命令來開啟kafka服務(wù)。

$ ./bin/kafka-server-start /usr/local/etc/kafka/server.properties

接著創(chuàng)建一個topic。

$ ./bin/kafka-console-producer --topic wiki-result  --broker-list localhost:9092

運(yùn)行程序并消費(fèi)kafka中的數(shù)據(jù)

在IDEA中run剛才的程序,然后在kafka目錄中執(zhí)行開啟消費(fèi)者的命令,可以查看實(shí)時消費(fèi)的數(shù)據(jù)。

$ ./bin/kafka-console-consumer --zookeeper localhost:2181 --topic wiki-result
(Tony1,17)
(2.177.40.137,9)
(Waelabdelhamid,279)
(Falconatic,182)
(JackintheBox,1934)
(Zzbrandon123,26)
(0.86.42.171,56)
(.37.168.68,-44)
(Aditya debnath wiki,3)

總結(jié)

本文實(shí)踐了Flink的wiki-edit例子。其通過從wiki-connector中獲取source,并sink數(shù)據(jù)到kafka中。

參考

Monitoring the Wikipedia Edit Stream
kafka
zookeeper
Flink: How to convert the deprecated fold to aggregrate?

最后編輯于
?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請聯(lián)系作者
平臺聲明:文章內(nèi)容(如有圖片或視頻亦包括在內(nèi))由作者上傳并發(fā)布,文章內(nèi)容僅代表作者本人觀點(diǎn),簡書系信息發(fā)布平臺,僅提供信息存儲服務(wù)。
  • 序言:七十年代末,一起剝皮案震驚了整個濱河市,隨后出現(xiàn)的幾起案子,更是在濱河造成了極大的恐慌,老刑警劉巖,帶你破解...
    沈念sama閱讀 230,321評論 6 543
  • 序言:濱河連續(xù)發(fā)生了三起死亡事件,死亡現(xiàn)場離奇詭異,居然都是意外死亡,警方通過查閱死者的電腦和手機(jī),發(fā)現(xiàn)死者居然都...
    沈念sama閱讀 99,559評論 3 429
  • 文/潘曉璐 我一進(jìn)店門,熙熙樓的掌柜王于貴愁眉苦臉地迎上來,“玉大人,你說我怎么就攤上這事。” “怎么了?”我有些...
    開封第一講書人閱讀 178,442評論 0 383
  • 文/不壞的土叔 我叫張陵,是天一觀的道長。 經(jīng)常有香客問我,道長,這世上最難降的妖魔是什么? 我笑而不...
    開封第一講書人閱讀 63,835評論 1 317
  • 正文 為了忘掉前任,我火速辦了婚禮,結(jié)果婚禮上,老公的妹妹穿的比我還像新娘。我一直安慰自己,他們只是感情好,可當(dāng)我...
    茶點(diǎn)故事閱讀 72,581評論 6 412
  • 文/花漫 我一把揭開白布。 她就那樣靜靜地躺著,像睡著了一般。 火紅的嫁衣襯著肌膚如雪。 梳的紋絲不亂的頭發(fā)上,一...
    開封第一講書人閱讀 55,922評論 1 328
  • 那天,我揣著相機(jī)與錄音,去河邊找鬼。 笑死,一個胖子當(dāng)著我的面吹牛,可吹牛的內(nèi)容都是我干的。 我是一名探鬼主播,決...
    沈念sama閱讀 43,931評論 3 447
  • 文/蒼蘭香墨 我猛地睜開眼,長吁一口氣:“原來是場噩夢啊……” “哼!你這毒婦竟也來了?” 一聲冷哼從身側(cè)響起,我...
    開封第一講書人閱讀 43,096評論 0 290
  • 序言:老撾萬榮一對情侶失蹤,失蹤者是張志新(化名)和其女友劉穎,沒想到半個月后,有當(dāng)?shù)厝嗽跇淞掷锇l(fā)現(xiàn)了一具尸體,經(jīng)...
    沈念sama閱讀 49,639評論 1 336
  • 正文 獨(dú)居荒郊野嶺守林人離奇死亡,尸身上長有42處帶血的膿包…… 初始之章·張勛 以下內(nèi)容為張勛視角 年9月15日...
    茶點(diǎn)故事閱讀 41,374評論 3 358
  • 正文 我和宋清朗相戀三年,在試婚紗的時候發(fā)現(xiàn)自己被綠了。 大學(xué)時的朋友給我發(fā)了我未婚夫和他白月光在一起吃飯的照片。...
    茶點(diǎn)故事閱讀 43,591評論 1 374
  • 序言:一個原本活蹦亂跳的男人離奇死亡,死狀恐怖,靈堂內(nèi)的尸體忽然破棺而出,到底是詐尸還是另有隱情,我是刑警寧澤,帶...
    沈念sama閱讀 39,104評論 5 364
  • 正文 年R本政府宣布,位于F島的核電站,受9級特大地震影響,放射性物質(zhì)發(fā)生泄漏。R本人自食惡果不足惜,卻給世界環(huán)境...
    茶點(diǎn)故事閱讀 44,789評論 3 349
  • 文/蒙蒙 一、第九天 我趴在偏房一處隱蔽的房頂上張望。 院中可真熱鬧,春花似錦、人聲如沸。這莊子的主人今日做“春日...
    開封第一講書人閱讀 35,196評論 0 28
  • 文/蒼蘭香墨 我抬頭看了看天上的太陽。三九已至,卻和暖如春,著一層夾襖步出監(jiān)牢的瞬間,已是汗流浹背。 一陣腳步聲響...
    開封第一講書人閱讀 36,524評論 1 295
  • 我被黑心中介騙來泰國打工, 沒想到剛下飛機(jī)就差點(diǎn)兒被人妖公主榨干…… 1. 我叫王不留,地道東北人。 一個月前我還...
    沈念sama閱讀 52,322評論 3 400
  • 正文 我出身青樓,卻偏偏與公主長得像,于是被迫代替她去往敵國和親。 傳聞我的和親對象是個殘疾皇子,可洞房花燭夜當(dāng)晚...
    茶點(diǎn)故事閱讀 48,554評論 2 379