《日子》 ApacheBeam 初試WordCount

對機器學習會有很大的幫助,模型簡單,易用

Apache Beam 的兩大特點

1、將數據的批處理(batch)和流處理(stream)編程范式進行了統一;

2、能夠在任何的執行引擎上運行。

它不僅為模型設計、更為執行一系列數據導向的工作流提供了統一的模型。這些工作流包括數據處理、吸收和整合。

新建maven項目

Paste_Image.png

pom.xml加入依賴

<code>
<dependencies>
<dependency>
<groupId>org.apache.beam</groupId>
<artifactId>beam-sdks-java-core</artifactId>
<version>0.4.0</version>
</dependency>
<dependency>
<groupId>org.apache.beam</groupId>
<artifactId>beam-runners-direct-java</artifactId>
<version>0.4.0</version>
</dependency>
</dependencies>
</code>

測試類WordCount.java

<code>
package org.tom;
import org.apache.beam.sdk.Pipeline;
import org.apache.beam.sdk.io.TextIO;
import org.apache.beam.sdk.options.PipelineOptions;
import org.apache.beam.sdk.options.PipelineOptionsFactory;
import org.apache.beam.sdk.transforms.*;
import org.apache.beam.sdk.values.KV;
import org.apache.beam.sdk.values.PCollection;
import java.io.Serializable;
public class WordCount implements Serializable{
private transient Pipeline pipeline = null;
public WordCount() {
PipelineOptions options = PipelineOptionsFactory.create();
options.setJobName("wordcount");
pipeline = Pipeline.create(options);
}
public void transform() {
PCollection<String> collection = pipeline.apply(TextIO.Read.from("file:///d:/tom/beam-test/src/main/resources/word.txt"));
PCollection<String> extractWords = collection.apply("ExtractWords", ParDo.of(new DoFn<String, String>() {
@ProcessElement
public void processElement(ProcessContext c) {
String[] split = c.element().split(" ");
for (String word : split) {
if (!word.isEmpty()) {
c.output(word);
}
}
}
}));
PCollection<KV<String, Long>> pCollection = extractWords.apply(Count.<String>perElement());
PCollection<String> formatResults = pCollection.apply("FormatResults", MapElements.via(new SimpleFunction<KV<String, Long>, String>() {
public String apply(KV<String, Long> input) {
return input.getKey() + ": " + input.getValue();
}
}));
formatResults.apply(TextIO.Write.to("D:\tom\beam-test\src\main\resources\wordcounts"));
}
public void run(){
pipeline.run().waitUntilFinish();
}
public static void main(String[] args) {
WordCount wordCount = new WordCount();
wordCount.transform();
wordCount.run();
}
}
</code>

統計文本\resources\word.txt

<code>
tom
hello
tom
luo
hello
tom
tom
word
word
word
tom
</code>

運行結果

Paste_Image.png

word: 3
luo: 1
tom: 5
hello: 2
結果生成了兩個文件,是由于hash分區了

最后編輯于
?著作權歸作者所有,轉載或內容合作請聯系作者
平臺聲明:文章內容(如有圖片或視頻亦包括在內)由作者上傳并發布,文章內容僅代表作者本人觀點,簡書系信息發布平臺,僅提供信息存儲服務。

推薦閱讀更多精彩內容

  • Spring Cloud為開發人員提供了快速構建分布式系統中一些常見模式的工具(例如配置管理,服務發現,斷路器,智...
    卡卡羅2017閱讀 134,973評論 19 139
  • 一:問題現象聯機運行,在控制臺打印的信息是: 解決辦法 是不是so easy 幕后原因IOS10 之后蘋果對推送提...
    樂意先生閱讀 135評論 0 0
  • ——寫給許嵩新歌《今年勇》 圖片發自簡書App(也寫給。我的2016。)暮年時分我已老得 記不起你的...
    易長安_閱讀 328評論 0 1
  • 風雨瀟瀟,林間慢跑開啟了這一天。 出門的時候只是飄些小雨點,我想,這些毛毛雨頂多潤潤頭發,林間枝葉厚密,估計都淋不...
    半山桃源閱讀 382評論 2 1