Spark Streaming整合Kafka

前幾章介紹了KafkaSpark Streaming入門Spark Streaming進階。在這一章一起學習Spark Streaming和Kafka的整合。

概述

kafka作為一個實時的分布式消息隊列,實時的生產和消費消息,這里我們可以利用SparkStreaming實時計算框架實時地讀取kafka中的數據然后進行計算。在spark1.3版本后,kafkaUtils里面提供了兩個創建dstream的方法,一種為KafkaUtils.createDstream(需要receiver接收),另一種為KafkaUtils.createDirectStream。其中推薦使用KafkaUtils.createDirectStream的方式相比基于Receiver方式有幾個優點:

  • 簡化并行
    不需要創建多個kafka輸入流,然后union它們,sparkStreaming將會創建和kafka分區一種的rdd的分區數,而且會從kafka中并行讀取數據,spark中RDD的分區數和kafka中的分區數據是一一對應的關系。
  • 高效
    第一種實現數據的零丟失是將數據預先保存在WAL中,會復制一遍數據,會導致數據被拷貝兩次,第一次是被kafka復制,另一次是寫到WAL中。而沒有receiver的這種方式消除了這個問題。
  • 恰好一次語義(Exactly-once-semantics)
    Receiver讀取kafka數據是通過kafka高層次api把偏移量寫入zookeeper中,雖然這種方法可以通過數據保存在WAL中保證數據不丟失,但是可能會因為sparkStreaming和ZK中保存的偏移量不一致而導致數據被消費了多次。EOS通過實現kafka低層次api,偏移量僅僅被ssc保存在checkpoint中,消除了zk和ssc偏移量不一致的問題。缺點是無法使用基于zookeeper的kafka監控工具。
  • 版本限制
    除了以上的原因,由于在學習Kafka時安裝的版本是2.2.0,查詢官方文檔Spark Streaming整合Kafka在0.10已經不支持Receiver的方式。
    image.png

綜上我們只演示KafkaUtils.createDirectStream的方式進行整合。

整合流程

  • 啟動zookeeper集群
zkServer.sh start
  • 啟動kafka集群
    在啟動之前在server.properties中根據虛擬機地址配置listeners的地址


    image.png

    因為不配置在啟動整合代碼時報Broker may not be available的錯誤,通過百度后指定listeners的地址即可。
    啟動kafka

kafka-server-start.sh -daemon $KAFKA_HOME/config/server.properties
  • 創建topic
kafka-topics.sh --create --zookeeper localhost:2181 --replication-factor 1 --partitions 3 --topic kafka_spark
//查看創建的topic,有記錄說明創建成功
kafka-topics.sh --list --zookeeper localhost:2181
  • 啟動生成者,向topic中生產數據
./kafka-console-producer.sh --broker-list localhost:9092 --topic kafka_spark
  • 編寫SparkStreaming應用程序
  • pom依賴
<dependency>
            <groupId>org.apache.spark</groupId>
            <artifactId>spark-streaming_2.12</artifactId>
            <version>2.4.2</version>
</dependency>
<dependency>
            <groupId>org.apache.spark</groupId>
            <artifactId>spark-streaming-kafka-0-10_2.12</artifactId>
            <version>2.4.3</version>
</dependency>

這里spark-streaming的版本我選擇的是spark-streaming_2.12:2.42版本,這是由于我本地用的Scala的環境是2.12.8,spark-streaming這個版本中用到的Scala版本就是2.12.8。之前我使用的是spark-streaming_2.12:2.11.8版本,項目啟動時報環境不匹配的問題。所以在本地演示時需要選擇合適的版本。

  • Scala代碼
import org.apache.spark.SparkConf
import org.apache.spark.streaming.kafka010.{ConsumerStrategies, KafkaUtils, LocationStrategies}
import org.apache.spark.streaming.{Seconds, StreamingContext}

import scala.collection.mutable

/**
  * Spark Streaming整合Kafka
  *
  * @author zhiying.dong@hand-china.com 2019/05/24 16:54
  */
object KafkaDirectWordCount{
  def main(args: Array[String]): Unit = {

    val conf = new SparkConf()
      .setAppName("DirectKafka")
      .setMaster("local[2]")

    val ssc = new StreamingContext(conf, Seconds(2))

    val topicsSet = Array("kafka_spark")
    val kafkaParams = mutable.HashMap[String, String]()
    //必須添加以下參數,否則會報錯
    kafkaParams.put("bootstrap.servers", "192.168.30.131:9092")
    kafkaParams.put("group.id", "group1")
    kafkaParams.put("key.deserializer", "org.apache.kafka.common.serialization.StringDeserializer")
    kafkaParams.put("value.deserializer", "org.apache.kafka.common.serialization.StringDeserializer")
    val messages = KafkaUtils.createDirectStream[String, String](
      ssc,
      LocationStrategies.PreferConsistent,
      ConsumerStrategies.Subscribe[String, String](topicsSet, kafkaParams
      )
    )

    // Get the lines, split them into words, count the words and print
    val lines = messages.map(_.value)
    val words = lines.flatMap(_.split(" "))
    val wordCounts = words.map(x => (x, 1L)).reduceByKey(_ + _)
    wordCounts.print()

    // Start the computation
    ssc.start()
    ssc.awaitTermination()
  }
}
  • 本地測試
    在生產者中輸入統計字符
image.png

觀察控制臺發現可以統計字符出現的此時,說明Spark Streaming可以消費到Kafka中生產的消息


image.png
  • 服務器測試
    和之前一樣,打包上傳到服務器,在通過以下命令啟動
./spark-submit --packages org.apache.spark:spark-streaming-kafka-0-10_2.12:2.4.3 --class com.imooc.spark.Test ~/lib/sparktrain-1.0.jar
最后編輯于
?著作權歸作者所有,轉載或內容合作請聯系作者
平臺聲明:文章內容(如有圖片或視頻亦包括在內)由作者上傳并發布,文章內容僅代表作者本人觀點,簡書系信息發布平臺,僅提供信息存儲服務。