15、Spark Streaming源碼解讀之No Receivers徹底思考

在前幾期文章里講了帶Receiver的Spark Streaming 應(yīng)用的相關(guān)源碼解讀,但是現(xiàn)在開發(fā)Spark Streaming的應(yīng)用越來越多的采用No Receivers(Direct Approach)的方式,No Receiver的方式的優(yōu)勢(shì): 1. 更強(qiáng)的控制自由度 2. 語義一致性
其實(shí)No Receivers的方式更符合我們讀取數(shù)據(jù),操作數(shù)據(jù)的思路的。因?yàn)镾park 本身是一個(gè)計(jì)算框架,他底層會(huì)有數(shù)據(jù)來源,如果沒有Receivers,我們直接操作數(shù)據(jù)來源,這其實(shí)是一種更自然的方式。 如果要操作數(shù)據(jù)來源,肯定要有一個(gè)封裝器,這個(gè)封裝器一定是RDD類型。 以直接訪問Kafka中的數(shù)據(jù)為例,看一下源碼中直接讀寫Kafka中數(shù)據(jù)的例子代碼:

object DirectKafkaWordCount {

 def main(args: Array[String]) {

 if (args.length < 2) {

 System.err.println(s"""

 |Usage: DirectKafkaWordCount <brokers> <topics>

 | <brokers> is a list of one or more Kafka brokers

 | <topics> is a list of one or more kafka topics to consume from

 |

 """.stripMargin)

 System.exit(1)

 }

 

 StreamingExamples.setStreamingLogLevels()

 

 val Array(brokers, topics) = args

 

 // Create context with 2 second batch interval

 val sparkConf = new SparkConf().setAppName("DirectKafkaWordCount")

 val ssc = new StreamingContext(sparkConf, Seconds(2))

 

 // Create direct kafka stream with brokers and topics

 val topicsSet = topics.split(",").toSet

 val kafkaParams = Map[String, String]("metadata.broker.list" -> brokers)

 val messages = KafkaUtils.createDirectStream[String, String, StringDecoder, StringDecoder](

 ssc, kafkaParams, topicsSet)

 

 // Get the lines, split them into words, count the words and print

 val lines = messages.map(_._2)

 val words = lines.flatMap(_.split(" "))

 val wordCounts = words.map(x => (x, 1L)).reduceByKey(_ + _)

 wordCounts.print()

 

 // Start the computation

 ssc.start()

 ssc.awaitTermination()

 }

}

Spark streaming 會(huì)將數(shù)據(jù)源封裝成一個(gè)RDD,也就是KafkaRDD:


/**

 * A batch-oriented interface for consuming from Kafka.

 * Starting and ending offsets are specified in advance,

 * so that you can control exactly-once semantics.

 * @param kafkaParams Kafka <a >

 * configuration parameters</a>. Requires "metadata.broker.list" or "bootstrap.servers" to be set

 * with Kafka broker(s) specified in host1:port1,host2:port2 form.

 * @param offsetRanges offset ranges that define the Kafka data belonging to this RDD

 * @param messageHandler function for translating each message into the desired type

 */

private[kafka]

class KafkaRDD[

 K: ClassTag,

 V: ClassTag,

 U <: Decoder[_]: ClassTag,

 T <: Decoder[_]: ClassTag,

 R: ClassTag] private[spark] (

 sc: SparkContext,

 kafkaParams: Map[String, String],

 val offsetRanges: Array[OffsetRange],//該RDD的數(shù)據(jù)偏移量

 leaders: Map[TopicAndPartition, (String, Int)],

 messageHandler: MessageAndMetadata[K, V] => R

 ) extends RDD[R](sc, Nil) with Logging with HasOffsetRanges

可以看到KafkaRDD 混入了HasOffsetRanges,它是一個(gè)trait:

trait HasOffsetRanges {

 def offsetRanges: Array[OffsetRange]

}

其中OffsetRange,標(biāo)識(shí)了RDD的數(shù)據(jù)的主題、分區(qū)、開始偏移量和結(jié)束偏移量:


inal class OffsetRange private(

 val topic: String,

 val partition: Int,

 val fromOffset: Long,

 val untilOffset: Long) extends Serializable

回到KafkaRDD,看一下KafkaRDD的getPartitions方法:

 override def getPartitions: Array[Partition] = {

 offsetRanges.zipWithIndex.map { case (o, i) =>

 val (host, port) = leaders(TopicAndPartition(o.topic, o.partition))

 new KafkaRDDPartition(i, o.topic, o.partition, o.fromOffset, o.untilOffset, host, port)

 }.toArray

 }

返回KafkaRDDPartition:

private[kafka]

class KafkaRDDPartition(

 val index: Int,

 val topic: String,

 val partition: Int,

 val fromOffset: Long,

 val untilOffset: Long,

 val host: String,

 val port: Int

) extends Partition {

 /** Number of messages this partition refers to */

 def count(): Long = untilOffset - fromOffset

}

KafkaRDDPartition清晰的描述了數(shù)據(jù)的具體位置,每個(gè)KafkaRDDPartition分區(qū)的數(shù)據(jù)交給KafkaRDD的compute方法計(jì)算:

 override def compute(thePart: Partition, context: TaskContext): Iterator[R] = {

 val part = thePart.asInstanceOf[KafkaRDDPartition]

 assert(part.fromOffset <= part.untilOffset, errBeginAfterEnd(part))

 if (part.fromOffset == part.untilOffset) {

 log.info(s"Beginning offset ${part.fromOffset} is the same as ending offset " +

 s"skipping ${part.topic} ${part.partition}")

 Iterator.empty

 } else {

 new KafkaRDDIterator(part, context)

 }

 }

KafkaRDD的compute方法返回了KafkaIterator對(duì)象:

 private class KafkaRDDIterator(

 part: KafkaRDDPartition,

 context: TaskContext) extends NextIterator[R] {

 

 context.addTaskCompletionListener{ context => closeIfNeeded() }

 

 log.info(s"Computing topic ${part.topic}, partition ${part.partition} " +

 s"offsets ${part.fromOffset} -> ${part.untilOffset}")

 

 val kc = new KafkaCluster(kafkaParams)

 val keyDecoder = classTag[U].runtimeClass.getConstructor(classOf[VerifiableProperties])

 .newInstance(kc.config.props)

 .asInstanceOf[Decoder[K]]

 val valueDecoder = classTag[T].runtimeClass.getConstructor(classOf[VerifiableProperties])

 .newInstance(kc.config.props)

 .asInstanceOf[Decoder[V]]

 val consumer = connectLeader

 var requestOffset = part.fromOffset

 var iter: Iterator[MessageAndOffset] = null

    
//..................

}

KafkaIterator中創(chuàng)建了一個(gè)KakfkaCluster對(duì)象用于與Kafka集群進(jìn)行交互,獲取數(shù)據(jù)。

回到開頭的例子,我們使用 KafkaUtils.createDirectStream 創(chuàng)建了InputDStream:

 val messages = KafkaUtils.createDirectStream[String, String, StringDecoder, StringDecoder](

 ssc, kafkaParams, topicsSet)

看一下createDirectStream源碼:

 def createDirectStream[

 K: ClassTag,

 V: ClassTag,

 KD <: Decoder[K]: ClassTag,

 VD <: Decoder[V]: ClassTag] (

 ssc: StreamingContext,

 kafkaParams: Map[String, String],

 topics: Set[String]

 ): InputDStream[(K, V)] = {

 val messageHandler = (mmd: MessageAndMetadata[K, V]) => (mmd.key, mmd.message)

//創(chuàng)建KakfaCluster對(duì)象

 val kc = new KafkaCluster(kafkaParams)

//更具kc的信息獲取數(shù)據(jù)偏移量

 val fromOffsets = getFromOffsets(kc, kafkaParams, topics)

 new DirectKafkaInputDStream[K, V, KD, VD, (K, V)](

 ssc, kafkaParams, fromOffsets, messageHandler)

 }

首先通過KafkaCluster從Kafka集群獲取信息,創(chuàng)建DirectKafkaInputDStream對(duì)象返回

DirectKafkaInputDStream的compute方法源碼:

 override def compute(validTime: Time): Option[KafkaRDD[K, V, U, T, R]] = {

    
//計(jì)算最近的數(shù)據(jù)終止偏移量

 val untilOffsets = clamp(latestLeaderOffsets(maxRetries))

    
//利用數(shù)據(jù)的偏移量創(chuàng)建KafkaRDD

 val rdd = KafkaRDD[K, V, U, T, R](

 context.sparkContext, kafkaParams, currentOffsets, untilOffsets, messageHandler)

 

 // Report the record number and metadata of this batch interval to InputInfoTracker.

 val offsetRanges = currentOffsets.map { case (tp, fo) =>

 val uo = untilOffsets(tp)

 OffsetRange(tp.topic, tp.partition, fo, uo.offset)

 }

 val description = offsetRanges.filter { offsetRange =>

 // Don't display empty ranges.

 offsetRange.fromOffset != offsetRange.untilOffset

 }.map { offsetRange =>

 s"topic: ${offsetRange.topic}\tpartition: ${offsetRange.partition}\t" +

 s"offsets: ${offsetRange.fromOffset} to ${offsetRange.untilOffset}"

 }.mkString("\n")

 // Copy offsetRanges to immutable.List to prevent from being modified by the user

 val metadata = Map(

 "offsets" -> offsetRanges.toList,

 StreamInputInfo.METADATA_KEY_DESCRIPTION -> description)

 val inputInfo = StreamInputInfo(id, rdd.count, metadata)

 ssc.scheduler.inputInfoTracker.reportInfo(validTime, inputInfo)

 

 currentOffsets = untilOffsets.map(kv => kv._1 -> kv._2.offset)

 Some(rdd)

 }

可以看到DirectKafkaInputDStream的compute方法中,首先從Kafka集群獲取數(shù)據(jù)的偏移量,然后利用獲取偏移量創(chuàng)建RDD,這個(gè)Receiver的RDD創(chuàng)建方式不同。


總結(jié):
而且KafkaRDDPartition只能屬于一個(gè)topic,不能讓partition跨多個(gè)topic,直接消費(fèi)一個(gè)kafkatopic,topic不斷進(jìn)來、數(shù)據(jù)不斷偏移,Offset代表kafka數(shù)據(jù)偏移量指針。
數(shù)據(jù)不斷流進(jìn)kafka,batchDuration假如每十秒都會(huì)從配置的topic中消費(fèi)數(shù)據(jù),每次會(huì)消費(fèi)一部分直到消費(fèi)完,下一個(gè)batchDuration會(huì)再流進(jìn)來的數(shù)據(jù),又可以從頭開始讀或上一個(gè)數(shù)據(jù)的基礎(chǔ)上讀取數(shù)據(jù)。
思考直接抓取kafka數(shù)據(jù)和receiver讀取數(shù)據(jù):
好處一:
直接抓取fakfa數(shù)據(jù)的好處,沒有緩存,不會(huì)出現(xiàn)內(nèi)存溢出等之類的問題。但是如果kafka Receiver的方式讀取會(huì)存在緩存的問題,需要設(shè)置讀取的頻率和block interval等信息。
好處二:
采用receiver方式的話receiver默認(rèn)情況需要和worker的executor綁定,不方便做分布式,當(dāng)然可以配置成分布式,采用direct方式默認(rèn)情況下數(shù)據(jù)會(huì)存在多個(gè)worker上的executor。Kafkardd數(shù)據(jù)默認(rèn)都是分布在多個(gè)executor上的,天然數(shù)據(jù)是分布式的存在多個(gè)executor,而receiver就不方便計(jì)算。
好處三:
數(shù)據(jù)消費(fèi)的問題,在實(shí)際操作的時(shí)候采用receiver的方式有個(gè)弊端,消費(fèi)數(shù)據(jù)來不及處理即操作數(shù)據(jù)有deLay多才時(shí),Spark Streaming程序有可能奔潰。但如果是direct方式訪問kafka數(shù)據(jù)不會(huì)存在此類情況。因?yàn)閐iect方式直接讀取kafka數(shù)據(jù),如果delay就不進(jìn)行下一個(gè)batchDuration讀取。
好處四:
完全的語義一致性,不會(huì)重復(fù)消費(fèi)數(shù)據(jù),而且保證數(shù)據(jù)一定被消費(fèi),跟kafka進(jìn)行交互,只有數(shù)據(jù)真正執(zhí)行成功之后才會(huì)記錄下來。
生產(chǎn)環(huán)境下強(qiáng)烈建議采用direct方式讀取kafka數(shù)據(jù)。

最后編輯于
?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請(qǐng)聯(lián)系作者
平臺(tái)聲明:文章內(nèi)容(如有圖片或視頻亦包括在內(nèi))由作者上傳并發(fā)布,文章內(nèi)容僅代表作者本人觀點(diǎn),簡(jiǎn)書系信息發(fā)布平臺(tái),僅提供信息存儲(chǔ)服務(wù)。
  • 序言:七十年代末,一起剝皮案震驚了整個(gè)濱河市,隨后出現(xiàn)的幾起案子,更是在濱河造成了極大的恐慌,老刑警劉巖,帶你破解...
    沈念sama閱讀 230,563評(píng)論 6 544
  • 序言:濱河連續(xù)發(fā)生了三起死亡事件,死亡現(xiàn)場(chǎng)離奇詭異,居然都是意外死亡,警方通過查閱死者的電腦和手機(jī),發(fā)現(xiàn)死者居然都...
    沈念sama閱讀 99,694評(píng)論 3 429
  • 文/潘曉璐 我一進(jìn)店門,熙熙樓的掌柜王于貴愁眉苦臉地迎上來,“玉大人,你說我怎么就攤上這事?!?“怎么了?”我有些...
    開封第一講書人閱讀 178,672評(píng)論 0 383
  • 文/不壞的土叔 我叫張陵,是天一觀的道長(zhǎng)。 經(jīng)常有香客問我,道長(zhǎng),這世上最難降的妖魔是什么? 我笑而不...
    開封第一講書人閱讀 63,965評(píng)論 1 318
  • 正文 為了忘掉前任,我火速辦了婚禮,結(jié)果婚禮上,老公的妹妹穿的比我還像新娘。我一直安慰自己,他們只是感情好,可當(dāng)我...
    茶點(diǎn)故事閱讀 72,690評(píng)論 6 413
  • 文/花漫 我一把揭開白布。 她就那樣靜靜地躺著,像睡著了一般。 火紅的嫁衣襯著肌膚如雪。 梳的紋絲不亂的頭發(fā)上,一...
    開封第一講書人閱讀 56,019評(píng)論 1 329
  • 那天,我揣著相機(jī)與錄音,去河邊找鬼。 笑死,一個(gè)胖子當(dāng)著我的面吹牛,可吹牛的內(nèi)容都是我干的。 我是一名探鬼主播,決...
    沈念sama閱讀 44,013評(píng)論 3 449
  • 文/蒼蘭香墨 我猛地睜開眼,長(zhǎng)吁一口氣:“原來是場(chǎng)噩夢(mèng)啊……” “哼!你這毒婦竟也來了?” 一聲冷哼從身側(cè)響起,我...
    開封第一講書人閱讀 43,188評(píng)論 0 290
  • 序言:老撾萬榮一對(duì)情侶失蹤,失蹤者是張志新(化名)和其女友劉穎,沒想到半個(gè)月后,有當(dāng)?shù)厝嗽跇淞掷锇l(fā)現(xiàn)了一具尸體,經(jīng)...
    沈念sama閱讀 49,718評(píng)論 1 336
  • 正文 獨(dú)居荒郊野嶺守林人離奇死亡,尸身上長(zhǎng)有42處帶血的膿包…… 初始之章·張勛 以下內(nèi)容為張勛視角 年9月15日...
    茶點(diǎn)故事閱讀 41,438評(píng)論 3 360
  • 正文 我和宋清朗相戀三年,在試婚紗的時(shí)候發(fā)現(xiàn)自己被綠了。 大學(xué)時(shí)的朋友給我發(fā)了我未婚夫和他白月光在一起吃飯的照片。...
    茶點(diǎn)故事閱讀 43,667評(píng)論 1 374
  • 序言:一個(gè)原本活蹦亂跳的男人離奇死亡,死狀恐怖,靈堂內(nèi)的尸體忽然破棺而出,到底是詐尸還是另有隱情,我是刑警寧澤,帶...
    沈念sama閱讀 39,149評(píng)論 5 365
  • 正文 年R本政府宣布,位于F島的核電站,受9級(jí)特大地震影響,放射性物質(zhì)發(fā)生泄漏。R本人自食惡果不足惜,卻給世界環(huán)境...
    茶點(diǎn)故事閱讀 44,845評(píng)論 3 351
  • 文/蒙蒙 一、第九天 我趴在偏房一處隱蔽的房頂上張望。 院中可真熱鬧,春花似錦、人聲如沸。這莊子的主人今日做“春日...
    開封第一講書人閱讀 35,252評(píng)論 0 28
  • 文/蒼蘭香墨 我抬頭看了看天上的太陽。三九已至,卻和暖如春,著一層夾襖步出監(jiān)牢的瞬間,已是汗流浹背。 一陣腳步聲響...
    開封第一講書人閱讀 36,590評(píng)論 1 295
  • 我被黑心中介騙來泰國(guó)打工, 沒想到剛下飛機(jī)就差點(diǎn)兒被人妖公主榨干…… 1. 我叫王不留,地道東北人。 一個(gè)月前我還...
    沈念sama閱讀 52,384評(píng)論 3 400
  • 正文 我出身青樓,卻偏偏與公主長(zhǎng)得像,于是被迫代替她去往敵國(guó)和親。 傳聞我的和親對(duì)象是個(gè)殘疾皇子,可洞房花燭夜當(dāng)晚...
    茶點(diǎn)故事閱讀 48,635評(píng)論 2 380

推薦閱讀更多精彩內(nèi)容