第3課:通過案例對 spark streaming 透徹理解三板斧之三:spark streaming運行機制與架構(gòu)

本期內(nèi)容:
  1. Spark Streaming Job架構(gòu)與運行機制
  2. Spark Streaming 容錯架構(gòu)與運行機制

  事實上時間是不存在的,是由人的感官系統(tǒng)感覺時間的存在而已,是一種虛幻的存在,任何時候宇宙中的事情一直在發(fā)生著的。
  Spark Streaming好比時間,一直遵循其運行機制和架構(gòu)在不停的在運行,無論你寫多或者少的應(yīng)用程序都跳不出這個范圍。

import org.apache.spark.SparkConf
import org.apache.spark.streaming.{Seconds, StreamingContext}

/**
  * 使用Scala開發(fā)集群運行的Spark 在線黑名單過濾程序
  * 背景描述:在廣告點擊計費系統(tǒng)中,我們在線過濾掉黑名單的點擊,進而保護廣告商的利益,只進行有效的廣告點擊計費
  *     或者在防刷評分(或者流量)系統(tǒng),過濾掉無效的投票或者評分或者流量;
  * 實現(xiàn)技術(shù):使用transform Api直接基于RDD編程,進行join操作
 *
  * 新浪微博:http://weibo.com/ilovepains/
  */
object OnlineForeachRDD2DB {
  def main(args: Array[String]){
    /**
      * 創(chuàng)建Spark的配置對象SparkConf,設(shè)置Spark程序的運行時的配置信息,
      * 例如說通過setMaster來設(shè)置程序要鏈接的Spark集群的Master的URL,如果設(shè)置
      * 為local,則代表Spark程序在本地運行,特別適合于機器配置條件非常差(例如
      * 只有1G的內(nèi)存)的初學(xué)者       *
      */
    val conf = new SparkConf() //創(chuàng)建SparkConf對象
    conf.setAppName("OnlineForeachRDD") //設(shè)置應(yīng)用程序的名稱,在程序運行的監(jiān)控界面可以看到名稱
    //conf.setMaster("spark://Master:7077") //此時,程序在Spark集群
    conf.setMaster("local[6]")
    //設(shè)置batchDuration時間間隔來控制Job生成的頻率并且創(chuàng)建Spark Streaming執(zhí)行的入口
    val ssc = new StreamingContext(conf, Seconds(5))
    val lines = ssc.socketTextStream("Master", 9999)
    val words = lines.flatMap(_.split(" "))
    val wordCounts = words.map(x => (x, 1)).reduceByKey(_ + _)
    wordCounts.foreachRDD { rdd =>
      rdd.foreachPartition { partitionOfRecords => {
        val connection = ConnectionPool.getConnection()
        partitionOfRecords.foreach(record => {
          val sql = "insert into streaming_itemcount(item,count) values('" + record._1 + "'," + record._2 + ")"
          val stmt = connection.createStatement();
          stmt.executeUpdate(sql);

        })
        ConnectionPool.returnConnection(connection)  // return to the pool for future reuse
      }
      }
    }
    ssc.start()
    ssc.awaitTermination()
  }
}

一. 通過案例透視Job執(zhí)行過程的Spark Streaming機制解析,案例代碼如下:
  通過運行以上代碼對Job運行機制進行解析:
    1. 首先通過StreamingContext調(diào)用start方法,其內(nèi)部再啟動JobScheduler的Start方法,進行消息循環(huán);
    2. 在JobScheduler的start內(nèi)部會構(gòu)造JobGenerator和ReceiverTacker;
    3. 然后調(diào)用JobGenerator和ReceiverTacker的start方法執(zhí)行以下操作:
    01. JobGenerator啟動后會不斷的根據(jù)batchDuration生成一個個的Job ;
    02. ReceiverTracker啟動后首先在Spark Cluster中啟動Receiver(其實是在Executor中先啟動ReceiverSupervisor);
    4. 在Receiver收到數(shù)據(jù)后會通過ReceiverSupervisor存儲到Executor ;
    5. 同時把數(shù)據(jù)的Metadata信息發(fā)送給Driver中的ReceiverTracker,在ReceiverTracker內(nèi)部會通過ReceivedBlockTracker來管理接受到的元數(shù)據(jù)信息;
    6. 每個BatchInterval會產(chǎn)生一個具體的Job,其實這里的Job不是Spark Core中所指的Job,它只是基于DStreamGraph而生成的RDD的DAG而已;
    7. 要想運行Job需要提交給JobScheduler,在JobScheduler中通過線程池的方式找到一個單獨的線程來提交Job到集群運行,在線程中基于RDD的Action觸發(fā)作業(yè)的運行;
    8. 由于流處理過程中作業(yè)不斷生成,為了提升效率,可以使用線程池。同時有可能設(shè)置了Job的FAIR公平調(diào)度的方式,也需要多線程的支持;
  
** 二. 從容錯架構(gòu)的角度透視Spark Streaming 運行機制:**
  Spark Streaming是基于DStream的容錯機制,DStream是隨著時間流逝不斷的產(chǎn)生RDD,也就是說DStream是在固定的時間上操作RDD,容錯會劃分到每一次所形成的RDD。
  Spark Streaming的容錯包括 Executor 與 Driver兩方面的容錯機制 :
  1. Executor 容錯:
    01. 數(shù)據(jù)接收:分布式方式、wal方式,先寫日志再保存數(shù)據(jù)到Executor
    02. 任務(wù)執(zhí)行安全性 Job基于RDD容錯 :
  2. Driver容錯 : checkpoint 。
  基于RDD的特性,它的容錯機制主要就是兩種:
    01. 基于checkpoint;
      在stage之間,是寬依賴,產(chǎn)生了shuffle操作,lineage鏈條過于復(fù)雜和冗長,這時候就需要做checkpoint。
    02. 基于lineage(血統(tǒng))的容錯:
      一般而言,spark選擇血統(tǒng)容錯,因為對于大規(guī)模的數(shù)據(jù)集,做檢查點的成本很高。
      考慮到RDD的依賴關(guān)系,每個stage內(nèi)部都是窄依賴,此時一般基于lineage容錯,方便高效。
  總結(jié): stage內(nèi)部做lineage,stage之間做checkpoint。

備注:
資料來源于:DT_大數(shù)據(jù)夢工廠
更多私密內(nèi)容,請關(guān)注微信公眾號:DT_Spark
新浪微博:http://www.weibo.com/ilovepains
如果您對大數(shù)據(jù)Spark感興趣,可以免費聽由王家林老師每天晚上20:00開設(shè)的Spark永久免費公開課,地址YY房間號:68917580

最后編輯于
?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請聯(lián)系作者
平臺聲明:文章內(nèi)容(如有圖片或視頻亦包括在內(nèi))由作者上傳并發(fā)布,文章內(nèi)容僅代表作者本人觀點,簡書系信息發(fā)布平臺,僅提供信息存儲服務(wù)。
  • 序言:七十年代末,一起剝皮案震驚了整個濱河市,隨后出現(xiàn)的幾起案子,更是在濱河造成了極大的恐慌,老刑警劉巖,帶你破解...
    沈念sama閱讀 228,923評論 6 535
  • 序言:濱河連續(xù)發(fā)生了三起死亡事件,死亡現(xiàn)場離奇詭異,居然都是意外死亡,警方通過查閱死者的電腦和手機,發(fā)現(xiàn)死者居然都...
    沈念sama閱讀 98,740評論 3 420
  • 文/潘曉璐 我一進店門,熙熙樓的掌柜王于貴愁眉苦臉地迎上來,“玉大人,你說我怎么就攤上這事。” “怎么了?”我有些...
    開封第一講書人閱讀 176,856評論 0 380
  • 文/不壞的土叔 我叫張陵,是天一觀的道長。 經(jīng)常有香客問我,道長,這世上最難降的妖魔是什么? 我笑而不...
    開封第一講書人閱讀 63,175評論 1 315
  • 正文 為了忘掉前任,我火速辦了婚禮,結(jié)果婚禮上,老公的妹妹穿的比我還像新娘。我一直安慰自己,他們只是感情好,可當(dāng)我...
    茶點故事閱讀 71,931評論 6 410
  • 文/花漫 我一把揭開白布。 她就那樣靜靜地躺著,像睡著了一般。 火紅的嫁衣襯著肌膚如雪。 梳的紋絲不亂的頭發(fā)上,一...
    開封第一講書人閱讀 55,321評論 1 324
  • 那天,我揣著相機與錄音,去河邊找鬼。 笑死,一個胖子當(dāng)著我的面吹牛,可吹牛的內(nèi)容都是我干的。 我是一名探鬼主播,決...
    沈念sama閱讀 43,383評論 3 443
  • 文/蒼蘭香墨 我猛地睜開眼,長吁一口氣:“原來是場噩夢啊……” “哼!你這毒婦竟也來了?” 一聲冷哼從身側(cè)響起,我...
    開封第一講書人閱讀 42,533評論 0 289
  • 序言:老撾萬榮一對情侶失蹤,失蹤者是張志新(化名)和其女友劉穎,沒想到半個月后,有當(dāng)?shù)厝嗽跇淞掷锇l(fā)現(xiàn)了一具尸體,經(jīng)...
    沈念sama閱讀 49,082評論 1 335
  • 正文 獨居荒郊野嶺守林人離奇死亡,尸身上長有42處帶血的膿包…… 初始之章·張勛 以下內(nèi)容為張勛視角 年9月15日...
    茶點故事閱讀 40,891評論 3 356
  • 正文 我和宋清朗相戀三年,在試婚紗的時候發(fā)現(xiàn)自己被綠了。 大學(xué)時的朋友給我發(fā)了我未婚夫和他白月光在一起吃飯的照片。...
    茶點故事閱讀 43,067評論 1 371
  • 序言:一個原本活蹦亂跳的男人離奇死亡,死狀恐怖,靈堂內(nèi)的尸體忽然破棺而出,到底是詐尸還是另有隱情,我是刑警寧澤,帶...
    沈念sama閱讀 38,618評論 5 362
  • 正文 年R本政府宣布,位于F島的核電站,受9級特大地震影響,放射性物質(zhì)發(fā)生泄漏。R本人自食惡果不足惜,卻給世界環(huán)境...
    茶點故事閱讀 44,319評論 3 347
  • 文/蒙蒙 一、第九天 我趴在偏房一處隱蔽的房頂上張望。 院中可真熱鬧,春花似錦、人聲如沸。這莊子的主人今日做“春日...
    開封第一講書人閱讀 34,732評論 0 27
  • 文/蒼蘭香墨 我抬頭看了看天上的太陽。三九已至,卻和暖如春,著一層夾襖步出監(jiān)牢的瞬間,已是汗流浹背。 一陣腳步聲響...
    開封第一講書人閱讀 35,987評論 1 289
  • 我被黑心中介騙來泰國打工, 沒想到剛下飛機就差點兒被人妖公主榨干…… 1. 我叫王不留,地道東北人。 一個月前我還...
    沈念sama閱讀 51,794評論 3 394
  • 正文 我出身青樓,卻偏偏與公主長得像,于是被迫代替她去往敵國和親。 傳聞我的和親對象是個殘疾皇子,可洞房花燭夜當(dāng)晚...
    茶點故事閱讀 48,076評論 2 375

推薦閱讀更多精彩內(nèi)容