第3課:通過案例對 spark streaming 透徹理解三板斧之三：spark streaming運行機制與架構(gòu)

本期內(nèi)容：
　　1. Spark Streaming Job架構(gòu)與運行機制
　　2. Spark Streaming 容錯架構(gòu)與運行機制

　　事實上時間是不存在的，是由人的感官系統(tǒng)感覺時間的存在而已，是一種虛幻的存在，任何時候宇宙中的事情一直在發(fā)生著的。
　　Spark Streaming好比時間，一直遵循其運行機制和架構(gòu)在不停的在運行，無論你寫多或者少的應(yīng)用程序都跳不出這個范圍。

import org.apache.spark.SparkConf
import org.apache.spark.streaming.{Seconds, StreamingContext}

/**
  * 使用Scala開發(fā)集群運行的Spark 在線黑名單過濾程序
  * 背景描述：在廣告點擊計費系統(tǒng)中，我們在線過濾掉黑名單的點擊，進而保護廣告商的利益，只進行有效的廣告點擊計費
  *     或者在防刷評分（或者流量）系統(tǒng)，過濾掉無效的投票或者評分或者流量；
  * 實現(xiàn)技術(shù)：使用transform Api直接基于RDD編程，進行join操作
　*
  * 新浪微博：http://weibo.com/ilovepains/
  */
object OnlineForeachRDD2DB {
  def main(args: Array[String]){
    /**
      * 創(chuàng)建Spark的配置對象SparkConf，設(shè)置Spark程序的運行時的配置信息，
      * 例如說通過setMaster來設(shè)置程序要鏈接的Spark集群的Master的URL,如果設(shè)置
      * 為local，則代表Spark程序在本地運行，特別適合于機器配置條件非常差（例如
      * 只有1G的內(nèi)存）的初學(xué)者       *
      */
    val conf = new SparkConf() //創(chuàng)建SparkConf對象
    conf.setAppName("OnlineForeachRDD") //設(shè)置應(yīng)用程序的名稱，在程序運行的監(jiān)控界面可以看到名稱
    //conf.setMaster("spark://Master:7077") //此時，程序在Spark集群
    conf.setMaster("local[6]")
    //設(shè)置batchDuration時間間隔來控制Job生成的頻率并且創(chuàng)建Spark Streaming執(zhí)行的入口
    val ssc = new StreamingContext(conf, Seconds(5))
    val lines = ssc.socketTextStream("Master", 9999)
    val words = lines.flatMap(_.split(" "))
    val wordCounts = words.map(x => (x, 1)).reduceByKey(_ + _)
    wordCounts.foreachRDD { rdd =>
      rdd.foreachPartition { partitionOfRecords => {
        val connection = ConnectionPool.getConnection()
        partitionOfRecords.foreach(record => {
          val sql = "insert into streaming_itemcount(item,count) values('" + record._1 + "'," + record._2 + ")"
          val stmt = connection.createStatement();
          stmt.executeUpdate(sql);

        })
        ConnectionPool.returnConnection(connection)  // return to the pool for future reuse
      }
      }
    }
    ssc.start()
    ssc.awaitTermination()
  }
}

一. 通過案例透視Job執(zhí)行過程的Spark Streaming機制解析，案例代碼如下：
　　通過運行以上代碼對Job運行機制進行解析：
　　　　1. 首先通過StreamingContext調(diào)用start方法，其內(nèi)部再啟動JobScheduler的Start方法，進行消息循環(huán)；
　　　　2. 在JobScheduler的start內(nèi)部會構(gòu)造JobGenerator和ReceiverTacker；
　　　　3. 然后調(diào)用JobGenerator和ReceiverTacker的start方法執(zhí)行以下操作：
　　　　01. JobGenerator啟動后會不斷的根據(jù)batchDuration生成一個個的Job ；
　　　　02. ReceiverTracker啟動后首先在Spark Cluster中啟動Receiver（其實是在Executor中先啟動ReceiverSupervisor）；
　　　　4. 在Receiver收到數(shù)據(jù)后會通過ReceiverSupervisor存儲到Executor ；
　　　　5. 同時把數(shù)據(jù)的Metadata信息發(fā)送給Driver中的ReceiverTracker，在ReceiverTracker內(nèi)部會通過ReceivedBlockTracker來管理接受到的元數(shù)據(jù)信息；
　　　　6. 每個BatchInterval會產(chǎn)生一個具體的Job，其實這里的Job不是Spark Core中所指的Job，它只是基于DStreamGraph而生成的RDD的DAG而已；
　　　　7. 要想運行Job需要提交給JobScheduler，在JobScheduler中通過線程池的方式找到一個單獨的線程來提交Job到集群運行，在線程中基于RDD的Action觸發(fā)作業(yè)的運行；
　　　　8. 由于流處理過程中作業(yè)不斷生成，為了提升效率，可以使用線程池。同時有可能設(shè)置了Job的FAIR公平調(diào)度的方式，也需要多線程的支持；
　　
** 二. 從容錯架構(gòu)的角度透視Spark Streaming 運行機制：**
　　Spark Streaming是基于DStream的容錯機制，DStream是隨著時間流逝不斷的產(chǎn)生RDD，也就是說DStream是在固定的時間上操作RDD，容錯會劃分到每一次所形成的RDD。
　　Spark Streaming的容錯包括 Executor 與 Driver兩方面的容錯機制：
　　1. Executor 容錯：
　　　　01. 數(shù)據(jù)接收：分布式方式、wal方式，先寫日志再保存數(shù)據(jù)到Executor
　　　　02. 任務(wù)執(zhí)行安全性 Job基于RDD容錯：
　　2. Driver容錯： checkpoint 。
　　基于RDD的特性，它的容錯機制主要就是兩種：
　　　　01. 基于checkpoint；
　　　　　　在stage之間，是寬依賴，產(chǎn)生了shuffle操作，lineage鏈條過于復(fù)雜和冗長，這時候就需要做checkpoint。
　　　　02. 基于lineage（血統(tǒng)）的容錯：
　　　　　　一般而言，spark選擇血統(tǒng)容錯，因為對于大規(guī)模的數(shù)據(jù)集，做檢查點的成本很高。
　　　　　　考慮到RDD的依賴關(guān)系，每個stage內(nèi)部都是窄依賴，此時一般基于lineage容錯，方便高效。
　　總結(jié)： stage內(nèi)部做lineage，stage之間做checkpoint。

備注：
資料來源于：DT_大數(shù)據(jù)夢工廠
更多私密內(nèi)容，請關(guān)注微信公眾號：DT_Spark
新浪微博：http://www.weibo.com/ilovepains
如果您對大數(shù)據(jù)Spark感興趣，可以免費聽由王家林老師每天晚上20：00開設(shè)的Spark永久免費公開課，地址YY房間號：68917580

最后編輯于：2017.12.03 05:14:11

?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請聯(lián)系作者
平臺聲明：文章內(nèi)容（如有圖片或視頻亦包括在內(nèi)）由作者上傳并發(fā)布，文章內(nèi)容僅代表作者本人觀點，簡書系信息發(fā)布平臺，僅提供信息存儲服務(wù)。

人面猴
序言：七十年代末，一起剝皮案震驚了整個濱河市，隨后出現(xiàn)的幾起案子，更是在濱河造成了極大的恐慌，老刑警劉巖，帶你破解...
沈念sama閱讀 228,923評論 6贊 535
死咒
序言：濱河連續(xù)發(fā)生了三起死亡事件，死亡現(xiàn)場離奇詭異，居然都是意外死亡，警方通過查閱死者的電腦和手機，發(fā)現(xiàn)死者居然都...
沈念sama閱讀 98,740評論 3贊 420
救了他兩次的神仙讓他今天三更去死
文/潘曉璐我一進店門，熙熙樓的掌柜王于貴愁眉苦臉地迎上來，“玉大人，你說我怎么就攤上這事。” “怎么了？”我有些...
開封第一講書人閱讀 176,856評論 0贊 380
道士緝兇錄：失蹤的賣姜人
文/不壞的土叔我叫張陵，是天一觀的道長。經(jīng)常有香客問我，道長，這世上最難降的妖魔是什么？我笑而不...
開封第一講書人閱讀 63,175評論 1贊 315
?港島之戀（遺憾婚禮）
正文為了忘掉前任，我火速辦了婚禮，結(jié)果婚禮上，老公的妹妹穿的比我還像新娘。我一直安慰自己，他們只是感情好，可當(dāng)我...
茶點故事閱讀 71,931評論 6贊 410
惡毒庶女頂嫁案：這布局不是一般人想出來的
文/花漫我一把揭開白布。她就那樣靜靜地躺著，像睡著了一般。火紅的嫁衣襯著肌膚如雪。梳的紋絲不亂的頭發(fā)上，一...
開封第一講書人閱讀 55,321評論 1贊 324
城市分裂傳說
那天，我揣著相機與錄音，去河邊找鬼。笑死，一個胖子當(dāng)著我的面吹牛，可吹牛的內(nèi)容都是我干的。我是一名探鬼主播，決...
沈念sama閱讀 43,383評論 3贊 443
雙鴛鴦連環(huán)套：你想象不到人心有多黑
文/蒼蘭香墨我猛地睜開眼，長吁一口氣：“原來是場噩夢啊……” “哼！你這毒婦竟也來了？” 一聲冷哼從身側(cè)響起，我...
開封第一講書人閱讀 42,533評論 0贊 289
萬榮殺人案實錄
序言：老撾萬榮一對情侶失蹤，失蹤者是張志新（化名）和其女友劉穎，沒想到半個月后，有當(dāng)?shù)厝嗽跇淞掷锇l(fā)現(xiàn)了一具尸體，經(jīng)...
沈念sama閱讀 49,082評論 1贊 335
?護林員之死
正文獨居荒郊野嶺守林人離奇死亡，尸身上長有42處帶血的膿包…… 初始之章·張勛以下內(nèi)容為張勛視角年9月15日...
茶點故事閱讀 40,891評論 3贊 356
?白月光啟示錄
正文我和宋清朗相戀三年，在試婚紗的時候發(fā)現(xiàn)自己被綠了。大學(xué)時的朋友給我發(fā)了我未婚夫和他白月光在一起吃飯的照片。...
茶點故事閱讀 43,067評論 1贊 371
活死人
序言：一個原本活蹦亂跳的男人離奇死亡，死狀恐怖，靈堂內(nèi)的尸體忽然破棺而出，到底是詐尸還是另有隱情，我是刑警寧澤，帶...
沈念sama閱讀 38,618評論 5贊 362
?日本核電站爆炸內(nèi)幕
正文年R本政府宣布，位于F島的核電站，受9級特大地震影響，放射性物質(zhì)發(fā)生泄漏。R本人自食惡果不足惜，卻給世界環(huán)境...
茶點故事閱讀 44,319評論 3贊 347
男人毒藥：我在死后第九天來索命
文/蒙蒙一、第九天我趴在偏房一處隱蔽的房頂上張望。院中可真熱鬧，春花似錦、人聲如沸。這莊子的主人今日做“春日...
開封第一講書人閱讀 34,732評論 0贊 27
一樁弒父案，背后竟有這般陰謀
文/蒼蘭香墨我抬頭看了看天上的太陽。三九已至，卻和暖如春，著一層夾襖步出監(jiān)牢的瞬間，已是汗流浹背。一陣腳步聲響...
開封第一講書人閱讀 35,987評論 1贊 289
情欲美人皮
我被黑心中介騙來泰國打工，沒想到剛下飛機就差點兒被人妖公主榨干…… 1. 我叫王不留，地道東北人。一個月前我還...
沈念sama閱讀 51,794評論 3贊 394
代替公主和親
正文我出身青樓，卻偏偏與公主長得像，于是被迫代替她去往敵國和親。傳聞我的和親對象是個殘疾皇子，可洞房花燭夜當(dāng)晚...
茶點故事閱讀 48,076評論 2贊 375

三个男躁一个女,国精产品一区一手机的秘密,麦子交换系列最经典十句话,欧美国产综合欧美视频

第3課:通過案例對 spark streaming 透徹理解三板斧之三：spark streaming運行機制與架構(gòu)

第3課:通過案例對 spark streaming 透徹理解三板斧之三：spark streaming運行機制與架構(gòu)

推薦閱讀更多精彩內(nèi)容

三个男躁一个女,国精产品一区一手机的秘密,麦子交换系列最经典十句话,欧美 国产 综合 欧美 视频

第3課:通過案例對 spark streaming 透徹理解三板斧之三：spark streaming運行機制與架構(gòu)

推薦閱讀更多精彩內(nèi)容

三个男躁一个女,国精产品一区一手机的秘密,麦子交换系列最经典十句话,欧美国产综合欧美视频