Spark Core源碼精讀計劃#4：SparkContext提供的其他功能

前言
SparkContext提供的其他功能
SparkContext伴生對象
總結

前言

前面兩篇文章一直在講SparkContext初始化的內部邏輯，除此之外，它也對外提供一部分其他功能，我們挑選幾個主要的來簡要了解。SparkContext還有一個伴生對象，里面涉及到一些SparkContext創(chuàng)建的內部機制。

本文就是SparkContext概況的收尾。在它的背后，還有形形色色的更加底層的邏輯等著我們去探索。

SparkContext提供的其他功能

生成RDD

在文章#0中，我們提到了生成RDD的兩種方法，一是對內存中存在的數據執(zhí)行并行化（Parallelize）操作，二是從外部存儲中的數據源讀取。這兩類方法都在SparkContext中。以下是parallelize()方法的代碼。

代碼#4.1 - o.a.s.SparkContext.parallelize()方法

  def parallelize[T: ClassTag](
      seq: Seq[T],
      numSlices: Int = defaultParallelism): RDD[T] = withScope {
    assertNotStopped()
    new ParallelCollectionRDD[T](this, seq, numSlices, Map[Int, Seq[String]]())
  }

該方法生成的RDD類型為ParallelCollectionRDD。numSlices就是該RDD的分區(qū)數，默認值與TaskScheduler的Task并行度相同。這個方法非常簡單，因此在Spark入門教程中經常會用到它。

從外部數據源讀取并生成RDD的方法比較多，為了簡潔，我們只看代碼#0.1中出現的textFile()方法。

代碼#4.2 - o.a.s.SparkContext.textFile()與hadoopFile()方法

  def textFile(
      path: String,
      minPartitions: Int = defaultMinPartitions): RDD[String] = withScope {
    assertNotStopped()
    hadoopFile(path, classOf[TextInputFormat], classOf[LongWritable], classOf[Text],
      minPartitions).map(pair => pair._2.toString).setName(path)
  }

  def hadoopFile[K, V](
      path: String,
      inputFormatClass: Class[_ <: InputFormat[K, V]],
      keyClass: Class[K],
      valueClass: Class[V],
      minPartitions: Int = defaultMinPartitions): RDD[(K, V)] = withScope {
    assertNotStopped()

    FileSystem.getLocal(hadoopConfiguration)

    val confBroadcast = broadcast(new SerializableConfiguration(hadoopConfiguration))
    val setInputPathsFunc = (jobConf: JobConf) => FileInputFormat.setInputPaths(jobConf, path)
    new HadoopRDD(
      this,
      confBroadcast,
      Some(setInputPathsFunc),
      inputFormatClass,
      keyClass,
      valueClass,
      minPartitions).setName(path)
  }

可見，textFile()方法用TextInputFormat格式讀取HDFS上指定路徑的文件，生成HadoopRDD，再將其中的具體內容用map()算子提取出來。HadoopRDD是一個Pair RDD，它內部存儲的是二元組，如上面代碼中的(LongWritable, Text)二元組。

廣播變量

廣播變量是Spark兩種共享變量中的一種。所謂廣播，就是Driver直接向每個Worker節(jié)點發(fā)送同一份數據的只讀副本，而不像通常一樣通過Task來計算。廣播變量適合處理多節(jié)點跨Stage的共享數據，特別是輸入數據量較大的集合，可以提高效率。

下面是broadcast()方法的源碼。它在上文代碼#4.2中已經出現過，用來廣播序列化過的Hadoop配置信息。

代碼#4.3 - o.a.s.SparkContext.broadcast()方法

  def broadcast[T: ClassTag](value: T): Broadcast[T] = {
    assertNotStopped()
    require(!classOf[RDD[_]].isAssignableFrom(classTag[T].runtimeClass),
      "Can not directly broadcast RDDs; instead, call collect() and broadcast the result.")
    val bc = env.broadcastManager.newBroadcast[T](value, isLocal)
    val callSite = getCallSite
    logInfo("Created broadcast " + bc.id + " from " + callSite.shortForm)
    cleaner.foreach(_.registerBroadcastForCleanup(bc))
    bc
  }

廣播變量的產生依賴于Spark執(zhí)行環(huán)境里的廣播管理器BroadcastManager，因此在之后閱讀SparkEnv的源碼時，會詳細分析廣播的內部機制。

累加器

累加器與廣播變量一樣，也是Spark的共享變量。顧名思義，累加器就是一個能夠累積結果值的變量，最常見的用途是做計數。它在Driver端創(chuàng)建和讀取，Executor端（也就是各個Task）只能做累加操作。SparkContext已經提供了數值型累加器的創(chuàng)建方法，如長整型的LongAccumulator。

代碼#4.4 - o.a.s.SparkContext.longAccumulator()方法

  def longAccumulator: LongAccumulator = {
    val acc = new LongAccumulator
    register(acc)
    acc
  }

  def longAccumulator(name: String): LongAccumulator = {
    val acc = new LongAccumulator
    register(acc, name)
    acc
  }

所有累加器的基類都是AccumulatorV2抽象類，我們也可以自定義其他類型的累加器。特征AccumulatorParam則用于封裝累加器對應的數據類型及累加操作，在后面的文章中也會閱讀到與累加器相關的源碼。

運行Job

SparkContext提供了很多種runJob()方法的重載來運行一個Job，也就是觸發(fā)RDD動作算子的執(zhí)行。歸根結底，所有runJob()方法的重載都會調用如下所示的邏輯。

代碼#4.5 - o.a.s.SparkContext.runJob()方法

  def runJob[T, U: ClassTag](
      rdd: RDD[T],
      func: (TaskContext, Iterator[T]) => U,
      partitions: Seq[Int],
      resultHandler: (Int, U) => Unit): Unit = {
    if (stopped.get()) {
      throw new IllegalStateException("SparkContext has been shutdown")
    }
    val callSite = getCallSite
    val cleanedFunc = clean(func)
    logInfo("Starting job: " + callSite.shortForm)
    if (conf.getBoolean("spark.logLineage", false)) {
      logInfo("RDD's recursive dependencies:\n" + rdd.toDebugString)
    }
    dagScheduler.runJob(rdd, cleanedFunc, partitions, callSite, resultHandler, localProperties.get)
    progressBar.foreach(_.finishAll())
    rdd.doCheckpoint()
  }

可見，它最終調用了DAGScheduler.runJob()方法來運行Job。它會將需要計算的RDD及其分區(qū)列表傳入，在計算完成后，將結果傳回給resultHandler回調方法。在運行Job的同時，還會對RDD本身保存其檢查點。關于DAGScheduler的細節(jié)，在涉及調度邏輯時會深入了解。

SparkContext伴生對象

前文代碼#2.11里的createTaskScheduler()方法就來自SparkContext伴生對象。除了它之外，伴生對象主要用來跟蹤并維護SparkContext的創(chuàng)建與激活。

伴生對象中的屬性

代碼#4.6 - SparkContext伴生對象中的屬性

  private val SPARK_CONTEXT_CONSTRUCTOR_LOCK = new Object()

  private val activeContext: AtomicReference[SparkContext] =
    new AtomicReference[SparkContext](null)

  private var contextBeingConstructed: Option[SparkContext] = None

這三個屬性都與SparkContext的創(chuàng)建過程相關。SPARK_CONTEXT_CONSTRUCTOR_LOCK是SparkContext構造過程中使用的鎖對象，用來保證線程安全性。activeContext用于保存當前活動的SparkContext的原子引用。contextBeingConstructed用于保存當前正在創(chuàng)建的SparkContext。

markPartiallyConstructed()方法

這個方法實際上在SparkContext主構造方法的開頭就被調用了，它將當前的SparkContext標記為正在創(chuàng)建。

代碼#4.7 - o.a.s.SparkContext.markPartiallyConstructed()方法

  private[spark] def markPartiallyConstructed(
      sc: SparkContext,
      allowMultipleContexts: Boolean): Unit = {
    SPARK_CONTEXT_CONSTRUCTOR_LOCK.synchronized {
      assertNoOtherContextIsRunning(sc, allowMultipleContexts)
      contextBeingConstructed = Some(sc)
    }
  }

可見，最終是調用了assertNoOtherContextIsRunning()方法。這是一個私有方法，它檢測當前是否有多個SparkContext實例在運行，并根據spark.driver.allowMultipleContexts參數的設置拋出異常或輸出警告。

setActiveContext()方法

與上面的方法相對，它是在SparkContext主構造方法的結尾處調用的，將當前的SparkContext標記為已激活。

代碼#4.8 - o.a.s.SparkContext.setActiveContext()方法

  private[spark] def setActiveContext(
      sc: SparkContext,
      allowMultipleContexts: Boolean): Unit = {
    SPARK_CONTEXT_CONSTRUCTOR_LOCK.synchronized {
      assertNoOtherContextIsRunning(sc, allowMultipleContexts)
      contextBeingConstructed = None
      activeContext.set(sc)
    }

getOrCreate()方法

該方法是除new SparkContext()之外，另一種更好的創(chuàng)建SparkContext的途徑。它會檢查當前有沒有已經激活的SparkContext，如果有則直接復用，沒有的話再創(chuàng)建。

代碼#4.9 - o.a.s.SparkContext.getOrCreate()方法

  def getOrCreate(config: SparkConf): SparkContext = {
    SPARK_CONTEXT_CONSTRUCTOR_LOCK.synchronized {
      if (activeContext.get() == null) {
        setActiveContext(new SparkContext(config), allowMultipleContexts = false)
      } else {
        if (config.getAll.nonEmpty) {
          logWarning("Using an existing SparkContext; some configuration may not take effect.")
        }
      }
      activeContext.get()
    }
  }

總結

本文對SparkContext初始化邏輯之外剩下的一些邏輯做了簡要介紹，包括SparkContext提供的其他功能，及其伴生對象中的一些細節(jié)。這樣，我們就對SparkContext有了相對全面的了解。

接下來，我們會選擇幾個SparkContext組件初始化邏輯中涉及到的重要組件，對它們的實現機制加以分析。下一篇仍然計劃從基礎開始講起，就是LiveListenerBus及以其為代表的事件總線。

?著作權歸作者所有,轉載或內容合作請聯系作者
平臺聲明：文章內容（如有圖片或視頻亦包括在內）由作者上傳并發(fā)布，文章內容僅代表作者本人觀點，簡書系信息發(fā)布平臺，僅提供信息存儲服務。

人面猴
序言：七十年代末，一起剝皮案震驚了整個濱河市，隨后出現的幾起案子，更是在濱河造成了極大的恐慌，老刑警劉巖，帶你破解...
沈念sama閱讀 229,517評論 6贊 539
死咒
序言：濱河連續(xù)發(fā)生了三起死亡事件，死亡現場離奇詭異，居然都是意外死亡，警方通過查閱死者的電腦和手機，發(fā)現死者居然都...
沈念sama閱讀 99,087評論 3贊 423
救了他兩次的神仙讓他今天三更去死
文/潘曉璐我一進店門，熙熙樓的掌柜王于貴愁眉苦臉地迎上來，“玉大人，你說我怎么就攤上這事。” “怎么了？”我有些...
開封第一講書人閱讀 177,521評論 0贊 382
道士緝兇錄：失蹤的賣姜人
文/不壞的土叔我叫張陵，是天一觀的道長。經常有香客問我，道長，這世上最難降的妖魔是什么？我笑而不...
開封第一講書人閱讀 63,493評論 1贊 316
?港島之戀（遺憾婚禮）
正文為了忘掉前任，我火速辦了婚禮，結果婚禮上，老公的妹妹穿的比我還像新娘。我一直安慰自己，他們只是感情好，可當我...
茶點故事閱讀 72,207評論 6贊 410
惡毒庶女頂嫁案：這布局不是一般人想出來的
文/花漫我一把揭開白布。她就那樣靜靜地躺著，像睡著了一般。火紅的嫁衣襯著肌膚如雪。梳的紋絲不亂的頭發(fā)上，一...
開封第一講書人閱讀 55,603評論 1贊 325
城市分裂傳說
那天，我揣著相機與錄音，去河邊找鬼。笑死，一個胖子當著我的面吹牛，可吹牛的內容都是我干的。我是一名探鬼主播，決...
沈念sama閱讀 43,624評論 3贊 444
雙鴛鴦連環(huán)套：你想象不到人心有多黑
文/蒼蘭香墨我猛地睜開眼，長吁一口氣：“原來是場噩夢啊……” “哼！你這毒婦竟也來了？” 一聲冷哼從身側響起，我...
開封第一講書人閱讀 42,813評論 0贊 289
萬榮殺人案實錄
序言：老撾萬榮一對情侶失蹤，失蹤者是張志新（化名）和其女友劉穎，沒想到半個月后，有當地人在樹林里發(fā)現了一具尸體，經...
沈念sama閱讀 49,364評論 1贊 335
?護林員之死
正文獨居荒郊野嶺守林人離奇死亡，尸身上長有42處帶血的膿包…… 初始之章·張勛以下內容為張勛視角年9月15日...
茶點故事閱讀 41,110評論 3贊 356
?白月光啟示錄
正文我和宋清朗相戀三年，在試婚紗的時候發(fā)現自己被綠了。大學時的朋友給我發(fā)了我未婚夫和他白月光在一起吃飯的照片。...
茶點故事閱讀 43,305評論 1贊 371
活死人
序言：一個原本活蹦亂跳的男人離奇死亡，死狀恐怖，靈堂內的尸體忽然破棺而出，到底是詐尸還是另有隱情，我是刑警寧澤，帶...
沈念sama閱讀 38,874評論 5贊 362
?日本核電站爆炸內幕
正文年R本政府宣布，位于F島的核電站，受9級特大地震影響，放射性物質發(fā)生泄漏。R本人自食惡果不足惜，卻給世界環(huán)境...
茶點故事閱讀 44,532評論 3贊 348
男人毒藥：我在死后第九天來索命
文/蒙蒙一、第九天我趴在偏房一處隱蔽的房頂上張望。院中可真熱鬧，春花似錦、人聲如沸。這莊子的主人今日做“春日...
開封第一講書人閱讀 34,953評論 0贊 28
一樁弒父案，背后竟有這般陰謀
文/蒼蘭香墨我抬頭看了看天上的太陽。三九已至，卻和暖如春，著一層夾襖步出監(jiān)牢的瞬間，已是汗流浹背。一陣腳步聲響...
開封第一講書人閱讀 36,209評論 1贊 291
情欲美人皮
我被黑心中介騙來泰國打工，沒想到剛下飛機就差點兒被人妖公主榨干…… 1. 我叫王不留，地道東北人。一個月前我還...
沈念sama閱讀 52,033評論 3贊 396
代替公主和親
正文我出身青樓，卻偏偏與公主長得像，于是被迫代替她去往敵國和親。傳聞我的和親對象是個殘疾皇子，可洞房花燭夜當晚...
茶點故事閱讀 48,268評論 2贊 375

三个男躁一个女,国精产品一区一手机的秘密,麦子交换系列最经典十句话,欧美国产综合欧美视频

Spark Core源碼精讀計劃#4：SparkContext提供的其他功能

Spark Core源碼精讀計劃#4：SparkContext提供的其他功能

前言

SparkContext提供的其他功能

生成RDD

廣播變量

累加器

運行Job

SparkContext伴生對象

伴生對象中的屬性

markPartiallyConstructed()方法

setActiveContext()方法

getOrCreate()方法

總結

推薦閱讀更多精彩內容

三个男躁一个女,国精产品一区一手机的秘密,麦子交换系列最经典十句话,欧美 国产 综合 欧美 视频

Spark Core源碼精讀計劃#4：SparkContext提供的其他功能

前言

SparkContext提供的其他功能

生成RDD

廣播變量

累加器

運行Job

SparkContext伴生對象

伴生對象中的屬性

markPartiallyConstructed()方法

setActiveContext()方法

getOrCreate()方法

總結

推薦閱讀更多精彩內容

三个男躁一个女,国精产品一区一手机的秘密,麦子交换系列最经典十句话,欧美国产综合欧美视频