我和亲妺婷婷在浴室作爱经过,аv天堂手机版在线观看,精品白嫩bbwbbwbbw

1.spark的shuffleManager是負責shuffle過程的執行、計算和處理的組件。shuffleManager是trait，主要實現類有兩個：HashShuffleManager和SortShuffleManager。

val shortShuffleMgrNames =Map(

"hash"->"org.apache.spark.shuffle.hash.HashShuffleManager",

"sort"->"org.apache.spark.shuffle.sort.SortShuffleManager",

"tungsten-sort"->"org.apache.spark.shuffle.sort.SortShuffleManager")

val shuffleMgrName = conf.get("spark.shuffle.manager","sort")

val shuffleMgrClass = shortShuffleMgrNames.getOrElse(shuffleMgrName.toLowerCase, shuffleMgrName)

val shuffleManager = instantiateClass[ShuffleManager](shuffleMgrClass)

2.HashShuffleManager：shuffle write階段，默認Mapper階段會為Reducer階段的每一個Task單獨創建一個文件來保存該Task中要使用的數據。

優點：就是操作數據簡單。

缺點：但是在一些情況下(例如數據量非常大的情況)會造成大量文件(M*R,其中M代表Mapper中的所有的并行任務數量，R代表Reducer中所有的并行任務數據)大數據的隨機磁盤I/O操作且會形成大量的Memory(極易造成OOM)。

HashShuffleManager產生的問題:

第一：不能夠處理大規模的數據

第二：Spark不能夠運行在大規模的分布式集群上！

改進方案：Consolidate機制:

spark.shuffle.consolidateFiles ?該參數默認值為false，將其設置為true即可開啟優化機制

后來的改善是加入了Consolidate機制來將Shuffle時候產生的文件數量減少到C*R個(C代表在Mapper端，同時能夠使用的cores數量，R代表Reducer中所有的并行任務數量)。但是此時如果Reducer端的并行數據分片過多的話則C*R可能已經過大，此時依舊沒有逃脫文件打開過多的厄運！！！Consolidate并沒有降低并行度，只是降低了臨時文件的數量，此時Mapper端的內存消耗就會變少，所以OOM也就會降低，另外一方面磁盤的性能也會變得更好。

開啟consolidate機制之后，在shuffle write過程中，task就不是為下游stage的每個task創建一個磁盤文件了。此時會出現shuffleFileGroup的概念，每個shuffleFileGroup會對應一批磁盤文件，磁盤文件的數量與下游stage的task數量是相同的。一個Executor上有多少個CPU core，就可以并行執行多少個task。而第一批并行執行的每個task都會創建一個shuffleFileGroup，并將數據寫入對應的磁盤文件內。

前提：每個Excutor分配1個cores，假設第二個stage有100個task，第一個stage有50個task，總共還是有10個Executor，每個Executor執行5個task。那么原本使用未經優化的HashShuffleManager時，每個Executor會產生500個磁盤文件，所有Executor會產生5000個磁盤文件的。但是此時經過優化之后，每個Executor創建的磁盤文件的數量的計算公式為：CPU core的數量 * 下一個stage的task數量。也就是說，每個Executor此時只會創建100個磁盤文件，所有Executor只會創建1000個磁盤文件。

當Executor的CPU core執行完一批task，接著執行下一批task時，下一批task就會復用之前已有的shuffleFileGroup，包括其中的磁盤文件。也就是說，此時task會將數據寫入已有的磁盤文件中，而不會寫入新的磁盤文件中。因此，consolidate機制允許不同的task復用同一批磁盤文件，這樣就可以有效將多個task的磁盤文件進行一定程度上的合并，從而大幅度減少磁盤文件的數量，進而提升shuffle write的性能。

3.SortShuffleManager

在Mapper中的每一個ShuffleMapTask中產生兩個文件：Data文件和Index文件，其中Data文件是存儲當前Task的Shuffle輸出的。而index文件中則存儲了Data文件中的數據通過Partitioner的分類信息，此時下一個階段的Stage中的Task就是根據這個Index文件獲取自己所要抓取的上一個Stage中的ShuffleMapTask產生的數據的，Reducer就是根據index文件來獲取屬于自己的數據。

涉及問題：Sorted-based Shuffle：會產生 2*M(M代表了Mapper階段中并行的Partition的總數量，其實就是ShuffleMapTask的總數量)個Shuffle臨時文件。

SortShuffleManager由于有一個磁盤文件merge的過程，因此大大減少了文件數量。比如第一個stage有50個task，總共有10個Executor，每個Executor執行5個task，而第二個stage有100個task。由于每個task最終只有一個磁盤文件，因此此時每個Executor上只有5個磁盤文件，所有Executor只有50個磁盤文件。

默認Sort-based Shuffle的幾個缺陷：

1）如果Mapper中Task的數量過大，依舊會產生很多小文件，此時在Shuffle傳遞數據的過程中到Reducer端，reduce會需要同時打開大量的記錄來進行反序列化，導致大量的內存消耗和GC的巨大負擔，造成系統緩慢甚至崩潰！

2）如果需要在分片內也進行排序的話，此時需要進行Mapper端和Reducer端的兩次排序！！！

優化：

可以改造Mapper和Reducer端，改框架來實現一次排序。

4.bypass運行機制

下圖說明了bypass SortShuffleManager的原理。bypass運行機制的觸發條件如下：

1) shuffle map task數量小于spark.shuffle.sort.bypassMergeThreshold參數的值。

這個參數僅適用于SortShuffleManager，如前所述，SortShuffleManager在處理不需要排序的Shuffle操作時，由于排序帶來性能的下降。這個參數決定了在這種情況下，當Reduce分區的數量小于多少的時候，在SortShuffleManager內部不使用Merge Sort的方式處理數據，而是與Hash Shuffle類似，直接將分區文件寫入單獨的文件，不同的是，在最后一步還是會將這些文件合并成一個單獨的文件。這樣通過去除Sort步驟來加快處理速度，代價是需要并發打開多個文件，所以內存消耗量增加，本質上是相對HashShuffleMananger一個折衷方案。這個參數的默認值是200個分區，如果內存GC問題嚴重，可以降低這個值。

2) 不是聚合類的shuffle算子（比如reduceByKey）。

此時task會為每個下游task都創建一個臨時磁盤文件，并將數據按key進行hash然后根據key的hash值，將key寫入對應的磁盤文件之中。當然，寫入磁盤文件時也是先寫入內存緩沖，緩沖寫滿之后再溢寫到磁盤文件的。最后，同樣會將所有臨時磁盤文件都合并成一個磁盤文件，并創建一個單獨的索引文件。

該過程的磁盤寫機制其實跟未經優化的HashShuffleManager是一模一樣的，因為都要創建數量驚人的磁盤文件，只是在最后會做一個磁盤文件的合并而已。因此少量的最終磁盤文件，也讓該機制相對未經優化的HashShuffleManager來說，shuffle read的性能會更好。

而該機制與普通SortShuffleManager運行機制的不同在于：第一，磁盤寫機制不同；第二，不會進行排序。也就是說，啟用該機制的最大好處在于，shuffle write過程中，不需要進行數據的排序操作，也就節省掉了這部分的性能開銷。

5.shuffle相關參數調優

以下是Shffule過程中的一些主要參數，這里詳細講解了各個參數的功能、默認值以及基于實踐經驗給出的調優建議。

spark.shuffle.file.buffer

默認值：32k

參數說明：該參數用于設置shuffle write task的BufferedOutputStream的buffer緩沖大小。將數據寫到磁盤文件之前，會先寫入buffer緩沖中，待緩沖寫滿之后，才會溢寫到磁盤。

調優建議：如果作業可用的內存資源較為充足的話，可以適當增加這個參數的大小（比如64k），從而減少shuffle write過程中溢寫磁盤文件的次數，也就可以減少磁盤IO次數，進而提升性能。在實踐中發現，合理調節該參數，性能會有1%~5%的提升。

spark.reducer.maxSizeInFlight

默認值：48m

參數說明：該參數用于設置shuffle read task的buffer緩沖大小，而這個buffer緩沖決定了每次能夠拉取多少數據。

調優建議：如果作業可用的內存資源較為充足的話，可以適當增加這個參數的大小（比如96m），從而減少拉取數據的次數，也就可以減少網絡傳輸的次數，進而提升性能。在實踐中發現，合理調節該參數，性能會有1%~5%的提升。

spark.shuffle.io.maxRetries

默認值：3

參數說明：shuffle read task從shuffle write task所在節點拉取屬于自己的數據時，如果因為網絡異常導致拉取失敗，是會自動進行重試的。該參數就代表了可以重試的最大次數。如果在指定次數之內拉取還是沒有成功，就可能會導致作業執行失敗。

調優建議：對于那些包含了特別耗時的shuffle操作的作業，建議增加重試最大次數（比如60次），以避免由于JVM的full gc或者網絡不穩定等因素導致的數據拉取失敗。在實踐中發現，對于針對超大數據量（數十億~上百億）的shuffle過程，調節該參數可以大幅度提升穩定性。

spark.shuffle.io.retryWait

默認值：5s

參數說明：具體解釋同上，該參數代表了每次重試拉取數據的等待間隔，默認是5s。

調優建議：建議加大間隔時長（比如60s），以增加shuffle操作的穩定性。

spark.shuffle.memoryFraction

默認值：0.2

參數說明：該參數代表了Executor內存中，分配給shuffle read task進行聚合操作的內存比例，默認是20%。

調優建議：在資源參數調優中講解過這個參數。如果內存充足，而且很少使用持久化操作，建議調高這個比例，給shuffle read的聚合操作更多內存，以避免由于內存不足導致聚合過程中頻繁讀寫磁盤。在實踐中發現，合理調節該參數可以將性能提升10%左右。

spark.shuffle.manager

默認值：sort

參數說明：該參數用于設置ShuffleManager的類型。Spark 1.5以后，有三個可選項：hash、sort和tungsten-sort。HashShuffleManager是Spark 1.2以前的默認選項，但是Spark 1.2以及之后的版本默認都是SortShuffleManager了。tungsten-sort與sort類似，但是使用了tungsten計劃中的堆外內存管理機制，內存使用效率更高。

調優建議：由于SortShuffleManager默認會對數據進行排序，因此如果你的業務邏輯中需要該排序機制的話，則使用默認的SortShuffleManager就可以；而如果你的業務邏輯不需要對數據進行排序，那么建議參考后面的幾個參數調優，通過bypass機制或優化的HashShuffleManager來避免排序操作，同時提供較好的磁盤讀寫性能。這里要注意的是，tungsten-sort要慎用，因為之前發現了一些相應的bug。

spark.shuffle.sort.bypassMergeThreshold

默認值：200

參數說明：當ShuffleManager為SortShuffleManager時，如果shuffle read task的數量小于這個閾值（默認是200），則shuffle write過程中不會進行排序操作，而是直接按照未經優化的HashShuffleManager的方式去寫數據，但是最后會將每個task產生的所有臨時磁盤文件都合并成一個文件，并會創建單獨的索引文件。

調優建議：當你使用SortShuffleManager時，如果的確不需要排序操作，那么建議將這個參數調大一些，大于shuffle read task的數量。那么此時就會自動啟用bypass機制，map-side就不會進行排序了，減少了排序的性能開銷。但是這種方式下，依然會產生大量的磁盤文件，因此shuffle write性能有待提高。

spark.shuffle.consolidateFiles

默認值：false

參數說明：如果使用HashShuffleManager，該參數有效。如果設置為true，那么就會開啟consolidate機制，會大幅度合并shuffle write的輸出文件，對于shuffle read task數量特別多的情況下，這種方法可以極大地減少磁盤IO開銷，提升性能。

調優建議：如果的確不需要SortShuffleManager的排序機制，那么除了使用bypass機制，還可以嘗試將spark.shffle.manager參數手動指定為hash，使用HashShuffleManager，同時開啟consolidate機制。在實踐中嘗試過，發現其性能比開啟了bypass機制的SortShuffleManager要高出10%~30%

6.shuffle方式的選擇

兩者的性能比較，取決于內存，排序，文件操作等因素的綜合影響。

對于不需要進行排序的Shuffle操作來說，如repartition等，如果文件數量不是特別巨大，HashShuffleManager面臨的內存問題不大，而SortShuffleManager需要額外的根據Partition進行排序，顯然HashShuffleManager的效率會更高。

而對于本來就需要在Map端進行排序的Shuffle操作來說，如ReduceByKey等，使用HashShuffleManager雖然在寫數據時不排序，但在其它的步驟中仍然需要排序，而SortShuffleManager則可以將寫數據和排序兩個工作合并在一起執行，因此即使不考慮HashShuffleManager的內存使用問題，SortShuffleManager依舊可能更快。

三个男躁一个女,国精产品一区一手机的秘密,麦子交换系列最经典十句话,欧美国产综合欧美视频

spark之shuffle原理及性能優化

spark之shuffle原理及性能優化

推薦閱讀更多精彩內容

三个男躁一个女,国精产品一区一手机的秘密,麦子交换系列最经典十句话,欧美 国产 综合 欧美 视频

spark之shuffle原理及性能優化

推薦閱讀更多精彩內容

三个男躁一个女,国精产品一区一手机的秘密,麦子交换系列最经典十句话,欧美国产综合欧美视频