Spark數據傾斜問題解決以及造成的spark OOM問題

參考資料
https://tech.meituan.com/2016/05/12/spark-tuning-pro.html
https://blog.csdn.net/yisun123456/article/details/86699502

前言

對于spark而言,出現傾斜之類的問題并不陌生。大部分task很快就能完成,但是極少部分的task耗費了大部分的時間,甚至會出現OOM的場景,今天來模擬這種場景并提出解決辦法

模擬場景

1、相關代碼
    val session = SparkSession
      .builder().enableHiveSupport().getOrCreate()

    val frame = session.read.csv("/user/zgh/ceshi/data.csv")

    val value = frame.rdd.map(x=>(x,1)).groupByKey().map(w => (w._1, w._2.sum))

    value.saveAsHadoopFile("/user/zgh/result",classOf[Text],classOf[IntWritable],classOf[TextOutputFormat[Text,IntWritable]])
    session.close()

其實就是單純的做了一個groupBykey并進行統計。

2、數據模擬和情景

我這邊造了2種數據
1、458M的數據,1條別的數據,1000W條其他相同的數據
2、4個G的數據, 1條別的數據,8000W條其他相同的數據
來模擬上述的情況

458M的數據很慢50S完成,shuffle write 38M,發生在stage2中,別的task都很快,而有一個耗時了26S,這就是數據傾斜造成的結果,數據的拉取和計算都發生在這個節點上。


image.png

image.png

4個G的數據更甚,直接發生了報錯,java.lang.OutOfMemoryError: Java heap space 這里不貼詳細的圖,就是所需的內存不夠

解決方法

前提

我們在解決之前先說一下shuffle write和shuffle read(主要針對UI界面),我在https://stackoverflow.com/questions/27276884/what-is-shuffle-read-shuffle-write-in-apache-spark 找到了參考
shuffle操作是spark stage階段數據的重新分配
Shuffle Write 是所有的executors 在一個stage結束時寫入的所有序列化數據的總和
Shuffle Read 是所有的executors在一個stage開始的時候讀取到的所有序列化數據的總和

1、提高shuffle操作的并行度

提高shuffle操作的并行度其實就是相當于增加分區數,相當于每個task中處理的數據變少,自然而然的也就減少了傾斜的情況。比如如果原本有5個key,每個key對應10條數據,這5個key都是分配給一個task的,那么這個task就要處理50條數據。而增加了shuffle read task以后,每個task就分配到一個key,即每個task就處理10條數據,那么自然每個task的執行時間都會變短了。
比如我將上述的代碼

val value = frame.rdd.map(x=>(x,1)).groupByKey().map(w => (w._1, w._2.sum))

變成了

val value = frame.rdd.map(x=>(x,1)).repartition(200).groupByKey().map(w => (w._1, w._2.sum))

這樣的話相當于將數據重分區為200個分區,每個task處理的數據相應變少。但是我發現加上了這個條件,相應的并沒有得到優化,最后一步驟中,還是將最后的38M數據全部拉取到了一個task中執行。那其實說明一個問題,如果碰到我這種極端問題的話,單個Key對應了巨大的數據,增加并行度并不能解決這個問題。其實細想也能明白,重分區默認是hash分區,不管怎么分配,相同的數據還是到一個分區里面的。

2、過濾掉少數導致數據傾斜的key值

這種情況在我做電信項目的時候遇到過,使用的場景就是導致數據傾斜的key值本身沒有用或者對數據分析沒有影響,所以我們在使用前可以將key值過濾掉。
之前電信的項目項目是使用spark sql 做的,經常會有join的操作,由于數據的不規范性,所以在兩表關聯的時候兩邊都會有""。這樣的話,比如兩表均有1W個""的話,那么
就會造成join完以后有突然有了1W*1W行的數據,所以看UI界面,就會有task多了很大量的數據,造成了傾斜的現象。所以這種傾斜的情況可以通過提前過濾掉"" 字段來處理。

3、兩階段聚合(前綴或者后綴)

這種情況適合聚合操作。這里我們采取的措施是給全部的數據加上前綴或者后綴。相當于在一階段先進行一次聚合統計,然后再二階段再對處理過的數據進行聚合操作。這樣的話,進行兩階段聚合將能大大的減少數據被拉取到一個task的數據量。也就解決了數據傾斜的問題。

如果上述的代碼被我改造成

    val random=new Random()

    val value_linshi = frame.rdd.map(x=>(x+"_"+random.nextInt(10),1)).groupByKey().map(w => (w._1, w._2.sum))

    val value = value_linshi.map(x=>(x._1.split("_")(0),x._2)).groupByKey().map(w => (w._1, w._2.sum))

一項是UI的情況,改變明顯,只需要18S的時間,比之前縮短了很多。

image.png

傾斜為什么會OOM

傾斜會造成慢,為什么4G的數據會OOM呢,這激起了我的好奇心。

/opt/beh/core/spark/bin/spark-submit --master yarn --class com.example.sparklearn.Test --num-executors 1 --executor-memory 2g --executor-cores 2 /home/hadoop/zgh/sparklearn-0.0.1-SNAPSHOT.jar

image.png

這個是我的執行命令參數,每個core中相當于分配了1g的內存,而且shuffle write后寫出了321M的序列化數據,這些數據將會被一個core自己獨占拉取到一個task中(看我之前自己的造的4G數據的情況可知)
然后報java.lang.OutOfMemoryError: Java heap space。這個和spark內存模型有關系,這塊我會專門開一章講解,這里簡單說下原因
原因:
shuffer read去獲取數據是會邊拉取數據一邊聚合,這邊有一塊聚合內存(executor memory * 0.2),也就是這塊內存不夠
所以當我吧executor-memory 設置成4G 也就是一個core占用2g的時候就能跑成功任務了。因為2g*0.2> 321M么

最后編輯于
?著作權歸作者所有,轉載或內容合作請聯系作者
平臺聲明:文章內容(如有圖片或視頻亦包括在內)由作者上傳并發布,文章內容僅代表作者本人觀點,簡書系信息發布平臺,僅提供信息存儲服務。
  • 序言:七十年代末,一起剝皮案震驚了整個濱河市,隨后出現的幾起案子,更是在濱河造成了極大的恐慌,老刑警劉巖,帶你破解...
    沈念sama閱讀 230,527評論 6 544
  • 序言:濱河連續發生了三起死亡事件,死亡現場離奇詭異,居然都是意外死亡,警方通過查閱死者的電腦和手機,發現死者居然都...
    沈念sama閱讀 99,687評論 3 429
  • 文/潘曉璐 我一進店門,熙熙樓的掌柜王于貴愁眉苦臉地迎上來,“玉大人,你說我怎么就攤上這事。” “怎么了?”我有些...
    開封第一講書人閱讀 178,640評論 0 383
  • 文/不壞的土叔 我叫張陵,是天一觀的道長。 經常有香客問我,道長,這世上最難降的妖魔是什么? 我笑而不...
    開封第一講書人閱讀 63,957評論 1 318
  • 正文 為了忘掉前任,我火速辦了婚禮,結果婚禮上,老公的妹妹穿的比我還像新娘。我一直安慰自己,他們只是感情好,可當我...
    茶點故事閱讀 72,682評論 6 413
  • 文/花漫 我一把揭開白布。 她就那樣靜靜地躺著,像睡著了一般。 火紅的嫁衣襯著肌膚如雪。 梳的紋絲不亂的頭發上,一...
    開封第一講書人閱讀 56,011評論 1 329
  • 那天,我揣著相機與錄音,去河邊找鬼。 笑死,一個胖子當著我的面吹牛,可吹牛的內容都是我干的。 我是一名探鬼主播,決...
    沈念sama閱讀 44,009評論 3 449
  • 文/蒼蘭香墨 我猛地睜開眼,長吁一口氣:“原來是場噩夢啊……” “哼!你這毒婦竟也來了?” 一聲冷哼從身側響起,我...
    開封第一講書人閱讀 43,183評論 0 290
  • 序言:老撾萬榮一對情侶失蹤,失蹤者是張志新(化名)和其女友劉穎,沒想到半個月后,有當地人在樹林里發現了一具尸體,經...
    沈念sama閱讀 49,714評論 1 336
  • 正文 獨居荒郊野嶺守林人離奇死亡,尸身上長有42處帶血的膿包…… 初始之章·張勛 以下內容為張勛視角 年9月15日...
    茶點故事閱讀 41,435評論 3 359
  • 正文 我和宋清朗相戀三年,在試婚紗的時候發現自己被綠了。 大學時的朋友給我發了我未婚夫和他白月光在一起吃飯的照片。...
    茶點故事閱讀 43,665評論 1 374
  • 序言:一個原本活蹦亂跳的男人離奇死亡,死狀恐怖,靈堂內的尸體忽然破棺而出,到底是詐尸還是另有隱情,我是刑警寧澤,帶...
    沈念sama閱讀 39,148評論 5 365
  • 正文 年R本政府宣布,位于F島的核電站,受9級特大地震影響,放射性物質發生泄漏。R本人自食惡果不足惜,卻給世界環境...
    茶點故事閱讀 44,838評論 3 350
  • 文/蒙蒙 一、第九天 我趴在偏房一處隱蔽的房頂上張望。 院中可真熱鬧,春花似錦、人聲如沸。這莊子的主人今日做“春日...
    開封第一講書人閱讀 35,251評論 0 28
  • 文/蒼蘭香墨 我抬頭看了看天上的太陽。三九已至,卻和暖如春,著一層夾襖步出監牢的瞬間,已是汗流浹背。 一陣腳步聲響...
    開封第一講書人閱讀 36,588評論 1 295
  • 我被黑心中介騙來泰國打工, 沒想到剛下飛機就差點兒被人妖公主榨干…… 1. 我叫王不留,地道東北人。 一個月前我還...
    沈念sama閱讀 52,379評論 3 400
  • 正文 我出身青樓,卻偏偏與公主長得像,于是被迫代替她去往敵國和親。 傳聞我的和親對象是個殘疾皇子,可洞房花燭夜當晚...
    茶點故事閱讀 48,627評論 2 380