Spark概要掌握情況自我核查

1、Spark目前只持哪哪種語言的API?

Java, Scala, Python, R.
Ref: http://spark.apache.org/

2、RDD執行transformation和執行action的區別是什么?

1,transformation是得到一個新的RDD,方式很多,比如從數據源生成一個新的RDD,從RDD生成一個新的RDD
2,action是得到一個值,或者一個結果(直接將RDDcache到內存中)
所有的transformation都是采用的懶策略,就是如果只是將transformation提交是不會執行計算的,計算只有在action被提交的時候才被觸發。

從運行層面來看,Transformation實際上是一種鏈式的邏輯Action,記錄了RDD演變的過程。Action則是實質觸發Transformation開始計算的動作,由于在每個Transformation的過程中都有記錄,所以每個RDD是知道上一個RDD是怎樣轉變為當前狀態的,所以如果出錯就可以很容易的重新演繹計算過程。
Reference:

  1. http://blog.csdn.net/map_lixiupeng/article/details/41958561
  2. http://www.dataguru.cn/thread-588091-1-1.html
  3. http://my.oschina.net/hanzhankang/blog/200275

3、RDD cache默認的StorageLevel級別是什么?

val MEMORY_ONLY = new StorageLevel(false, true, true)!

緩存策略
class StorageLevel private(!
private var useDisk_ : Boolean,!
private var useMemory_ : Boolean,!
private var deserialized_ : Boolean,!
private var replication_ : Int = 1)!
!
!
val NONE = new StorageLevel(false, false, false)!
val DISK_ONLY = new StorageLevel(true, false, false)!
val DISK_ONLY_2 = new StorageLevel(true, false, false, 2)!

val MEMORY_ONLY_2 = new StorageLevel(false, true, true, 2)!
val MEMORY_ONLY_SER = new StorageLevel(false, true, false)!
val MEMORY_ONLY_SER_2 = new StorageLevel(false, true, false, 2)!
val MEMORY_AND_DISK = new StorageLevel(true, true, true)!
val MEMORY_AND_DISK_2 = new StorageLevel(true, true, true, 2)!
val MEMORY_AND_DISK_SER = new StorageLevel(true, true, false)!
val MEMORY_AND_DISK_SER_2 = new StorageLevel(true, true, false, 2)

4、說明narrow dependency 和 wide dependency的區別? 從計算和容錯兩方面說明!

摘要: narrow dependency和wide dependency的區別,從計算和容錯方面說明

根據不同的transformation操作,RDD的依賴可以分為窄依賴 (Narrow Dependency)和寬依賴(Wide Dependency,在代碼中為ShuffleDependency)兩種類型。
窄依賴指的是生成的RDD中每個partition只依賴于父RDD(s)固定的partition。
寬依賴指的是生成的RDD的每一個partition都依賴于父 RDD(s)所有partition。
窄依賴典型的操作有map, filter, union(特殊)等
寬依賴典型的操作有groupByKey, sortByKey等。



窄依賴的第一個作用,我的理解是可以不用等上一次操作全部做完,每完成一條記錄就可以進行下次操作,如map產生一條新紀錄馬上就做filter
那么對于寬依賴,不能順序執行,比如groupByKey操作。它需要等所有的計算map,filter都做完,才能做ByKey的計算。另外,union這個必須要重點提一下。這個操作只能說不一定,記?。翰灰欢ā槭裁催@么說呢。。因為如果你的計算非常少,最后只有一個DAG在計算,那它就是narrow。。。如果是多個DAG,那此時必然是wide,必然要做shuffle。
可以看到,寬依賴往往意味著shuffle操作,這也是Spark劃分stage(任務集)的主要邊界。對于窄依賴,Spark會將其盡量劃 分在同一個stage中,因為它們可以進行流水線計算。
計算方面:



上圖詳細解釋一下Spark中的Stage劃分。我們從HDFS中讀入數據生成3個不同的RDD,通過一系列 transformation操作后再將計算結果保存回HDFS??梢钥吹竭@幅DAG中只有join操作是一個寬依賴,Spark內核會以此為邊界將其前 后劃分成不同的Stage. 同時我們可以注意到,在圖中Stage2中,從map到union都是窄依賴,這兩步操作可以形成一個流水線操作,通過map操作生成的 partition可以不用等待整個RDD計算結束,而是繼續進行union操作,這樣大大提高了計算的效率。
而Hadoop的MapReduce更像是寬依賴,所以Spark引入了窄依賴大大提高了計算速度。
容錯方面:
narrow dependencies的失敗恢復更有效,因為它只需要重新計算丟失的parent partition即可,而且可以并行地在不同節點進行重計算。而wide dependencies牽涉到RDD各級的多個Parent Partitions。

Reference:

  1. http://www.dataguru.cn/article-6585-1.html
  2. http://www.flybi.net/question/14203
  3. http://www.cnblogs.com/davidwang456/p/5135884.html

5、下載搜狗實驗室用戶查詢日志精簡版:http://www.sogou.com/labs/dl/q.html

(63M),做以下查詢:
① ?戶在00:00:00到12:00:00之間的查詢數?
② 搜索結果排名第一,但是點擊次序排在第二的數據有多少?

最后編輯于
?著作權歸作者所有,轉載或內容合作請聯系作者
平臺聲明:文章內容(如有圖片或視頻亦包括在內)由作者上傳并發布,文章內容僅代表作者本人觀點,簡書系信息發布平臺,僅提供信息存儲服務。
  • 序言:七十年代末,一起剝皮案震驚了整個濱河市,隨后出現的幾起案子,更是在濱河造成了極大的恐慌,老刑警劉巖,帶你破解...
    沈念sama閱讀 230,622評論 6 544
  • 序言:濱河連續發生了三起死亡事件,死亡現場離奇詭異,居然都是意外死亡,警方通過查閱死者的電腦和手機,發現死者居然都...
    沈念sama閱讀 99,716評論 3 429
  • 文/潘曉璐 我一進店門,熙熙樓的掌柜王于貴愁眉苦臉地迎上來,“玉大人,你說我怎么就攤上這事?!?“怎么了?”我有些...
    開封第一講書人閱讀 178,746評論 0 383
  • 文/不壞的土叔 我叫張陵,是天一觀的道長。 經常有香客問我,道長,這世上最難降的妖魔是什么? 我笑而不...
    開封第一講書人閱讀 63,991評論 1 318
  • 正文 為了忘掉前任,我火速辦了婚禮,結果婚禮上,老公的妹妹穿的比我還像新娘。我一直安慰自己,他們只是感情好,可當我...
    茶點故事閱讀 72,706評論 6 413
  • 文/花漫 我一把揭開白布。 她就那樣靜靜地躺著,像睡著了一般。 火紅的嫁衣襯著肌膚如雪。 梳的紋絲不亂的頭發上,一...
    開封第一講書人閱讀 56,036評論 1 329
  • 那天,我揣著相機與錄音,去河邊找鬼。 笑死,一個胖子當著我的面吹牛,可吹牛的內容都是我干的。 我是一名探鬼主播,決...
    沈念sama閱讀 44,029評論 3 450
  • 文/蒼蘭香墨 我猛地睜開眼,長吁一口氣:“原來是場噩夢啊……” “哼!你這毒婦竟也來了?” 一聲冷哼從身側響起,我...
    開封第一講書人閱讀 43,203評論 0 290
  • 序言:老撾萬榮一對情侶失蹤,失蹤者是張志新(化名)和其女友劉穎,沒想到半個月后,有當地人在樹林里發現了一具尸體,經...
    沈念sama閱讀 49,725評論 1 336
  • 正文 獨居荒郊野嶺守林人離奇死亡,尸身上長有42處帶血的膿包…… 初始之章·張勛 以下內容為張勛視角 年9月15日...
    茶點故事閱讀 41,451評論 3 361
  • 正文 我和宋清朗相戀三年,在試婚紗的時候發現自己被綠了。 大學時的朋友給我發了我未婚夫和他白月光在一起吃飯的照片。...
    茶點故事閱讀 43,677評論 1 374
  • 序言:一個原本活蹦亂跳的男人離奇死亡,死狀恐怖,靈堂內的尸體忽然破棺而出,到底是詐尸還是另有隱情,我是刑警寧澤,帶...
    沈念sama閱讀 39,161評論 5 365
  • 正文 年R本政府宣布,位于F島的核電站,受9級特大地震影響,放射性物質發生泄漏。R本人自食惡果不足惜,卻給世界環境...
    茶點故事閱讀 44,857評論 3 351
  • 文/蒙蒙 一、第九天 我趴在偏房一處隱蔽的房頂上張望。 院中可真熱鬧,春花似錦、人聲如沸。這莊子的主人今日做“春日...
    開封第一講書人閱讀 35,266評論 0 28
  • 文/蒼蘭香墨 我抬頭看了看天上的太陽。三九已至,卻和暖如春,著一層夾襖步出監牢的瞬間,已是汗流浹背。 一陣腳步聲響...
    開封第一講書人閱讀 36,606評論 1 295
  • 我被黑心中介騙來泰國打工, 沒想到剛下飛機就差點兒被人妖公主榨干…… 1. 我叫王不留,地道東北人。 一個月前我還...
    沈念sama閱讀 52,407評論 3 400
  • 正文 我出身青樓,卻偏偏與公主長得像,于是被迫代替她去往敵國和親。 傳聞我的和親對象是個殘疾皇子,可洞房花燭夜當晚...
    茶點故事閱讀 48,643評論 2 380

推薦閱讀更多精彩內容