Spark常見面試題

1、scala 語言有什么特點,相比java有什么優(yōu)點?

2、什么是Scala的伴生類和伴生對象?

3、spark有什么特點,處理大數(shù)據(jù)有什么優(yōu)勢?

4、Spark技術棧有哪些組件,每個組件都有什么功能,適合什么應用場景?

5、Apache Spark有哪些常見的穩(wěn)定版本,Spark1.6.0的數(shù)字分別代表什么意思?

6、Mapreduce和Spark有什么區(qū)別與聯(lián)系?

7、簡單說一下hadoop和spark的shuffle相同和差異?

8、Spark為什么比mapreduce快?

9、簡要描述Spark分布式集群搭建的步驟?

10、spark的有幾種部署模式,每種模式特點?

11、spark集群運算的模式有哪些?

12、Spark有哪些算子,列舉幾個你熟悉的?

13、spark中的RDD是什么,有哪些特性?

14、談談spark中的寬窄依賴?

15、cache和pesist有什么區(qū)別?

16、spark rdd 如何區(qū)分寬依賴和窄依賴?

17、RDD中reduceBykey與groupByKey哪個性能好,為什么?

18、spark streming在實時處理時會發(fā)生什么故障,如何停止,解決?

19、spark streaming 讀取kafka數(shù)據(jù)的兩種方式?

20、spark 如何防止內(nèi)存溢出?

21、如何解決spark中的數(shù)據(jù)傾斜問題?

22、spark中的數(shù)據(jù)傾斜的現(xiàn)象、原因、后果?

23、Spark有哪些優(yōu)化方法?

24、spark中如何劃分stage?

25、spark有哪些組件?

?

26、Spark中Work的主要工作是什么?

27、Spark driver的功能是什么?

28、如何配置spark master的HA?

29、Spark master HA 主從切換過程不會影響集群已有的作業(yè)運行,為什么?

30、Spark master使用zookeeper進行HA的,有哪些元數(shù)據(jù)保存在Zookeeper?

31、Spark master HA 主從切換過程不會影響集群已有的作業(yè)運行,為什么?

32、Spark master使用zookeeper進行HA的,有哪些元數(shù)據(jù)保存在Zookeeper?

33、spark-submit的時候如何引入外部jar包?

34、spark面試需要儲備哪些知識?

35、Spark on Mesos中,什么是的粗粒度分配,什么是細粒度分配,各自的優(yōu)點和缺點是什么?

?著作權歸作者所有,轉(zhuǎn)載或內(nèi)容合作請聯(lián)系作者
平臺聲明:文章內(nèi)容(如有圖片或視頻亦包括在內(nèi))由作者上傳并發(fā)布,文章內(nèi)容僅代表作者本人觀點,簡書系信息發(fā)布平臺,僅提供信息存儲服務。

推薦閱讀更多精彩內(nèi)容