
前言 之前本來有一個個人博客,但是因為太懶沒有維護,就來投奔CSDN了。這幾天突然一時興起,讓好好弄一下自己的個人博客,因為CSDN的廣告實在是...
前言 在使用Spark-shell做一些測試時候會產生大量無用的INFO級別的日志,因此想把它們給禁用掉。具體方法如下。 解決方法 - 使用自定...
前言 Driver OutOfMemoryError或Driver Unresponsive是一個非常嚴重的問題,因為它會使我們的Spark應用...
前言 如果你程序中的聚合速度較慢,請先查看 Spark Stragglers/任務執(zhí)行緩慢部分。 主要癥狀 在執(zhí)行 groupby 操作時,任務...
什么是RDD RDD(Resilient Distributed Datasets),彈性分布式數(shù)據(jù)集,是Spark的基本數(shù)據(jù)結構。它是一個不可...
前言 在我們提交spark程序時,應該如何為Spark集群配置--num-executors, - executor-memory和--exe...
什么是Checkpointing Checkpointing可以將RDD從其依賴關系中抽出來,保存到可靠的存儲系統(tǒng)(例如HDFS,S3等), 即...
前言 學習Spark源代碼的過程中遇到了Typed transformations和Untyped transformations兩個概念,整理...
Spark中的多任務處理 Spark的一個非常常見的用例是并行運行許多作業(yè)。 構建作業(yè)DAG后,Spark將這些任務分配到多個Executor上...