什么是RDD RDD(Resilient Distributed Datasets),彈性分布式數據集,是Spark的基本數據結構。它是一個不可變的分布式對象集合。RDD中的...

什么是RDD RDD(Resilient Distributed Datasets),彈性分布式數據集,是Spark的基本數據結構。它是一個不可變的分布式對象集合。RDD中的...
前言 在我們提交spark程序時,應該如何為Spark集群配置--num-executors, - executor-memory和--execuor-cores 呢? 一...
什么是Checkpointing Checkpointing可以將RDD從其依賴關系中抽出來,保存到可靠的存儲系統(例如HDFS,S3等), 即它可以將數據和元數據保存到檢查...
前言 之前已經完成了hadoop集群的安裝,測試了HDFS的使用,現在準備在此基礎上,繼續安裝Hive。 主要步驟 安裝mysql 安裝hive 配置hive 安裝mysql...
Spark中的多任務處理 Spark的一個非常常見的用例是并行運行許多作業。 構建作業DAG后,Spark將這些任務分配到多個Executor上并行處理。但這并不能幫助我們在...
前言 學習Spark源代碼的過程中遇到了Typed transformations和Untyped transformations兩個概念,整理了以下相關的筆記。對于這兩個概...
數據壓縮 概況 本章描述了幾種數據壓縮選項,它能夠幫助你減少磁盤空間的使用,在某種情況下,還可以提高I/O性能。 多值壓縮(MVC) 算法壓縮(ALC) 行壓縮 行標題壓縮 ...
關于SparkSession 任何Spark程序的第一步都是先創建SparkSession。在Spark-Shell或者其他交互模式中,SparkSession已經預先被創建...