跟著Leo學習PySpark
chapter1——rdd的基礎編程指南
一、準備工作
1. 背景介紹
Spark是用scala編程語言實現(xiàn)的,為了使Spark支持Python,Apache Spark社區(qū)發(fā)布了一個工具PySpark。使用PySpark,您可以使用Python編程
語言處理RDD。方便地進行數(shù)據(jù)處理與數(shù)據(jù)分析。有關Spark更深層次的理論,本系列課程不會過深涉及。這里會由淺入深,全面且細致的為大家講解各種
PySpark API的用法,大量的示例,以及來自一線大廠的PySpark的使用經(jīng)驗與踩坑記錄,無論您是菜鳥還是老鳥,相信您從中都會吸取大量精華。
2. 軟件版本
- PySpark(Spark) 2.4.3,本系列課程基于目前最新版本的Spark,而且Spark2.x也早已被大量用于生產(chǎn)環(huán)境中。
- Python2.7.5 Spark 2.4.3適用于Python 2.7+或Python 3.4+。但在Spark 2.2.0中刪除了對Python 2.6的支持。雖然說截至20年,Python2將停止維護,但當前Python2依舊應用非常廣泛,個人認為其生態(tài)比Python3的生態(tài)要好。所以大家可以放心使用。其實對于spark的操作來說,Python2與Python3的差異并不明顯。
3. 開發(fā)環(huán)境準備
- 本課程代碼RDD,spark-sql、DataFrame的操作將使用Jupyter Notebook編寫。關于jupyter的使用,網(wǎng)上有大量資料可供參考。
- 當然你也可以選擇您喜歡的IDE,這里筆者推薦PyCharam
- 作為練習階段使用,您可以不用準備集群環(huán)境,或本地偽分布式的環(huán)境,很多API的測試,本地一樣可以執(zhí)行。后期將為大家講解集群環(huán)境下的PySpark運行示例,以及線上作業(yè)提交,資源調(diào)配、作業(yè)監(jiān)控等。
- 操作系統(tǒng),筆者的開發(fā)環(huán)境為macOS
- pycharm新建一個空項目,pip install pyspark 安裝pyspark的模塊,然后大家就可以愉快地進行開發(fā)了。
二、Spark中的一些重要概念
1. 什么是RDD
Spark是圍繞RDD這個核心概念來展開的,RDD,官方給出的解釋是,彈性分布式數(shù)據(jù)集,是可以并行操作的容錯集合。它是Spark的基礎數(shù)據(jù)結(jié)構(gòu),表現(xiàn)形式為不可變的分區(qū)元素的集合,且可以在集群中并行操作。我們可以從現(xiàn)有并行化驅(qū)動程序中的集合,或引用外部存儲系統(tǒng)(例如:文件系統(tǒng)、HDFS、HBase等數(shù)據(jù)源)來創(chuàng)建一個RDD。
說白了,RDD的數(shù)據(jù)的一種抽象、映射。Spark要想處理我們需要處理的數(shù)據(jù)集,數(shù)據(jù)集必須先轉(zhuǎn)換成RDD這種數(shù)據(jù)結(jié)構(gòu),然后經(jīng)過一系列轉(zhuǎn)換操作,最終得到我們想要的結(jié)果。
2. RDD的特性
- 容錯性。在節(jié)點故障導致丟失或分區(qū)損壞時,可以重新計算數(shù)據(jù)。
- 被分區(qū)的,數(shù)據(jù)被分為多個分區(qū),每個分區(qū)分布在集群中的不同節(jié)點上,從而讓RDD中的數(shù)據(jù)可以被并行操作
- 可序列化,RDD可以cache到內(nèi)存中,可以避免昂貴的IO操作,只有當內(nèi)存資源不夠的時候,才會把數(shù)據(jù)寫入磁盤。
3. Spark的編程模型
RDD被表示為對象——>通過對象上的方法調(diào)用實現(xiàn)對RDD的轉(zhuǎn)換操作(Transformation)——>輸出結(jié)果或向存儲系統(tǒng)中保存數(shù)據(jù)(只有遇到Action算子,才會執(zhí)行RDD的計算,也即懶執(zhí)行)
4. Spark中的算子分類
- Transformation(轉(zhuǎn)換): 根據(jù)數(shù)據(jù)集創(chuàng)建一個新的數(shù)據(jù)集,計算后返回一個新的RDD,例如:map。
- Action(動作):對RDD結(jié)果計算后返回一個數(shù)值value給驅(qū)動程序。例如:collect算子將數(shù)據(jù)集的所有元素收集完后返回給驅(qū)動程序。
- 控制:Spark中控制算子也是懶執(zhí)行的,需要Action算子觸發(fā)才能執(zhí)行,主要是為了對數(shù)據(jù)進行緩存。。當有Action算子出現(xiàn)時,他才會真正的執(zhí)行Spark中控制算子也是懶執(zhí)行的,需要Action算子觸發(fā)才能執(zhí)行,主要是為了對數(shù)據(jù)進行緩存,當有Action算子出現(xiàn)時,他才會真正的執(zhí)行。例如:創(chuàng)建了一個視圖,他并不是把查詢好的數(shù)據(jù)放入視圖了,而是當你需要這些數(shù)據(jù)時,查看視圖時,他才執(zhí)行定義視圖時候的SQL語句。
spark RDD操作基礎系列課程將帶著大家一一學習這些算子的使用。
5. pyspark的模塊介紹
pyspark模塊
這個模塊是最基礎的模塊,里面實現(xiàn)了最基礎的編寫Spark作業(yè)的API。這個模塊里面有以下內(nèi)容:
- SparkContext:它是編寫Spark程序的主入口
- RDD:分布式彈性數(shù)據(jù)集,是Spark內(nèi)部中最重要的抽象
- Broadcast:在各個任務中重復使用的廣播變量
- SparkConf:一個配置對象,用來對Spark中例如資源、內(nèi)核個數(shù)、提交模式等的配置
- SparkFiles:文件訪問API
- StorageLevel:提供細粒度的對于數(shù)據(jù)的緩存、持久化級別
- TaskContext:實驗性質(zhì)API,用于獲取運行中任務的上下文信息
pyspark.sql模塊
這個模塊是架構(gòu)在RDD之上的高級模塊,提供了SQL的支持,它包括以下內(nèi)容:
- SparkSession:SparkSQL的主入口,其內(nèi)部調(diào)用的仍然是SparkContext
- DataFrame:分布式的結(jié)構(gòu)化數(shù)據(jù)集,最終的計算其實仍然轉(zhuǎn)換為RDD的計算
- Column:DataFrame中的列
- Row:DataFrame中的行
- GroupedData:這里提供聚合數(shù)據(jù)的一些方法
- DataFrameNaFunctions:處理缺失數(shù)據(jù)的方法
- DataFrameStatFunctions:提供統(tǒng)計數(shù)據(jù)的一些方法
- functions:內(nèi)建的可用于DataFrame的方法
- types:可用的數(shù)據(jù)類型
- Window:提供窗口函數(shù)的支持
pyspark.streaming
這個模塊主要是用來處理流數(shù)據(jù),從外部的消息中間件如kafka,flume或者直接從網(wǎng)絡接收數(shù)據(jù),來進行實時的流數(shù)據(jù)處理。其內(nèi)部會將接收到的數(shù)據(jù)轉(zhuǎn)換為DStream,DStream的內(nèi)部實際上就是RDD。pyspark.streaming對流數(shù)據(jù)的支持還不是很完善,不如原生的Scala語言和Java語言。
pyspark.ml
這個模塊主要是做機器學習的,里面實現(xiàn)了很多機器學習算法,包括分類、回歸、聚類、推薦。這個的內(nèi)容我們會囊括最主要的機器學習算法。pyspark.ml這個模塊現(xiàn)已經(jīng)成為主要的機器學習模塊,其內(nèi)部實現(xiàn)是基于DataFrame數(shù)據(jù)框。
pyspark.mllib
這個模塊也是做機器學習的,但是這個模塊底層使用的RDD,RDD在性能上優(yōu)化的余地較少,因此現(xiàn)在最新的機器學習算法都是用基于DataFrame的API來實現(xiàn)。但這個模塊里面也有很多有用的機器學習算法,我們可以適當?shù)陌淹嬉幌隆?/p>