pyspark_1_理論篇(RDD基礎)

跟著Leo學習PySpark

chapter1——rdd的基礎編程指南

一、準備工作

1. 背景介紹

Spark是用scala編程語言實現(xiàn)的,為了使Spark支持Python,Apache Spark社區(qū)發(fā)布了一個工具PySpark。使用PySpark,您可以使用Python編程
語言處理RDD。方便地進行數(shù)據(jù)處理與數(shù)據(jù)分析。有關Spark更深層次的理論,本系列課程不會過深涉及。這里會由淺入深,全面且細致的為大家講解各種
PySpark API的用法,大量的示例,以及來自一線大廠的PySpark的使用經(jīng)驗與踩坑記錄,無論您是菜鳥還是老鳥,相信您從中都會吸取大量精華。

2. 軟件版本

  • PySpark(Spark) 2.4.3,本系列課程基于目前最新版本的Spark,而且Spark2.x也早已被大量用于生產(chǎn)環(huán)境中。
  • Python2.7.5 Spark 2.4.3適用于Python 2.7+或Python 3.4+。但在Spark 2.2.0中刪除了對Python 2.6的支持。雖然說截至20年,Python2將停止維護,但當前Python2依舊應用非常廣泛,個人認為其生態(tài)比Python3的生態(tài)要好。所以大家可以放心使用。其實對于spark的操作來說,Python2與Python3的差異并不明顯。

3. 開發(fā)環(huán)境準備

  • 本課程代碼RDD,spark-sql、DataFrame的操作將使用Jupyter Notebook編寫。關于jupyter的使用,網(wǎng)上有大量資料可供參考。
  • 當然你也可以選擇您喜歡的IDE,這里筆者推薦PyCharam
  • 作為練習階段使用,您可以不用準備集群環(huán)境,或本地偽分布式的環(huán)境,很多API的測試,本地一樣可以執(zhí)行。后期將為大家講解集群環(huán)境下的PySpark運行示例,以及線上作業(yè)提交,資源調(diào)配、作業(yè)監(jiān)控等。
  • 操作系統(tǒng),筆者的開發(fā)環(huán)境為macOS
  • pycharm新建一個空項目,pip install pyspark 安裝pyspark的模塊,然后大家就可以愉快地進行開發(fā)了。

二、Spark中的一些重要概念

1. 什么是RDD

Spark是圍繞RDD這個核心概念來展開的,RDD,官方給出的解釋是,彈性分布式數(shù)據(jù)集,是可以并行操作的容錯集合。它是Spark的基礎數(shù)據(jù)結(jié)構(gòu),表現(xiàn)形式為不可變的分區(qū)元素的集合,且可以在集群中并行操作。我們可以從現(xiàn)有并行化驅(qū)動程序中的集合,或引用外部存儲系統(tǒng)(例如:文件系統(tǒng)、HDFS、HBase等數(shù)據(jù)源)來創(chuàng)建一個RDD。

說白了,RDD的數(shù)據(jù)的一種抽象、映射。Spark要想處理我們需要處理的數(shù)據(jù)集,數(shù)據(jù)集必須先轉(zhuǎn)換成RDD這種數(shù)據(jù)結(jié)構(gòu),然后經(jīng)過一系列轉(zhuǎn)換操作,最終得到我們想要的結(jié)果。

2. RDD的特性

  • 容錯性。在節(jié)點故障導致丟失或分區(qū)損壞時,可以重新計算數(shù)據(jù)。
  • 被分區(qū)的,數(shù)據(jù)被分為多個分區(qū),每個分區(qū)分布在集群中的不同節(jié)點上,從而讓RDD中的數(shù)據(jù)可以被并行操作
  • 可序列化,RDD可以cache到內(nèi)存中,可以避免昂貴的IO操作,只有當內(nèi)存資源不夠的時候,才會把數(shù)據(jù)寫入磁盤。

3. Spark的編程模型

RDD被表示為對象——>通過對象上的方法調(diào)用實現(xiàn)對RDD的轉(zhuǎn)換操作(Transformation)——>輸出結(jié)果或向存儲系統(tǒng)中保存數(shù)據(jù)(只有遇到Action算子,才會執(zhí)行RDD的計算,也即懶執(zhí)行)

4. Spark中的算子分類

  • Transformation(轉(zhuǎn)換): 根據(jù)數(shù)據(jù)集創(chuàng)建一個新的數(shù)據(jù)集,計算后返回一個新的RDD,例如:map。
  • Action(動作):對RDD結(jié)果計算后返回一個數(shù)值value給驅(qū)動程序。例如:collect算子將數(shù)據(jù)集的所有元素收集完后返回給驅(qū)動程序。
  • 控制:Spark中控制算子也是懶執(zhí)行的,需要Action算子觸發(fā)才能執(zhí)行,主要是為了對數(shù)據(jù)進行緩存。。當有Action算子出現(xiàn)時,他才會真正的執(zhí)行Spark中控制算子也是懶執(zhí)行的,需要Action算子觸發(fā)才能執(zhí)行,主要是為了對數(shù)據(jù)進行緩存,當有Action算子出現(xiàn)時,他才會真正的執(zhí)行。例如:創(chuàng)建了一個視圖,他并不是把查詢好的數(shù)據(jù)放入視圖了,而是當你需要這些數(shù)據(jù)時,查看視圖時,他才執(zhí)行定義視圖時候的SQL語句。

spark RDD操作基礎系列課程將帶著大家一一學習這些算子的使用。

5. pyspark的模塊介紹

pyspark模塊

這個模塊是最基礎的模塊,里面實現(xiàn)了最基礎的編寫Spark作業(yè)的API。這個模塊里面有以下內(nèi)容:

  • SparkContext:它是編寫Spark程序的主入口
  • RDD:分布式彈性數(shù)據(jù)集,是Spark內(nèi)部中最重要的抽象
  • Broadcast:在各個任務中重復使用的廣播變量
  • SparkConf:一個配置對象,用來對Spark中例如資源、內(nèi)核個數(shù)、提交模式等的配置
  • SparkFiles:文件訪問API
  • StorageLevel:提供細粒度的對于數(shù)據(jù)的緩存、持久化級別
  • TaskContext:實驗性質(zhì)API,用于獲取運行中任務的上下文信息
pyspark.sql模塊

這個模塊是架構(gòu)在RDD之上的高級模塊,提供了SQL的支持,它包括以下內(nèi)容:

  • SparkSession:SparkSQL的主入口,其內(nèi)部調(diào)用的仍然是SparkContext
  • DataFrame:分布式的結(jié)構(gòu)化數(shù)據(jù)集,最終的計算其實仍然轉(zhuǎn)換為RDD的計算
  • Column:DataFrame中的列
  • Row:DataFrame中的行
  • GroupedData:這里提供聚合數(shù)據(jù)的一些方法
  • DataFrameNaFunctions:處理缺失數(shù)據(jù)的方法
  • DataFrameStatFunctions:提供統(tǒng)計數(shù)據(jù)的一些方法
  • functions:內(nèi)建的可用于DataFrame的方法
  • types:可用的數(shù)據(jù)類型
  • Window:提供窗口函數(shù)的支持
pyspark.streaming

這個模塊主要是用來處理流數(shù)據(jù),從外部的消息中間件如kafka,flume或者直接從網(wǎng)絡接收數(shù)據(jù),來進行實時的流數(shù)據(jù)處理。其內(nèi)部會將接收到的數(shù)據(jù)轉(zhuǎn)換為DStream,DStream的內(nèi)部實際上就是RDD。pyspark.streaming對流數(shù)據(jù)的支持還不是很完善,不如原生的Scala語言和Java語言。

pyspark.ml

這個模塊主要是做機器學習的,里面實現(xiàn)了很多機器學習算法,包括分類、回歸、聚類、推薦。這個的內(nèi)容我們會囊括最主要的機器學習算法。pyspark.ml這個模塊現(xiàn)已經(jīng)成為主要的機器學習模塊,其內(nèi)部實現(xiàn)是基于DataFrame數(shù)據(jù)框。

pyspark.mllib

這個模塊也是做機器學習的,但是這個模塊底層使用的RDD,RDD在性能上優(yōu)化的余地較少,因此現(xiàn)在最新的機器學習算法都是用基于DataFrame的API來實現(xiàn)。但這個模塊里面也有很多有用的機器學習算法,我們可以適當?shù)陌淹嬉幌隆?/p>

?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請聯(lián)系作者
平臺聲明:文章內(nèi)容(如有圖片或視頻亦包括在內(nèi))由作者上傳并發(fā)布,文章內(nèi)容僅代表作者本人觀點,簡書系信息發(fā)布平臺,僅提供信息存儲服務。
  • 序言:七十年代末,一起剝皮案震驚了整個濱河市,隨后出現(xiàn)的幾起案子,更是在濱河造成了極大的恐慌,老刑警劉巖,帶你破解...
    沈念sama閱讀 230,825評論 6 546
  • 序言:濱河連續(xù)發(fā)生了三起死亡事件,死亡現(xiàn)場離奇詭異,居然都是意外死亡,警方通過查閱死者的電腦和手機,發(fā)現(xiàn)死者居然都...
    沈念sama閱讀 99,814評論 3 429
  • 文/潘曉璐 我一進店門,熙熙樓的掌柜王于貴愁眉苦臉地迎上來,“玉大人,你說我怎么就攤上這事。” “怎么了?”我有些...
    開封第一講書人閱讀 178,980評論 0 384
  • 文/不壞的土叔 我叫張陵,是天一觀的道長。 經(jīng)常有香客問我,道長,這世上最難降的妖魔是什么? 我笑而不...
    開封第一講書人閱讀 64,064評論 1 319
  • 正文 為了忘掉前任,我火速辦了婚禮,結(jié)果婚禮上,老公的妹妹穿的比我還像新娘。我一直安慰自己,他們只是感情好,可當我...
    茶點故事閱讀 72,779評論 6 414
  • 文/花漫 我一把揭開白布。 她就那樣靜靜地躺著,像睡著了一般。 火紅的嫁衣襯著肌膚如雪。 梳的紋絲不亂的頭發(fā)上,一...
    開封第一講書人閱讀 56,109評論 1 330
  • 那天,我揣著相機與錄音,去河邊找鬼。 笑死,一個胖子當著我的面吹牛,可吹牛的內(nèi)容都是我干的。 我是一名探鬼主播,決...
    沈念sama閱讀 44,099評論 3 450
  • 文/蒼蘭香墨 我猛地睜開眼,長吁一口氣:“原來是場噩夢啊……” “哼!你這毒婦竟也來了?” 一聲冷哼從身側(cè)響起,我...
    開封第一講書人閱讀 43,287評論 0 291
  • 序言:老撾萬榮一對情侶失蹤,失蹤者是張志新(化名)和其女友劉穎,沒想到半個月后,有當?shù)厝嗽跇淞掷锇l(fā)現(xiàn)了一具尸體,經(jīng)...
    沈念sama閱讀 49,799評論 1 338
  • 正文 獨居荒郊野嶺守林人離奇死亡,尸身上長有42處帶血的膿包…… 初始之章·張勛 以下內(nèi)容為張勛視角 年9月15日...
    茶點故事閱讀 41,515評論 3 361
  • 正文 我和宋清朗相戀三年,在試婚紗的時候發(fā)現(xiàn)自己被綠了。 大學時的朋友給我發(fā)了我未婚夫和他白月光在一起吃飯的照片。...
    茶點故事閱讀 43,750評論 1 375
  • 序言:一個原本活蹦亂跳的男人離奇死亡,死狀恐怖,靈堂內(nèi)的尸體忽然破棺而出,到底是詐尸還是另有隱情,我是刑警寧澤,帶...
    沈念sama閱讀 39,221評論 5 365
  • 正文 年R本政府宣布,位于F島的核電站,受9級特大地震影響,放射性物質(zhì)發(fā)生泄漏。R本人自食惡果不足惜,卻給世界環(huán)境...
    茶點故事閱讀 44,933評論 3 351
  • 文/蒙蒙 一、第九天 我趴在偏房一處隱蔽的房頂上張望。 院中可真熱鬧,春花似錦、人聲如沸。這莊子的主人今日做“春日...
    開封第一講書人閱讀 35,327評論 0 28
  • 文/蒼蘭香墨 我抬頭看了看天上的太陽。三九已至,卻和暖如春,著一層夾襖步出監(jiān)牢的瞬間,已是汗流浹背。 一陣腳步聲響...
    開封第一講書人閱讀 36,667評論 1 296
  • 我被黑心中介騙來泰國打工, 沒想到剛下飛機就差點兒被人妖公主榨干…… 1. 我叫王不留,地道東北人。 一個月前我還...
    沈念sama閱讀 52,492評論 3 400
  • 正文 我出身青樓,卻偏偏與公主長得像,于是被迫代替她去往敵國和親。 傳聞我的和親對象是個殘疾皇子,可洞房花燭夜當晚...
    茶點故事閱讀 48,703評論 2 380

推薦閱讀更多精彩內(nèi)容