pyspark_1_理論篇(RDD基礎)

跟著Leo學習PySpark

chapter1——rdd的基礎編程指南

一、準備工作

1. 背景介紹

Spark是用scala編程語言實現(xiàn)的，為了使Spark支持Python，Apache Spark社區(qū)發(fā)布了一個工具PySpark。使用PySpark，您可以使用Python編程
語言處理RDD。方便地進行數(shù)據(jù)處理與數(shù)據(jù)分析。有關Spark更深層次的理論，本系列課程不會過深涉及。這里會由淺入深，全面且細致的為大家講解各種
PySpark API的用法，大量的示例，以及來自一線大廠的PySpark的使用經(jīng)驗與踩坑記錄，無論您是菜鳥還是老鳥，相信您從中都會吸取大量精華。

2. 軟件版本

PySpark(Spark) 2.4.3，本系列課程基于目前最新版本的Spark，而且Spark2.x也早已被大量用于生產(chǎn)環(huán)境中。
Python2.7.5 Spark 2.4.3適用于Python 2.7+或Python 3.4+。但在Spark 2.2.0中刪除了對Python 2.6的支持。雖然說截至20年，Python2將停止維護，但當前Python2依舊應用非常廣泛，個人認為其生態(tài)比Python3的生態(tài)要好。所以大家可以放心使用。其實對于spark的操作來說，Python2與Python3的差異并不明顯。

3. 開發(fā)環(huán)境準備

本課程代碼RDD，spark-sql、DataFrame的操作將使用Jupyter Notebook編寫。關于jupyter的使用，網(wǎng)上有大量資料可供參考。
當然你也可以選擇您喜歡的IDE，這里筆者推薦PyCharam
作為練習階段使用，您可以不用準備集群環(huán)境，或本地偽分布式的環(huán)境，很多API的測試，本地一樣可以執(zhí)行。后期將為大家講解集群環(huán)境下的PySpark運行示例，以及線上作業(yè)提交，資源調(diào)配、作業(yè)監(jiān)控等。
操作系統(tǒng)，筆者的開發(fā)環(huán)境為macOS
pycharm新建一個空項目，pip install pyspark 安裝pyspark的模塊，然后大家就可以愉快地進行開發(fā)了。

二、Spark中的一些重要概念

1. 什么是RDD

Spark是圍繞RDD這個核心概念來展開的，RDD，官方給出的解釋是，彈性分布式數(shù)據(jù)集，是可以并行操作的容錯集合。它是Spark的基礎數(shù)據(jù)結(jié)構(gòu)，表現(xiàn)形式為不可變的分區(qū)元素的集合，且可以在集群中并行操作。我們可以從現(xiàn)有并行化驅(qū)動程序中的集合，或引用外部存儲系統(tǒng)（例如：文件系統(tǒng)、HDFS、HBase等數(shù)據(jù)源）來創(chuàng)建一個RDD。

說白了，RDD的數(shù)據(jù)的一種抽象、映射。Spark要想處理我們需要處理的數(shù)據(jù)集，數(shù)據(jù)集必須先轉(zhuǎn)換成RDD這種數(shù)據(jù)結(jié)構(gòu)，然后經(jīng)過一系列轉(zhuǎn)換操作，最終得到我們想要的結(jié)果。

2. RDD的特性

容錯性。在節(jié)點故障導致丟失或分區(qū)損壞時，可以重新計算數(shù)據(jù)。
被分區(qū)的，數(shù)據(jù)被分為多個分區(qū)，每個分區(qū)分布在集群中的不同節(jié)點上，從而讓RDD中的數(shù)據(jù)可以被并行操作
可序列化，RDD可以cache到內(nèi)存中，可以避免昂貴的IO操作，只有當內(nèi)存資源不夠的時候，才會把數(shù)據(jù)寫入磁盤。

3. Spark的編程模型

RDD被表示為對象——>通過對象上的方法調(diào)用實現(xiàn)對RDD的轉(zhuǎn)換操作(Transformation)——>輸出結(jié)果或向存儲系統(tǒng)中保存數(shù)據(jù)(只有遇到Action算子，才會執(zhí)行RDD的計算，也即懶執(zhí)行)

4. Spark中的算子分類

Transformation（轉(zhuǎn)換）: 根據(jù)數(shù)據(jù)集創(chuàng)建一個新的數(shù)據(jù)集，計算后返回一個新的RDD，例如：map。
Action（動作）：對RDD結(jié)果計算后返回一個數(shù)值value給驅(qū)動程序。例如：collect算子將數(shù)據(jù)集的所有元素收集完后返回給驅(qū)動程序。
控制：Spark中控制算子也是懶執(zhí)行的，需要Action算子觸發(fā)才能執(zhí)行，主要是為了對數(shù)據(jù)進行緩存。。當有Action算子出現(xiàn)時，他才會真正的執(zhí)行Spark中控制算子也是懶執(zhí)行的，需要Action算子觸發(fā)才能執(zhí)行，主要是為了對數(shù)據(jù)進行緩存，當有Action算子出現(xiàn)時，他才會真正的執(zhí)行。例如：創(chuàng)建了一個視圖，他并不是把查詢好的數(shù)據(jù)放入視圖了，而是當你需要這些數(shù)據(jù)時，查看視圖時，他才執(zhí)行定義視圖時候的SQL語句。

spark RDD操作基礎系列課程將帶著大家一一學習這些算子的使用。

5. pyspark的模塊介紹

pyspark模塊

這個模塊是最基礎的模塊，里面實現(xiàn)了最基礎的編寫Spark作業(yè)的API。這個模塊里面有以下內(nèi)容：

SparkContext：它是編寫Spark程序的主入口
RDD：分布式彈性數(shù)據(jù)集，是Spark內(nèi)部中最重要的抽象
Broadcast：在各個任務中重復使用的廣播變量
SparkConf：一個配置對象，用來對Spark中例如資源、內(nèi)核個數(shù)、提交模式等的配置
SparkFiles：文件訪問API
StorageLevel：提供細粒度的對于數(shù)據(jù)的緩存、持久化級別
TaskContext：實驗性質(zhì)API，用于獲取運行中任務的上下文信息

pyspark.sql模塊

這個模塊是架構(gòu)在RDD之上的高級模塊，提供了SQL的支持，它包括以下內(nèi)容：

SparkSession：SparkSQL的主入口，其內(nèi)部調(diào)用的仍然是SparkContext
DataFrame：分布式的結(jié)構(gòu)化數(shù)據(jù)集，最終的計算其實仍然轉(zhuǎn)換為RDD的計算
Column：DataFrame中的列
Row：DataFrame中的行
GroupedData：這里提供聚合數(shù)據(jù)的一些方法
DataFrameNaFunctions：處理缺失數(shù)據(jù)的方法
DataFrameStatFunctions：提供統(tǒng)計數(shù)據(jù)的一些方法
functions：內(nèi)建的可用于DataFrame的方法
types：可用的數(shù)據(jù)類型
Window：提供窗口函數(shù)的支持

pyspark.streaming

這個模塊主要是用來處理流數(shù)據(jù)，從外部的消息中間件如kafka，flume或者直接從網(wǎng)絡接收數(shù)據(jù)，來進行實時的流數(shù)據(jù)處理。其內(nèi)部會將接收到的數(shù)據(jù)轉(zhuǎn)換為DStream，DStream的內(nèi)部實際上就是RDD。pyspark.streaming對流數(shù)據(jù)的支持還不是很完善，不如原生的Scala語言和Java語言。

pyspark.ml

這個模塊主要是做機器學習的，里面實現(xiàn)了很多機器學習算法，包括分類、回歸、聚類、推薦。這個的內(nèi)容我們會囊括最主要的機器學習算法。pyspark.ml這個模塊現(xiàn)已經(jīng)成為主要的機器學習模塊，其內(nèi)部實現(xiàn)是基于DataFrame數(shù)據(jù)框。

pyspark.mllib

這個模塊也是做機器學習的，但是這個模塊底層使用的RDD，RDD在性能上優(yōu)化的余地較少，因此現(xiàn)在最新的機器學習算法都是用基于DataFrame的API來實現(xiàn)。但這個模塊里面也有很多有用的機器學習算法，我們可以適當?shù)陌淹嬉幌隆?/p>

?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請聯(lián)系作者
平臺聲明：文章內(nèi)容（如有圖片或視頻亦包括在內(nèi)）由作者上傳并發(fā)布，文章內(nèi)容僅代表作者本人觀點，簡書系信息發(fā)布平臺，僅提供信息存儲服務。

人面猴
序言：七十年代末，一起剝皮案震驚了整個濱河市，隨后出現(xiàn)的幾起案子，更是在濱河造成了極大的恐慌，老刑警劉巖，帶你破解...
沈念sama閱讀 230,825評論 6贊 546
死咒
序言：濱河連續(xù)發(fā)生了三起死亡事件，死亡現(xiàn)場離奇詭異，居然都是意外死亡，警方通過查閱死者的電腦和手機，發(fā)現(xiàn)死者居然都...
沈念sama閱讀 99,814評論 3贊 429
救了他兩次的神仙讓他今天三更去死
文/潘曉璐我一進店門，熙熙樓的掌柜王于貴愁眉苦臉地迎上來，“玉大人，你說我怎么就攤上這事。” “怎么了？”我有些...
開封第一講書人閱讀 178,980評論 0贊 384
道士緝兇錄：失蹤的賣姜人
文/不壞的土叔我叫張陵，是天一觀的道長。經(jīng)常有香客問我，道長，這世上最難降的妖魔是什么？我笑而不...
開封第一講書人閱讀 64,064評論 1贊 319
?港島之戀（遺憾婚禮）
正文為了忘掉前任，我火速辦了婚禮，結(jié)果婚禮上，老公的妹妹穿的比我還像新娘。我一直安慰自己，他們只是感情好，可當我...
茶點故事閱讀 72,779評論 6贊 414
惡毒庶女頂嫁案：這布局不是一般人想出來的
文/花漫我一把揭開白布。她就那樣靜靜地躺著，像睡著了一般。火紅的嫁衣襯著肌膚如雪。梳的紋絲不亂的頭發(fā)上，一...
開封第一講書人閱讀 56,109評論 1贊 330
城市分裂傳說
那天，我揣著相機與錄音，去河邊找鬼。笑死，一個胖子當著我的面吹牛，可吹牛的內(nèi)容都是我干的。我是一名探鬼主播，決...
沈念sama閱讀 44,099評論 3贊 450
雙鴛鴦連環(huán)套：你想象不到人心有多黑
文/蒼蘭香墨我猛地睜開眼，長吁一口氣：“原來是場噩夢啊……” “哼！你這毒婦竟也來了？” 一聲冷哼從身側(cè)響起，我...
開封第一講書人閱讀 43,287評論 0贊 291
萬榮殺人案實錄
序言：老撾萬榮一對情侶失蹤，失蹤者是張志新（化名）和其女友劉穎，沒想到半個月后，有當?shù)厝嗽跇淞掷锇l(fā)現(xiàn)了一具尸體，經(jīng)...
沈念sama閱讀 49,799評論 1贊 338
?護林員之死
正文獨居荒郊野嶺守林人離奇死亡，尸身上長有42處帶血的膿包…… 初始之章·張勛以下內(nèi)容為張勛視角年9月15日...
茶點故事閱讀 41,515評論 3贊 361
?白月光啟示錄
正文我和宋清朗相戀三年，在試婚紗的時候發(fā)現(xiàn)自己被綠了。大學時的朋友給我發(fā)了我未婚夫和他白月光在一起吃飯的照片。...
茶點故事閱讀 43,750評論 1贊 375
活死人
序言：一個原本活蹦亂跳的男人離奇死亡，死狀恐怖，靈堂內(nèi)的尸體忽然破棺而出，到底是詐尸還是另有隱情，我是刑警寧澤，帶...
沈念sama閱讀 39,221評論 5贊 365
?日本核電站爆炸內(nèi)幕
正文年R本政府宣布，位于F島的核電站，受9級特大地震影響，放射性物質(zhì)發(fā)生泄漏。R本人自食惡果不足惜，卻給世界環(huán)境...
茶點故事閱讀 44,933評論 3贊 351
男人毒藥：我在死后第九天來索命
文/蒙蒙一、第九天我趴在偏房一處隱蔽的房頂上張望。院中可真熱鬧，春花似錦、人聲如沸。這莊子的主人今日做“春日...
開封第一講書人閱讀 35,327評論 0贊 28
一樁弒父案，背后竟有這般陰謀
文/蒼蘭香墨我抬頭看了看天上的太陽。三九已至，卻和暖如春，著一層夾襖步出監(jiān)牢的瞬間，已是汗流浹背。一陣腳步聲響...
開封第一講書人閱讀 36,667評論 1贊 296
情欲美人皮
我被黑心中介騙來泰國打工，沒想到剛下飛機就差點兒被人妖公主榨干…… 1. 我叫王不留，地道東北人。一個月前我還...
沈念sama閱讀 52,492評論 3贊 400
代替公主和親
正文我出身青樓，卻偏偏與公主長得像，于是被迫代替她去往敵國和親。傳聞我的和親對象是個殘疾皇子，可洞房花燭夜當晚...
茶點故事閱讀 48,703評論 2贊 380

三个男躁一个女,国精产品一区一手机的秘密,麦子交换系列最经典十句话,欧美国产综合欧美视频

pyspark_1_理論篇(RDD基礎)

pyspark_1_理論篇(RDD基礎)

跟著Leo學習PySpark

chapter1——rdd的基礎編程指南

一、準備工作

1. 背景介紹

2. 軟件版本

3. 開發(fā)環(huán)境準備

二、Spark中的一些重要概念

1. 什么是RDD

2. RDD的特性

3. Spark的編程模型

4. Spark中的算子分類

5. pyspark的模塊介紹

pyspark模塊

pyspark.sql模塊

pyspark.streaming

pyspark.ml

pyspark.mllib

推薦閱讀更多精彩內(nèi)容

三个男躁一个女,国精产品一区一手机的秘密,麦子交换系列最经典十句话,欧美 国产 综合 欧美 视频

pyspark_1_理論篇(RDD基礎)

跟著Leo學習PySpark

chapter1——rdd的基礎編程指南

一、準備工作

1. 背景介紹

2. 軟件版本

3. 開發(fā)環(huán)境準備

二、Spark中的一些重要概念

1. 什么是RDD

2. RDD的特性

3. Spark的編程模型

4. Spark中的算子分類

5. pyspark的模塊介紹

pyspark模塊

pyspark.sql模塊

pyspark.streaming

pyspark.ml

pyspark.mllib

推薦閱讀更多精彩內(nèi)容

三个男躁一个女,国精产品一区一手机的秘密,麦子交换系列最经典十句话,欧美国产综合欧美视频