Spark編程快速入門

本教程基于Spark官網的快速入門教程改編而來,官方文檔和中文翻譯的傳送門見最下方。(注意,實際情況可能因為版本不同等原因有所不同)

如果對本文中的一些名詞感到疑惑,可以看另外一篇入門文章:五分鐘大數據:Spark入門

關鍵字:

使用 Spark Shell 進行交互式分析


啟動

Spark提供了一個學習API的簡單方式,就是Spark shell——同時也是一個強大數據交互式分析工具。基于scala和python的Spark shell的啟動方式如下:

Scala:./bin/spark-shell

Python:./bin/pyspark

注意,使用上面的方式登錄,實現要把目錄切換到Spark的安裝目錄下;如果已經配置好SPARK_HOME,那么也可以直接spark-shell或者pyspark啟動

讀取文件

Spark 的主要抽象是一個稱為 Dataset 的分布式的 item 集合。Datasets 可以從 Hadoop 的 InputFormats(例如 HDFS文件)或者通過其它的 Datasets 轉換來創建。

從外部讀取文件

Scala:

scala>val textFile = spark.read.textFile("README.md")

Python:

>>> textFile = spark.read.text("README.md")

處理Dataset(1):統計含有“Spark”的行數

Scala版:

scala> textFile.count() //計數

scala> textFile.first() //顯示第一行

scala> val linesWithSpark = textFile.filter(line => line.contains("Spark")) //過濾出所需列,transform操作返回一個新的Dataset

scala> textFile.filter(line => line.contains("Spark")).count() //鏈式操作transform和action,返回所有含有"Spark"的行數

Python版:

>>> textFile.count()?

>>> textFile.first()

>>> linesWithSpark = textFile.filter(textFile.value.contains("Spark"))

>>> textFile.filter(textFile.value.contains("Spark")).count()

處理Dataset(2):統計一行中的單詞最大數

Scala版

scala>?textFile.map(line => line.split(" ").size).reduce((a, b) => if (a > b) a else b)

//方法2:

scala>?import java.lang.Math

scala>?textFile.map(line => line.split(" ").size).reduce((a, b) => Math.max(a, b))

Python版

>>> from pyspark.sql.functions import *

>>> textFile.select(size(split(textFile.value, "\s+")).name("numWords")).agg(max(col("numWords"))).collect()

處理Dataset(3):實現mapreduce中的wordcount

Scala版

scala> val wordCounts = textFile.flatMap(line => line.split(" ")).groupByKey(identity).count()

scala> wordCounts.collect()

Python版

>>> wordCounts = textFile.select(explode(split(textFile.value, "\s+")).as("word")).groupBy("word").count()

>>> wordCounts.collect()

處理Dataset(4):使用緩存

因為Spark是基于內存的運算,所以速度要比基于硬盤的MapReduce快很多;為了高效使用內存,Spark會將已經使用過的空間回收,但是有一些數據,我們想要重復使用,這時候我們就可以用到緩存技術,直接使用之前的計算結果。

Scala

scala> linesWithSpark.cache()

Python

>>> linesWithSpark.cache()

這里同時列出Scala和Python的實現方式,是為了大家更好的對比。需要注意的是,很多在Scala里的api,在python里都是不存在的,或者形式是完全不同的,因為python有自己的方法來處理。

獨立的應用


學習完交互式探索之后,我們再來看一下獨立的Spark應用如何去做。下面的demo的作用是統計一行中“a”“b”出現的次數。

代碼編寫

Scala版

/* SimpleApp.scala */

import org.apache.spark.sql.SparkSession

object SimpleApp {

? def main(args: Array[String]) {

? ? val logFile = "YOUR_SPARK_HOME/README.md"?

? ? val spark = SparkSession.builder.appName("Simple Application").getOrCreate() //首先需要建立與spark的連接

? ? val logData = spark.read.textFile(logFile).cache()

? ? val numAs = logData.filter(line => line.contains("a")).count()

? ? val numBs = logData.filter(line => line.contains("b")).count()

? ? println(s"Lines with a: $numAs, Lines with b: $numBs")

? ? spark.stop() //最后需要停止與spark的連接

? }

}

Python版

"""SimpleApp.py"""

from pyspark.sql import SparkSession

logFile = "YOUR_SPARK_HOME/README.md" ?

spark = SparkSession.builder().appName(appName).master(master).getOrCreate() #建立與spark的連接

logData = spark.read.text(logFile).cache()

numAs = logData.filter(logData.value.contains('a')).count()

numBs = logData.filter(logData.value.contains('b')).count()

print("Lines with a: %i, lines with b: %i" % (numAs, numBs))

spark.stop() ?#停止與spark的連接

任務提交

完成獨立程序的編程之后,接下來就要將任務提交到spark來執行,執行的方法如下:

# Scala 使用 run-example:

./bin/run-example SparkPi

# Python 使用 spark-submit:

./bin/spark-submit examples/src/main/python/pi.py


文集

Spark:理論與實踐

文章

五分鐘大數據:Spark入門

Spark編程快速入門

Spark難點解析:Join實現原理

可視化發現Spark數據傾斜


補充資源

官方文檔:http://spark.apache.org/docs/latest/quick-start.html

官方文檔中文版:http://spark.apachecn.org/docs/cn/2.2.0/quick-start.html

最后編輯于
?著作權歸作者所有,轉載或內容合作請聯系作者
平臺聲明:文章內容(如有圖片或視頻亦包括在內)由作者上傳并發布,文章內容僅代表作者本人觀點,簡書系信息發布平臺,僅提供信息存儲服務。
  • 序言:七十年代末,一起剝皮案震驚了整個濱河市,隨后出現的幾起案子,更是在濱河造成了極大的恐慌,老刑警劉巖,帶你破解...
    沈念sama閱讀 230,527評論 6 544
  • 序言:濱河連續發生了三起死亡事件,死亡現場離奇詭異,居然都是意外死亡,警方通過查閱死者的電腦和手機,發現死者居然都...
    沈念sama閱讀 99,687評論 3 429
  • 文/潘曉璐 我一進店門,熙熙樓的掌柜王于貴愁眉苦臉地迎上來,“玉大人,你說我怎么就攤上這事。” “怎么了?”我有些...
    開封第一講書人閱讀 178,640評論 0 383
  • 文/不壞的土叔 我叫張陵,是天一觀的道長。 經常有香客問我,道長,這世上最難降的妖魔是什么? 我笑而不...
    開封第一講書人閱讀 63,957評論 1 318
  • 正文 為了忘掉前任,我火速辦了婚禮,結果婚禮上,老公的妹妹穿的比我還像新娘。我一直安慰自己,他們只是感情好,可當我...
    茶點故事閱讀 72,682評論 6 413
  • 文/花漫 我一把揭開白布。 她就那樣靜靜地躺著,像睡著了一般。 火紅的嫁衣襯著肌膚如雪。 梳的紋絲不亂的頭發上,一...
    開封第一講書人閱讀 56,011評論 1 329
  • 那天,我揣著相機與錄音,去河邊找鬼。 笑死,一個胖子當著我的面吹牛,可吹牛的內容都是我干的。 我是一名探鬼主播,決...
    沈念sama閱讀 44,009評論 3 449
  • 文/蒼蘭香墨 我猛地睜開眼,長吁一口氣:“原來是場噩夢啊……” “哼!你這毒婦竟也來了?” 一聲冷哼從身側響起,我...
    開封第一講書人閱讀 43,183評論 0 290
  • 序言:老撾萬榮一對情侶失蹤,失蹤者是張志新(化名)和其女友劉穎,沒想到半個月后,有當地人在樹林里發現了一具尸體,經...
    沈念sama閱讀 49,714評論 1 336
  • 正文 獨居荒郊野嶺守林人離奇死亡,尸身上長有42處帶血的膿包…… 初始之章·張勛 以下內容為張勛視角 年9月15日...
    茶點故事閱讀 41,435評論 3 359
  • 正文 我和宋清朗相戀三年,在試婚紗的時候發現自己被綠了。 大學時的朋友給我發了我未婚夫和他白月光在一起吃飯的照片。...
    茶點故事閱讀 43,665評論 1 374
  • 序言:一個原本活蹦亂跳的男人離奇死亡,死狀恐怖,靈堂內的尸體忽然破棺而出,到底是詐尸還是另有隱情,我是刑警寧澤,帶...
    沈念sama閱讀 39,148評論 5 365
  • 正文 年R本政府宣布,位于F島的核電站,受9級特大地震影響,放射性物質發生泄漏。R本人自食惡果不足惜,卻給世界環境...
    茶點故事閱讀 44,838評論 3 350
  • 文/蒙蒙 一、第九天 我趴在偏房一處隱蔽的房頂上張望。 院中可真熱鬧,春花似錦、人聲如沸。這莊子的主人今日做“春日...
    開封第一講書人閱讀 35,251評論 0 28
  • 文/蒼蘭香墨 我抬頭看了看天上的太陽。三九已至,卻和暖如春,著一層夾襖步出監牢的瞬間,已是汗流浹背。 一陣腳步聲響...
    開封第一講書人閱讀 36,588評論 1 295
  • 我被黑心中介騙來泰國打工, 沒想到剛下飛機就差點兒被人妖公主榨干…… 1. 我叫王不留,地道東北人。 一個月前我還...
    沈念sama閱讀 52,379評論 3 400
  • 正文 我出身青樓,卻偏偏與公主長得像,于是被迫代替她去往敵國和親。 傳聞我的和親對象是個殘疾皇子,可洞房花燭夜當晚...
    茶點故事閱讀 48,627評論 2 380