使用 Spark Shell 進行交互式分析

啟動

Spark提供了一個學習API的簡單方式，就是Spark shell——同時也是一個強大數據交互式分析工具。基于scala和python的Spark shell的啟動方式如下：

Scala：./bin/spark-shell

Python：./bin/pyspark

注意，使用上面的方式登錄，實現要把目錄切換到Spark的安裝目錄下；如果已經配置好SPARK_HOME，那么也可以直接spark-shell或者pyspark啟動

讀取文件

Spark 的主要抽象是一個稱為 Dataset 的分布式的 item 集合。Datasets 可以從 Hadoop 的 InputFormats（例如 HDFS文件）或者通過其它的 Datasets 轉換來創建。

從外部讀取文件

Scala：

scala>val textFile = spark.read.textFile("README.md")

Python：

>>> textFile = spark.read.text("README.md")

處理Dataset（1）：統計含有“Spark”的行數

Scala版：

scala> textFile.count() //計數

scala> textFile.first() //顯示第一行

scala> val linesWithSpark = textFile.filter(line => line.contains("Spark")) //過濾出所需列，transform操作返回一個新的Dataset

scala> textFile.filter(line => line.contains("Spark")).count() //鏈式操作transform和action，返回所有含有"Spark"的行數

Python版：

>>> textFile.count()?

>>> textFile.first()

>>> linesWithSpark = textFile.filter(textFile.value.contains("Spark"))

>>> textFile.filter(textFile.value.contains("Spark")).count()

處理Dataset（2）：統計一行中的單詞最大數

Scala版

scala>?textFile.map(line => line.split(" ").size).reduce((a, b) => if (a > b) a else b)

//方法2：

scala>?import java.lang.Math

scala>?textFile.map(line => line.split(" ").size).reduce((a, b) => Math.max(a, b))

Python版

>>> from pyspark.sql.functions import *

>>> textFile.select(size(split(textFile.value, "\s+")).name("numWords")).agg(max(col("numWords"))).collect()

處理Dataset（3）：實現mapreduce中的wordcount

Scala版

scala> val wordCounts = textFile.flatMap(line => line.split(" ")).groupByKey(identity).count()

scala> wordCounts.collect()

Python版

>>> wordCounts = textFile.select(explode(split(textFile.value, "\s+")).as("word")).groupBy("word").count()

>>> wordCounts.collect()

處理Dataset（4）：使用緩存

因為Spark是基于內存的運算，所以速度要比基于硬盤的MapReduce快很多；為了高效使用內存，Spark會將已經使用過的空間回收，但是有一些數據，我們想要重復使用，這時候我們就可以用到緩存技術，直接使用之前的計算結果。

Scala

scala> linesWithSpark.cache()

Python

>>> linesWithSpark.cache()

這里同時列出Scala和Python的實現方式，是為了大家更好的對比。需要注意的是，很多在Scala里的api，在python里都是不存在的，或者形式是完全不同的，因為python有自己的方法來處理。

獨立的應用

學習完交互式探索之后，我們再來看一下獨立的Spark應用如何去做。下面的demo的作用是統計一行中“a”“b”出現的次數。

代碼編寫

Scala版

/* SimpleApp.scala */

import org.apache.spark.sql.SparkSession

object SimpleApp {

? def main(args: Array[String]) {

? ? val logFile = "YOUR_SPARK_HOME/README.md"?

? ? val spark = SparkSession.builder.appName("Simple Application").getOrCreate() //首先需要建立與spark的連接

? ? val logData = spark.read.textFile(logFile).cache()

? ? val numAs = logData.filter(line => line.contains("a")).count()

? ? val numBs = logData.filter(line => line.contains("b")).count()

? ? println(s"Lines with a: $numAs, Lines with b: $numBs")

? ? spark.stop() //最后需要停止與spark的連接

? }

}

Python版

"""SimpleApp.py"""

from pyspark.sql import SparkSession

logFile = "YOUR_SPARK_HOME/README.md" ?

spark = SparkSession.builder().appName(appName).master(master).getOrCreate() #建立與spark的連接

logData = spark.read.text(logFile).cache()

numAs = logData.filter(logData.value.contains('a')).count()

numBs = logData.filter(logData.value.contains('b')).count()

print("Lines with a: %i, lines with b: %i" % (numAs, numBs))

spark.stop() ?#停止與spark的連接