Spark SQL 教程

一、什么是Spark SQL

Spark SQL是Spark用來處理結構化數據的一個模塊，它提供了兩個編程抽象分別叫做DataFrame和DataSet，它們用于作為分布式SQL查詢引擎。從下圖可以查看RDD、DataFrames與DataSet的關系。

image

二、為什么要學習Spark SQL？

我們已經學習了Hive，它是將Hive SQL轉換成MapReduce然后提交到集群上執行，大大簡化了編寫MapReduce的程序的復雜性，由于MapReduce這種計算模型執行效率比較慢。所以Spark SQL的應運而生，它是將Spark SQL轉換成RDD，然后提交到集群執行，執行效率非常快！所以我們類比的理解：Hive---SQL-->MapReduce，Spark SQL---SQL-->RDD。都是一種解析傳統SQL到大數據運算模型的引擎，屬于數據分析的范圍。

三、什么是DataFrame和DataSet?

首先，最簡單的理解我們可以認為DataFrame就是Spark中的數據表（類比傳統數據庫），DataFrame的結構如下：

DataFrame（表）= Schema（表結構） + Data（表數據）

總結：DataFrame（表）是Spark SQL對結構化數據的抽象。可以將DataFrame看做RDD。

DataFrame

DataFrame是組織成命名列的數據集。它在概念上等同于關系數據庫中的表，但在底層具有更豐富的優化。DataFrames可以從各種來源構建，

例如：

結構化數據文件(JSON)
外部數據庫或現有RDDs

DataFrame API支持的語言有Scala，Java，Python和R。

image

從上圖可以看出，DataFrame相比RDD多了數據的結構信息，即schema。RDD是分布式的 Java對象的集合。DataFrame是分布式的Row對象的集合。DataFrame除了提供了比RDD更豐富的算子以外，更重要的特點是提升執行效率、減少數據讀取以及執行計劃的優化。

DataSet

Dataset是數據的分布式集合。Dataset是在Spark 1.6中添加的一個新接口，是DataFrame之上更高一級的抽象。它提供了RDD的優點（強類型化）以及Spark SQL優化后的執行引擎的優點。一個Dataset 可以從JVM對象構造，然后使用函數轉換（map， flatMap，filter等）去操作。 Dataset API 支持Scala和Java。 Python不支持Dataset API。

四、測試數據

我們使用2個csv文件作為部分測試數據：

dept.csv信息：

10,ACCOUNTING,NEW YORK
20,RESEARCH,DALLAS
30,SALES,CHICAGO
40,OPERATIONS,BOSTON

emp.csv信息：

7369,SMITH,CLERK,7902,1980/12/17,800,,20
7499,ALLEN,SALESMAN,7698,1981/2/20,1600,300,30
7521,WARD,SALESMAN,7698,1981/2/22,1250,500,30
7566,JONES,MANAGER,7839,1981/4/2,2975,,20
7654,MARTIN,SALESMAN,7698,1981/9/28,1250,1400,30
7698,BLAKE,MANAGER,7839,1981/5/1,2850,,30
7782,CLARK,MANAGER,7839,1981/6/9,2450,,10
7788,SCOTT,ANALYST,7566,1987/4/19,3000,,20
7839,KING,PRESIDENT,,1981/11/17,5000,,10
7844,TURNER,SALESMAN,7698,1981/9/8,1500,0,30
7876,ADAMS,CLERK,7788,1987/5/23,1100,,20
7900,JAMES,CLERK,7698,1981/12/3,950,,30
7902,FORD,ANALYST,7566,1981/12/3,3000,,20
7934,MILLER,CLERK,7782,1982/1/23,1300,,10

將這2個csv文件put到HDFS的hdfs://bigdata111:9000/input/csvFiles/目錄以便后面使用

[root@bigdata111 ~]# hdfs dfs -ls /input/csvFiles
Found 2 items
-rw-r--r--   1 root supergroup         84 2018-06-15 13:40 /input/csvFiles/dept.csv
-rw-r--r--   1 root supergroup        617 2018-06-15 13:40 /input/csvFiles/emp.csv

五、創建DataFrame

前提：在集群模式下啟動spark-shell：bin/spark-shell --master spark://bigdata111:7077

image

方式1：使用case class定義表

(1) 定義case class代表表的結構schema
scala>case class Emp(empno:Int,ename:String,job:String,mgr:String,hiredate:String,sal:Int,comm:String,deptno:Int)

(2) 導入emp.csv文件（導入數據）
scala>val lines = sc.textFile("/root/temp/csv/emp.csv").map(_.split(","))//讀取Linux本地數據
或者
scala>val lines = sc.textFile("hdfs://10.30.30.146:9000/input/csvFiles/emp.csv").map(_.split(","))//讀取HDFS數據

(3) 生成表: DataFrame
scala>val allEmp = lines.map(x=>Emp(x(0).toInt,x(1),x(2),x(3),x(4),x(5).toInt,x(6),x(7).toInt))

(4)由allEmp直接生成表
scala>val empDF = allEmp.toDF

(4) 操作: DSL語句
scala>empDF.show         ---->  select * from emp
scala>empDF.printSchema  ---->  desc emp

操作結果：

image

方式2：使用SparkSession對象創建DataFrame

什么是SparkSession?

Apache Spark 2.0引入了SparkSession，其為用戶提供了一個統一的切入點來使用Spark的各項功能，并且允許用戶通過它調用DataFrame和Dataset相關API來編寫Spark程序。最重要的是，它減少了用戶需要了解的一些概念，使得我們可以很容易地與Spark交互。
在2.0版本之前，與Spark交互之前必須先創建SparkConf和SparkContext。然而在Spark 2.0中，我們可以通過SparkSession來實現同樣的功能，而不需要顯式地創建SparkConf, SparkContext 以及 SQLContext，因為這些對象已經封裝在SparkSession中。

通過SparkSession可以訪問Spark所有的模塊!

image

使用Sparksession創建DataFrame過程：

    (2)加載結構化數據
        scala>val lines = sc.textFile("/root/temp/csv/emp.csv").map(_.split(","))//讀取Linux數據
        或者
        scala>val lines = sc.textFile("hdfs://10.30.30.146:9000/input/emp.csv").map(_.split(","))//讀取HDFS數據

        (3) 定義schema：StructType
        scala>import org.apache.spark.sql._
        scala>import org.apache.spark.sql.types._
        scala>val myschema = StructType(List(StructField("empno", DataTypes.IntegerType)
        , StructField("ename", DataTypes.StringType)
        ,StructField("job", DataTypes.StringType)
        ,StructField("mgr", DataTypes.StringType)
        ,StructField("hiredate", DataTypes.StringType)
        ,StructField("sal", DataTypes.IntegerType)
        ,StructField("comm", DataTypes.StringType)
        ,StructField("deptno", DataTypes.IntegerType)))

        (4)把讀入的每一行數據映射成一個個Row
        scala>val rowRDD = lines.map(x=>Row(x(0).toInt,x(1),x(2),x(3),x(4),x(5).toInt,x(6),x(7).toInt))

        (5) 使用SparkSession.createDataFrame創建表
        scala>val df = spark.createDataFrame(rowRDD,myschema)

可以看到df支持的函數很多，其實就是RDD的算子。這里也可以看出DF很像一個RDD。

image

方式3：直接讀取格式化的文件（json,csv）等-最簡單

前提：數據文件本身一定具有格式,這里我們選取json格式的數據，json文件可以使用spark例子中提供的people.json。你也可以使用任意json文件進行操作。
測試數據如下：
[root@bigdata111 resources]# pwd
/root/training/spark-2.1.0-bin-hadoop2.7/examples/src/main/resources
[root@bigdata111 resources]# ls
full_user.avsc  kv1.txt  people.json  people.txt  user.avsc  users.avro  users.parquet
[root@bigdata111 resources]# more people.json 
{"name":"Michael"}
{"name":"Andy", "age":30}
{"name":"Justin", "age":19}

使用SparkSession對象直接讀取Json文件
spark>val peopleDF = spark.read.json("hdfs://bigdata111:9000/input/people.json")
創建完畢DF之后就可以直接查看表的信息，十分的簡單：

六、操作DataFrame(DSL+SQL)

DataFrame操作也稱為無類型的Dataset操作.操作的DataFrame是方法1創建的empDF.

>1.DSL（domain-specific language）操作DataFrame

1.查看所有的員工信息===selec * from empDF;
scala>empDF.show

image

2.查詢所有的員工姓名 ($符號添加不加功能一樣)===select ename,deptno from empDF;
scala>empDF.select("ename","deptno").show
scala>empDF.select([圖片上傳失敗...(image-583b02-1552188416500)]

"deptno").show

image

3.查詢所有的員工姓名和薪水，并給薪水加100塊錢===select ename,sal,sal+100 from empDF;
scala>empDF.select([圖片上傳失敗...(image-596cc8-1552188416500)]

"sal",$"sal"+100).show

image

4.查詢工資大于2000的員工===select * from empDF where sal>2000;
scala>empDF.filter($"sal" > 2000).show

image

5.分組===select deptno,count(*) from empDF group by deptno;
scala>empDF.groupBy([圖片上傳失敗...(image-6d049f-1552188416500)]

"deptno").avg().show
scala>empDF.groupBy($"deptno").max().show

image

2.SQL操作DataFrame

(1)前提條件：需要把DataFrame注冊成是一個Table或者View
scala>empDF.createOrReplaceTempView("emp")

(2)使用SparkSession執行從查詢
scala>spark.sql("select * from emp").show
scala>spark.sql("select * from emp where deptno=10").show

image

(3)求每個部門的工資總額
scala>spark.sql("select deptno,sum(sal) from emp group by deptno").show

image

七、視圖（臨時和全局視圖）

在使用SQL操作DataFrame的時候，有一個前提就是必須通過DF創建一個表或者視圖：empDF.createOrReplaceTempView("emp")

在SparkSQL中，如果你想擁有一個臨時的view，并想在不同的Session中共享，而且在application的運行周期內可用，那么就需要創建一個全局的臨時view。并記得使用的時候加上global_temp作為前綴來引用它，因為全局的臨時view是綁定到系統保留的數據庫global_temp上。

①　創建一個普通的view和一個全局的view
scala>empDF.createOrReplaceTempView("emp1")
scala>empDF.createGlobalTempView("emp2")

image

②　在當前會話中執行查詢，均可查詢出結果。
scala>spark.sql("select * from emp1").show
scala>spark.sql("select * from global_temp.emp2").show

image

③　開啟一個新的會話，執行同樣的查詢
scala>spark.newSession.sql("select * from emp1").show （運行出錯）
scala>spark.newSession.sql("select * from global_temp.emp2").show

image

八、使用數據源

在介紹parquet文件的時候我們使用的是Spark例子文件夾中提供的users.parquet文件：

[root@bigdata111 resources]# pwd
/root/training/spark-2.1.0-bin-hadoop2.7/examples/src/main/resources
[root@bigdata111 resources]# ls
full_user.avsc kv1.txt people.json people.txt temp user.avsc users.avro users.parquet

1、通用的Load/Save函數

（*）什么是parquet文件？
Parquet是列式存儲格式的一種文件類型，列式存儲有以下的核心：

可以跳過不符合條件的數據，只讀取需要的數據，降低IO數據量。
壓縮編碼可以降低磁盤存儲空間。由于同一列的數據類型是一樣的，可以使用更高效的壓縮編碼（例如Run Length Encoding和Delta Encoding）進一步節約存儲空間。
只讀取需要的列，支持向量運算，能夠獲取更好的掃描性能。

Parquet格式是Spark SQL的默認數據源，可通過spark.sql.sources.default配置

（*）通用的Load/Save函數

load函數讀取Parquet文件：scala>val userDF = spark.read.load("hdfs://bigdata111:9000/input/users.parquet")

對比如下語句：

scala>val peopleDF = spark.read.json("hdfs://bigdata111:9000/input/people.json")
scala>val peopleDF = spark.read.format("json").load("hdfs://bigdata111:9000/input/people.json")

查詢Schema和數據:scala>userDF.show

image

save函數保存數據，默認的文件格式：Parquet文件(列式存儲文件)

scala>userDF.select([圖片上傳失敗...(image-7ea1b0-1552188416500)]

"favorite_color").write.save("/root/temp/result1")
scala>userDF.select([圖片上傳失敗...(image-667695-1552188416500)]

"favorite_color").write.format("csv").save("/root/temp/result2")
scala>userDF.select([圖片上傳失敗...(image-d13a97-1552188416500)]

"favorite_color").write.csv("/root/temp/result3")

image

（*）顯式指定文件格式：加載json格式
直接加載：val usersDF = spark.read.load("/root/resources/people.json")
會出錯
val usersDF = spark.read.format("json").load("/root/resources/people.json")

（*）存儲模式（Save Modes）
可以采用SaveMode執行存儲操作，SaveMode定義了對數據的處理模式。需要注意的是，這些保存模式不使用任何鎖定，不是原子操作。此外，當使用Overwrite方式執行時，在輸出新數據之前原數據就已經被刪除。SaveMode詳細介紹如下：
默認為SaveMode.ErrorIfExists模式，該模式下，如果數據庫中已經存在該表，則會直接報異常，導致數據不能存入數據庫.另外三種模式如下：
SaveMode.Append 如果表已經存在，則追加在該表中；若該表不存在，則會先創建表，再插入數據；
SaveMode.Overwrite 重寫模式，其實質是先將已有的表及其數據全都刪除，再重新創建該表，最后插入新的數據；
SaveMode.Ignore 若表不存在，則創建表，并存入數據；在表存在的情況下，直接跳過數據的存儲，不會報錯。

Demo：
usersDF.select($"name").write.save("/root/result/parquet1")
--> 出錯：因為/root/result/parquet1已經存在

usersDF.select($"name").write.mode("overwrite").save("/root/result/parquet1")

5 讀寫mysql

5.1 JDBC

Spark SQL可以通過JDBC從關系型數據庫中讀取數據的方式創建DataFrame，通過對DataFrame一系列的計算后，還可以將數據再寫回關系型數據庫中。

5.1.1 從Mysql中加載數據庫(Spark Shell 方式)

啟動Spark Shell，必須指定mysql連接驅動jar包

spark-shell --master spark://hadoop1:7077 --jars mysql-connector-java-5.1.35-bin.jar --driver-class-path mysql-connector-java-5.1.35-bin.jar

從mysql中加載數據

val jdbcDF = sqlContext.read.format("jdbc").options(
     Map("url"->"jdbc:mysql://hadoop1:3306/bigdata",
            "driver"->"com.mysql.jdbc.Driver", 
            "dbtable"->"person", //  "dbtable"->"(select * from person where id = 12) as person", 
            "user"->"root",
            "password"->"123456")
     ).load()

執行查詢

jdbcDF.show()

5.1.2 將數據寫入到MySQL中(打jar包方式)

編寫Spark SQL程序

import java.util.Properties
import org.apache.spark.sql.{Row, SQLContext, SparkSession}
import org.apache.spark.sql.types.{IntegerType, StringType, StructField, StructType}
import org.apache.spark.{SparkConf, SparkContext}

/**
  * @author y15079
  * @create 2018-05-12 2:50
  * @desc
  **/
object JdbcDFDemo {
  def main(args: Array[String]): Unit = {
    val conf = new SparkConf().setAppName("MysqlDemo").setMaster("local[2]")
    val sc = new SparkContext(conf)

    //創建SQLContext spark1.6.1以下的寫法
    //val sqlContext = new SQLContext(sc)

    //spark2.0 以上的寫法
    val sqlContext = SparkSession.builder().config(conf).getOrCreate()

    //通過并行化創建RDD
    val personRDD = sc.parallelize(Array("1 tom 5", "2 jerry 3", "3 kitty 6")).map(_.split(" "))
    //通過StructType直接指定每個字段的schema
    val schema = StructType(
      List(
        StructField("id", IntegerType, true),
        StructField("name", StringType, true),
        StructField("age", IntegerType, true)
      )
    )

    //將RDD映射到rowRDD
    val rowRDD = personRDD.map(p=>Row(p(0).toInt, p(1).trim, p(2).toInt))
    //將schema信息應用到rowRDD上
    val personDataFrame = sqlContext.createDataFrame(rowRDD, schema)
    //創建Properties存儲數據庫相關屬性
    val prop = new Properties()
    prop.put("user", "root")
    prop.put("password", "123456")
    //將數據追加到數據庫
    personDataFrame.write.mode("append").jdbc("jdbc:mysql://localhost:3306/bigdata","bigdata.person", prop)

    sc.stop()
  }
}

用maven-shade-plugin插件將程序打包
將jar包提交到spark集群

spark-submit 
--class cn.itcast.spark.sql.jdbcDF 
--master spark://hadoop1:7077 
--jars mysql-connector-java-5.1.35-bin.jar 
--driver-class-path mysql-connector-java-5.1.35-bin.jar 
/root/demo.jar

最后編輯于：2019.03.12 18:35:13

?著作權歸作者所有,轉載或內容合作請聯系作者
平臺聲明：文章內容（如有圖片或視頻亦包括在內）由作者上傳并發布，文章內容僅代表作者本人觀點，簡書系信息發布平臺，僅提供信息存儲服務。

人面猴
序言：七十年代末，一起剝皮案震驚了整個濱河市，隨后出現的幾起案子，更是在濱河造成了極大的恐慌，老刑警劉巖，帶你破解...
沈念sama閱讀 228,646評論 6贊 533
死咒
序言：濱河連續發生了三起死亡事件，死亡現場離奇詭異，居然都是意外死亡，警方通過查閱死者的電腦和手機，發現死者居然都...
沈念sama閱讀 98,595評論 3贊 418
救了他兩次的神仙讓他今天三更去死
文/潘曉璐我一進店門，熙熙樓的掌柜王于貴愁眉苦臉地迎上來，“玉大人，你說我怎么就攤上這事。” “怎么了？”我有些...
開封第一講書人閱讀 176,560評論 0贊 376
道士緝兇錄：失蹤的賣姜人
文/不壞的土叔我叫張陵，是天一觀的道長。經常有香客問我，道長，這世上最難降的妖魔是什么？我笑而不...
開封第一講書人閱讀 63,035評論 1贊 314
?港島之戀（遺憾婚禮）
正文為了忘掉前任，我火速辦了婚禮，結果婚禮上，老公的妹妹穿的比我還像新娘。我一直安慰自己，他們只是感情好，可當我...
茶點故事閱讀 71,814評論 6贊 410
惡毒庶女頂嫁案：這布局不是一般人想出來的
文/花漫我一把揭開白布。她就那樣靜靜地躺著，像睡著了一般。火紅的嫁衣襯著肌膚如雪。梳的紋絲不亂的頭發上，一...
開封第一講書人閱讀 55,224評論 1贊 324
城市分裂傳說
那天，我揣著相機與錄音，去河邊找鬼。笑死，一個胖子當著我的面吹牛，可吹牛的內容都是我干的。我是一名探鬼主播，決...
沈念sama閱讀 43,301評論 3贊 442
雙鴛鴦連環套：你想象不到人心有多黑
文/蒼蘭香墨我猛地睜開眼，長吁一口氣：“原來是場噩夢啊……” “哼！你這毒婦竟也來了？” 一聲冷哼從身側響起，我...
開封第一講書人閱讀 42,444評論 0贊 288
萬榮殺人案實錄
序言：老撾萬榮一對情侶失蹤，失蹤者是張志新（化名）和其女友劉穎，沒想到半個月后，有當地人在樹林里發現了一具尸體，經...
沈念sama閱讀 48,988評論 1贊 335
?護林員之死
正文獨居荒郊野嶺守林人離奇死亡，尸身上長有42處帶血的膿包…… 初始之章·張勛以下內容為張勛視角年9月15日...
茶點故事閱讀 40,804評論 3贊 355
?白月光啟示錄
正文我和宋清朗相戀三年，在試婚紗的時候發現自己被綠了。大學時的朋友給我發了我未婚夫和他白月光在一起吃飯的照片。...
茶點故事閱讀 42,998評論 1贊 370
活死人
序言：一個原本活蹦亂跳的男人離奇死亡，死狀恐怖，靈堂內的尸體忽然破棺而出，到底是詐尸還是另有隱情，我是刑警寧澤，帶...
沈念sama閱讀 38,544評論 5贊 360
?日本核電站爆炸內幕
正文年R本政府宣布，位于F島的核電站，受9級特大地震影響，放射性物質發生泄漏。R本人自食惡果不足惜，卻給世界環境...
茶點故事閱讀 44,237評論 3贊 347
男人毒藥：我在死后第九天來索命
文/蒙蒙一、第九天我趴在偏房一處隱蔽的房頂上張望。院中可真熱鬧，春花似錦、人聲如沸。這莊子的主人今日做“春日...
開封第一講書人閱讀 34,665評論 0贊 26
一樁弒父案，背后竟有這般陰謀
文/蒼蘭香墨我抬頭看了看天上的太陽。三九已至，卻和暖如春，著一層夾襖步出監牢的瞬間，已是汗流浹背。一陣腳步聲響...
開封第一講書人閱讀 35,927評論 1贊 287
情欲美人皮
我被黑心中介騙來泰國打工，沒想到剛下飛機就差點兒被人妖公主榨干…… 1. 我叫王不留，地道東北人。一個月前我還...
沈念sama閱讀 51,706評論 3贊 393
代替公主和親
正文我出身青樓，卻偏偏與公主長得像，于是被迫代替她去往敵國和親。傳聞我的和親對象是個殘疾皇子，可洞房花燭夜當晚...
茶點故事閱讀 47,993評論 2贊 374

三个男躁一个女,国精产品一区一手机的秘密,麦子交换系列最经典十句话,欧美国产综合欧美视频

Spark SQL 教程

Spark SQL 教程

一、什么是Spark SQL

二、為什么要學習Spark SQL？

三、什么是DataFrame和DataSet?

DataFrame

DataSet

四、測試數據

五、創建DataFrame

方式1：使用case class定義表

方式2：使用SparkSession對象創建DataFrame

什么是SparkSession?

方式3：直接讀取格式化的文件（json,csv）等-最簡單

六、操作DataFrame(DSL+SQL)

>1.DSL（domain-specific language）操作DataFrame

2.SQL操作DataFrame

七、視圖（臨時和全局視圖）

八、使用數據源

1、通用的Load/Save函數

5 讀寫mysql

5.1 JDBC

5.1.1 從Mysql中加載數據庫(Spark Shell 方式)

5.1.2 將數據寫入到MySQL中(打jar包方式)

推薦閱讀更多精彩內容

三个男躁一个女,国精产品一区一手机的秘密,麦子交换系列最经典十句话,欧美 国产 综合 欧美 视频

Spark SQL 教程

一、什么是Spark SQL

二、為什么要學習Spark SQL？

三、什么是DataFrame和DataSet?

DataFrame

DataSet

四、測試數據

五、創建DataFrame

方式1：使用case class定義表

方式2：使用SparkSession對象創建DataFrame

什么是SparkSession?

方式3：直接讀取格式化的文件（json,csv）等-最簡單

六、操作DataFrame(DSL+SQL)

>1.DSL（domain-specific language）操作DataFrame

2.SQL操作DataFrame

七、視圖（臨時和全局視圖）

八、使用數據源

1、通用的Load/Save函數

5 讀寫mysql

5.1 JDBC

5.1.1 從Mysql中加載數據庫(Spark Shell 方式)

5.1.2 將數據寫入到MySQL中(打jar包方式)

推薦閱讀更多精彩內容

三个男躁一个女,国精产品一区一手机的秘密,麦子交换系列最经典十句话,欧美国产综合欧美视频