1.SparkSql-Spark SQL 教程

一、什么是Spark SQL

Spark SQL是Spark用來處理結構化數據的一個模塊，它提供了兩個編程抽象分別叫做DataFrame和DataSet，它們用于作為分布式SQL查詢引擎。從下圖可以查看RDD、DataFrames與DataSet的關系。

image

二、為什么要學習Spark SQL？

我們已經學習了Hive，它是將Hive SQL轉換成MapReduce然后提交到集群上執行，大大簡化了編寫MapReduce的程序的復雜性，由于MapReduce這種計算模型執行效率比較慢。所以Spark SQL的應運而生，它是將Spark SQL轉換成RDD，然后提交到集群執行，執行效率非常快！所以我們類比的理解：Hive---SQL-->MapReduce，Spark SQL---SQL-->RDD。都是一種解析傳統SQL到大數據運算模型的引擎，屬于數據分析的范圍。

三、什么是DataFrame和DataSet?

首先，最簡單的理解我們可以認為DataFrame就是Spark中的數據表（類比傳統數據庫），DataFrame的結構如下：

DataFrame（表）= Schema（表結構） + Data（表數據）

總結：DataFrame（表）是Spark SQL對結構化數據的抽象。可以將DataFrame看做RDD。

DataFrame

DataFrame是組織成命名列的數據集。它在概念上等同于關系數據庫中的表，但在底層具有更豐富的優化。DataFrames可以從各種來源構建，

例如：

結構化數據文件(JSON)
外部數據庫或現有RDDs

DataFrame API支持的語言有Scala，Java，Python和R。

從上圖可以看出，DataFrame相比RDD多了數據的結構信息，即schema。RDD是分布式的 Java對象的集合。DataFrame是分布式的Row對象的集合。DataFrame除了提供了比RDD更豐富的算子以外，更重要的特點是提升執行效率、減少數據讀取以及執行計劃的優化。

DataSet

Dataset是數據的分布式集合。Dataset是在Spark 1.6中添加的一個新接口，是DataFrame之上更高一級的抽象。它提供了RDD的優點（強類型化）以及Spark SQL優化后的執行引擎的優點。一個Dataset 可以從JVM對象構造，然后使用函數轉換（map， flatMap，filter等）去操作。 Dataset API 支持Scala和Java。 Python不支持Dataset API。

四、測試數據

我們使用2個csv文件作為部分測試數據：

dept.csv信息：

10,ACCOUNTING,NEW YORK
20,RESEARCH,DALLAS
30,SALES,CHICAGO
40,OPERATIONS,BOSTON

emp.csv信息：

7369,SMITH,CLERK,7902,1980/12/17,800,,20
7499,ALLEN,SALESMAN,7698,1981/2/20,1600,300,30
7521,WARD,SALESMAN,7698,1981/2/22,1250,500,30
7566,JONES,MANAGER,7839,1981/4/2,2975,,20
7654,MARTIN,SALESMAN,7698,1981/9/28,1250,1400,30
7698,BLAKE,MANAGER,7839,1981/5/1,2850,,30
7782,CLARK,MANAGER,7839,1981/6/9,2450,,10
7788,SCOTT,ANALYST,7566,1987/4/19,3000,,20
7839,KING,PRESIDENT,,1981/11/17,5000,,10
7844,TURNER,SALESMAN,7698,1981/9/8,1500,0,30
7876,ADAMS,CLERK,7788,1987/5/23,1100,,20
7900,JAMES,CLERK,7698,1981/12/3,950,,30
7902,FORD,ANALYST,7566,1981/12/3,3000,,20
7934,MILLER,CLERK,7782,1982/1/23,1300,,10

將這2個csv文件put到HDFS的hdfs://bigdata111:9000/input/csvFiles/目錄以便后面使用

[root@bigdata111 ~]# hdfs dfs -ls /input/csvFiles
Found 2 items
-rw-r--r--   1 root supergroup         84 2018-06-15 13:40 /input/csvFiles/dept.csv
-rw-r--r--   1 root supergroup        617 2018-06-15 13:40 /input/csvFiles/emp.csv

五、創建DataFrame

前提：在集群模式下啟動spark-shell：bin/spark-shell --master spark://bigdata111:7077

image

方式1：使用case class定義表

(1) 定義case class代表表的結構schema
scala>case class Emp(empno:Int,ename:String,job:String,mgr:String,hiredate:String,sal:Int,comm:String,deptno:Int)

(2) 導入emp.csv文件（導入數據）
scala>val lines = sc.textFile("/root/temp/csv/emp.csv").map(_.split(","))//讀取Linux本地數據
或者
scala>val lines = sc.textFile("hdfs://192.168.92.134:8020/input/csvFiles/emp.csv").map(_.split(","))//讀取HDFS數據

(3) 生成表: DataFrame
scala>val allEmp = lines.map(x=>Emp(x(0).toInt,x(1),x(2),x(3),x(4),x(5).toInt,x(6),x(7).toInt))

(4)由allEmp直接生成表
scala>val empDF = allEmp.toDF

(4) 操作: DSL語句
scala>empDF.show         ---->  select * from emp
scala>empDF.printSchema  ---->  desc emp

操作結果：

image

方式2：使用SparkSession對象創建DataFrame

什么是SparkSession?

Apache Spark 2.0引入了SparkSession，其為用戶提供了一個統一的切入點來使用Spark的各項功能，并且允許用戶通過它調用DataFrame和Dataset相關API來編寫Spark程序。最重要的是，它減少了用戶需要了解的一些概念，使得我們可以很容易地與Spark交互。
在2.0版本之前，與Spark交互之前必須先創建SparkConf和SparkContext。然而在Spark 2.0中，我們可以通過SparkSession來實現同樣的功能，而不需要顯式地創建SparkConf, SparkContext 以及 SQLContext，因為這些對象已經封裝在SparkSession中。

通過SparkSession可以訪問Spark所有的模塊!

image

使用Sparksession創建DataFrame過程：

    (2)加載結構化數據
        scala>val lines = sc.textFile("/root/temp/csv/emp.csv").map(_.split(","))//讀取Linux數據
        或者
        scala>val lines = sc.textFile("hdfs://10.30.30.146:9000/input/emp.csv").map(_.split(","))//讀取HDFS數據

        (3) 定義schema：StructType
        scala>import org.apache.spark.sql._
        scala>import org.apache.spark.sql.types._
        scala>val myschema = StructType(List(StructField("empno", DataTypes.IntegerType)
        , StructField("ename", DataTypes.StringType)
        ,StructField("job", DataTypes.StringType)
        ,StructField("mgr", DataTypes.StringType)
        ,StructField("hiredate", DataTypes.StringType)
        ,StructField("sal", DataTypes.IntegerType)
        ,StructField("comm", DataTypes.StringType)
        ,StructField("deptno", DataTypes.IntegerType)))

        (4)把讀入的每一行數據映射成一個個Row
        scala>val rowRDD = lines.map(x=>Row(x(0).toInt,x(1),x(2),x(3),x(4),x(5).toInt,x(6),x(7).toInt))

        (5) 使用SparkSession.createDataFrame創建表
        scala>val df = spark.createDataFrame(rowRDD,myschema)

可以看到df支持的函數很多，其實就是RDD的算子。這里也可以看出DF很像一個RDD。

方式3：直接讀取格式化的文件（json,csv）等-最簡單

前提：數據文件本身一定具有格式,這里我們選取json格式的數據，json文件可以使用spark例子中提供的people.json。你也可以使用任意json文件進行操作。
測試數據如下：
[root@bigdata111 resources]# pwd
/root/training/spark-2.1.0-bin-hadoop2.7/examples/src/main/resources
[root@bigdata111 resources]# ls
full_user.avsc  kv1.txt  people.json  people.txt  user.avsc  users.avro  users.parquet
[root@bigdata111 resources]# more people.json 
{"name":"Michael"}
{"name":"Andy", "age":30}
{"name":"Justin", "age":19}

使用SparkSession對象直接讀取Json文件
spark>val peopleDF = spark.read.json("hdfs://bigdata111:9000/input/people.json")
創建完畢DF之后就可以直接查看表的信息，十分的簡單：

六、操作DataFrame(DSL+SQL)

DataFrame操作也稱為無類型的Dataset操作.操作的DataFrame是方法1創建的empDF.

>1.DSL（domain-specific language）操作DataFrame

1.查看所有的員工信息===selec * from empDF;
scala>empDF.show

image

2.查詢所有的員工姓名 ($符號添加不加功能一樣)===select ename,deptno from empDF;
scala>empDF.select("ename","deptno").show
scala>empDF.select("ename","deptno").show

image

3.查詢所有的員工姓名和薪水，并給薪水加100塊錢===select ename,sal,sal+100 from empDF;
scala>empDF.select( $"ename",$ "sal",$"sal"+100).show

image

4.查詢工資大于2000的員工===select * from empDF where sal>2000;
scala>empDF.filter($"sal" > 2000).show

image

5.分組===select deptno,count(*) from empDF group by deptno;
scala>empDF.groupBy("deptno").count.showscala>empDF.groupBy("deptno").avg().show
scala>empDF.groupBy($"deptno").max().show

image

2.SQL操作DataFrame

(1)前提條件：需要把DataFrame注冊成是一個Table或者View
scala>empDF.createOrReplaceTempView("emp")

(2)使用SparkSession執行從查詢
scala>spark.sql("select * from emp").show
scala>spark.sql("select * from emp where deptno=10").show

image

(3)求每個部門的工資總額
scala>spark.sql("select deptno,sum(sal) from emp group by deptno").show

image

七、視圖（臨時和全局視圖）

在使用SQL操作DataFrame的時候，有一個前提就是必須通過DF創建一個表或者視圖：empDF.createOrReplaceTempView("emp")

在SparkSQL中，如果你想擁有一個臨時的view，并想在不同的Session中共享，而且在application的運行周期內可用，那么就需要創建一個全局的臨時view。并記得使用的時候加上global_temp作為前綴來引用它，因為全局的臨時view是綁定到系統保留的數據庫global_temp上。

①　創建一個普通的view和一個全局的view
scala>empDF.createOrReplaceTempView("emp1")
scala>empDF.createGlobalTempView("emp2")

image

②　在當前會話中執行查詢，均可查詢出結果。
scala>spark.sql("select * from emp1").show
scala>spark.sql("select * from global_temp.emp2").show

image

③　開啟一個新的會話，執行同樣的查詢
scala>spark.newSession.sql("select * from emp1").show （運行出錯）
scala>spark.newSession.sql("select * from global_temp.emp2").show

image

八、使用數據源

在介紹parquet文件的時候我們使用的是Spark例子文件夾中提供的users.parquet文件：

[root@bigdata111 resources]# pwd
/root/training/spark-2.1.0-bin-hadoop2.7/examples/src/main/resources
[root@bigdata111 resources]# ls
full_user.avsc kv1.txt people.json people.txt temp user.avsc users.avro users.parquet

1、通用的Load/Save函數

（*）什么是parquet文件？
Parquet是列式存儲格式的一種文件類型，列式存儲有以下的核心：

可以跳過不符合條件的數據，只讀取需要的數據，降低IO數據量。
壓縮編碼可以降低磁盤存儲空間。由于同一列的數據類型是一樣的，可以使用更高效的壓縮編碼（例如Run Length Encoding和Delta Encoding）進一步節約存儲空間。
只讀取需要的列，支持向量運算，能夠獲取更好的掃描性能。

Parquet格式是Spark SQL的默認數據源，可通過spark.sql.sources.default配置

（*）通用的Load/Save函數

load函數讀取Parquet文件：scala>val userDF = spark.read.load("hdfs://bigdata111:9000/input/users.parquet")

對比如下語句：

scala>val peopleDF = spark.read.json("hdfs://bigdata111:9000/input/people.json")
scala>val peopleDF = spark.read.format("json").load("hdfs://bigdata111:9000/input/people.json")

查詢Schema和數據:scala>userDF.show

image

save函數保存數據，默認的文件格式：Parquet文件(列式存儲文件)

scala>userDF.select("name","favorite_color").write.save("/root/temp/result1")
scala>userDF.select("name","favorite_color").write.format("csv").save("/root/temp/result2")
scala>userDF.select("name","favorite_color").write.csv("/root/temp/result3")

image

（*）顯式指定文件格式：加載json格式
直接加載：val usersDF = spark.read.load("/root/resources/people.json")
會出錯
val usersDF = spark.read.format("json").load("/root/resources/people.json")

（*）存儲模式（Save Modes）
可以采用SaveMode執行存儲操作，SaveMode定義了對數據的處理模式。需要注意的是，這些保存模式不使用任何鎖定，不是原子操作。此外，當使用Overwrite方式執行時，在輸出新數據之前原數據就已經被刪除。SaveMode詳細介紹如下：
默認為SaveMode.ErrorIfExists模式，該模式下，如果數據庫中已經存在該表，則會直接報異常，導致數據不能存入數據庫.另外三種模式如下：
SaveMode.Append 如果表已經存在，則追加在該表中；若該表不存在，則會先創建表，再插入數據；
SaveMode.Overwrite 重寫模式，其實質是先將已有的表及其數據全都刪除，再重新創建該表，最后插入新的數據；
SaveMode.Ignore 若表不存在，則創建表，并存入數據；在表存在的情況下，直接跳過數據的存儲，不會報錯。

Demo：
usersDF.select($"name").write.save("/root/result/parquet1")
--> 出錯：因為/root/result/parquet1已經存在

usersDF.select($"name").write.mode("overwrite").save("/root/result/parquet1")

5 讀寫mysql

5.1 JDBC

Spark SQL可以通過JDBC從關系型數據庫中讀取數據的方式創建DataFrame，通過對DataFrame一系列的計算后，還可以將數據再寫回關系型數據庫中。

5.1.1 從Mysql中加載數據庫(Spark Shell 方式)

啟動Spark Shell，必須指定mysql連接驅動jar包

spark-shell --master spark://hadoop1:7077 --jars mysql-connector-java-5.1.35-bin.jar --driver-class-path mysql-connector-java-5.1.35-bin.jar

從mysql中加載數據

val jdbcDF = spark.read.format("jdbc").options(
     Map("url"->"jdbc:mysql://hadoop1:3306/bigdata",
            "driver"->"com.mysql.jdbc.Driver", 
            "dbtable"->"person", //  "dbtable"->"(select * from person where id = 12) as person", 
            "user"->"root",
            "password"->"root")
     ).load()

執行查詢

jdbcDF.show()

5.1.2 將數據寫入到MySQL中(打jar包方式)

編寫Spark SQL程序

import java.util.Properties
import org.apache.spark.sql.{Row, SparkSession}


object spark_sql_demo {
  def main(args: Array[String]): Unit = {
    val spark = SparkSession
      .builder()
      .master("local")
      .appName("test")
      .config("spark.sql.shuffle.partitions", "5")
      .getOrCreate()

    val jdbcDF = spark.read.format("jdbc").options(
      Map("url"->"jdbc:mysql://localhost:3306/java",
        "driver"->"com.mysql.jdbc.Driver",
        "dbtable"->"emp", //  "dbtable"->"(select * from person where id = 12) as person",
        "user"->"root",
        "password"->"root")
    ).load()

    jdbcDF.createOrReplaceTempView("emp")
    val resutl = spark.sql("select deptno,sum(sal) as total from emp group by deptno")

    val prop = new Properties()
    prop.put("user", "root")
    prop.put("password", "root")
    //將數據追加到數據庫
    resutl.write.mode("overwrite").jdbc("jdbc:mysql://localhost:3306/java","java.person", prop)
  }
}

用maven-shade-plugin插件將程序打包
將jar包提交到spark集群

spark-submit 
--class cn.itcast.spark.sql.jdbcDF 
--master spark://hadoop1:7077 
--jars mysql-connector-java-5.1.35-bin.jar 
--driver-class-path mysql-connector-java-5.1.35-bin.jar 
/root/demo.jar

最后編輯于：2019.03.12 18:21:01

?著作權歸作者所有,轉載或內容合作請聯系作者
平臺聲明：文章內容（如有圖片或視頻亦包括在內）由作者上傳并發布，文章內容僅代表作者本人觀點，簡書系信息發布平臺，僅提供信息存儲服務。

人面猴
序言：七十年代末，一起剝皮案震驚了整個濱河市，隨后出現的幾起案子，更是在濱河造成了極大的恐慌，老刑警劉巖，帶你破解...
沈念sama閱讀 228,646評論 6贊 533
死咒
序言：濱河連續發生了三起死亡事件，死亡現場離奇詭異，居然都是意外死亡，警方通過查閱死者的電腦和手機，發現死者居然都...
沈念sama閱讀 98,595評論 3贊 418
救了他兩次的神仙讓他今天三更去死
文/潘曉璐我一進店門，熙熙樓的掌柜王于貴愁眉苦臉地迎上來，“玉大人，你說我怎么就攤上這事。” “怎么了？”我有些...
開封第一講書人閱讀 176,560評論 0贊 376
道士緝兇錄：失蹤的賣姜人
文/不壞的土叔我叫張陵，是天一觀的道長。經常有香客問我，道長，這世上最難降的妖魔是什么？我笑而不...
開封第一講書人閱讀 63,035評論 1贊 314
?港島之戀（遺憾婚禮）
正文為了忘掉前任，我火速辦了婚禮，結果婚禮上，老公的妹妹穿的比我還像新娘。我一直安慰自己，他們只是感情好，可當我...
茶點故事閱讀 71,814評論 6贊 410
惡毒庶女頂嫁案：這布局不是一般人想出來的
文/花漫我一把揭開白布。她就那樣靜靜地躺著，像睡著了一般。火紅的嫁衣襯著肌膚如雪。梳的紋絲不亂的頭發上，一...
開封第一講書人閱讀 55,224評論 1贊 324
城市分裂傳說
那天，我揣著相機與錄音，去河邊找鬼。笑死，一個胖子當著我的面吹牛，可吹牛的內容都是我干的。我是一名探鬼主播，決...
沈念sama閱讀 43,301評論 3贊 442
雙鴛鴦連環套：你想象不到人心有多黑
文/蒼蘭香墨我猛地睜開眼，長吁一口氣：“原來是場噩夢啊……” “哼！你這毒婦竟也來了？” 一聲冷哼從身側響起，我...
開封第一講書人閱讀 42,444評論 0贊 288
萬榮殺人案實錄
序言：老撾萬榮一對情侶失蹤，失蹤者是張志新（化名）和其女友劉穎，沒想到半個月后，有當地人在樹林里發現了一具尸體，經...
沈念sama閱讀 48,988評論 1贊 335
?護林員之死
正文獨居荒郊野嶺守林人離奇死亡，尸身上長有42處帶血的膿包…… 初始之章·張勛以下內容為張勛視角年9月15日...
茶點故事閱讀 40,804評論 3贊 355
?白月光啟示錄
正文我和宋清朗相戀三年，在試婚紗的時候發現自己被綠了。大學時的朋友給我發了我未婚夫和他白月光在一起吃飯的照片。...
茶點故事閱讀 42,998評論 1贊 370
活死人
序言：一個原本活蹦亂跳的男人離奇死亡，死狀恐怖，靈堂內的尸體忽然破棺而出，到底是詐尸還是另有隱情，我是刑警寧澤，帶...
沈念sama閱讀 38,544評論 5贊 360
?日本核電站爆炸內幕
正文年R本政府宣布，位于F島的核電站，受9級特大地震影響，放射性物質發生泄漏。R本人自食惡果不足惜，卻給世界環境...
茶點故事閱讀 44,237評論 3贊 347
男人毒藥：我在死后第九天來索命
文/蒙蒙一、第九天我趴在偏房一處隱蔽的房頂上張望。院中可真熱鬧，春花似錦、人聲如沸。這莊子的主人今日做“春日...
開封第一講書人閱讀 34,665評論 0贊 26
一樁弒父案，背后竟有這般陰謀
文/蒼蘭香墨我抬頭看了看天上的太陽。三九已至，卻和暖如春，著一層夾襖步出監牢的瞬間，已是汗流浹背。一陣腳步聲響...
開封第一講書人閱讀 35,927評論 1贊 287
情欲美人皮
我被黑心中介騙來泰國打工，沒想到剛下飛機就差點兒被人妖公主榨干…… 1. 我叫王不留，地道東北人。一個月前我還...
沈念sama閱讀 51,706評論 3贊 393
代替公主和親
正文我出身青樓，卻偏偏與公主長得像，于是被迫代替她去往敵國和親。傳聞我的和親對象是個殘疾皇子，可洞房花燭夜當晚...
茶點故事閱讀 47,993評論 2贊 374

三个男躁一个女,国精产品一区一手机的秘密,麦子交换系列最经典十句话,欧美国产综合欧美视频

1.SparkSql-Spark SQL 教程

1.SparkSql-Spark SQL 教程

一、什么是Spark SQL

二、為什么要學習Spark SQL？

三、什么是DataFrame和DataSet?

DataFrame

DataSet

四、測試數據

五、創建DataFrame

方式1：使用case class定義表

方式2：使用SparkSession對象創建DataFrame

什么是SparkSession?

方式3：直接讀取格式化的文件（json,csv）等-最簡單

六、操作DataFrame(DSL+SQL)

>1.DSL（domain-specific language）操作DataFrame

2.SQL操作DataFrame

七、視圖（臨時和全局視圖）

八、使用數據源

1、通用的Load/Save函數

5 讀寫mysql

5.1 JDBC

5.1.1 從Mysql中加載數據庫(Spark Shell 方式)

5.1.2 將數據寫入到MySQL中(打jar包方式)

推薦閱讀更多精彩內容

三个男躁一个女,国精产品一区一手机的秘密,麦子交换系列最经典十句话,欧美 国产 综合 欧美 视频

1.SparkSql-Spark SQL 教程

一、什么是Spark SQL

二、為什么要學習Spark SQL？

三、什么是DataFrame和DataSet?

DataFrame

DataSet

四、測試數據

五、創建DataFrame

方式1：使用case class定義表

方式2：使用SparkSession對象創建DataFrame

什么是SparkSession?

方式3：直接讀取格式化的文件（json,csv）等-最簡單

六、操作DataFrame(DSL+SQL)

>1.DSL（domain-specific language）操作DataFrame

2.SQL操作DataFrame

七、視圖（臨時和全局視圖）

八、使用數據源

1、通用的Load/Save函數

5 讀寫mysql

5.1 JDBC

5.1.1 從Mysql中加載數據庫(Spark Shell 方式)

5.1.2 將數據寫入到MySQL中(打jar包方式)

推薦閱讀更多精彩內容

三个男躁一个女,国精产品一区一手机的秘密,麦子交换系列最经典十句话,欧美国产综合欧美视频