三个男躁一个女,国精产品一区一手机的秘密,麦子交换系列最经典十句话,欧美国产综合欧美视频

登錄注冊寫文章

Hive高級查詢

Hive高級查詢

Hive高級查詢

查詢操作
- group by、Order by 、Join 、distribute by 、Sort by 、cluster by 、Union all
底層的實現
- Mapreducer
幾個簡單的聚合操作
- count 計數
  - count(*) count(1) count(col)
- sum 求和
  - sum(可轉成數字的值)返回bigint
  - sum(col) + cast(1 as bigint)//必須進行類型轉換
- avg 求平均值
  - avg(可轉成數字的值) 返回double
- distinct 不同值個數
  - count(distinct col)

Order by

按照某些字段排序
樣例
- select col1,other...
- from table
- where condition
- oreder by col1,col2 [asc|desc]
注意
- order by 后面可以有多列進行排序，默認按字典排序
- order by 為全局排序
- order by 需要reduce操作，且只有一個reduce，與配置無

Group by

按照某些字段的值進行分組，有相同值放到一起
樣例
- select col1[,col2],count(1),sel_expr(聚合操作)
- from table where condition
- group by col1[,col2]
- [having...]
注意
- select后面非聚合列必須出現在group by中
- 除了普通列就是一些聚合操作
- group by后面也可以跟表達式，比如substr(col)
特性
- 使用了reduce操作，受限于reduce數量，設置reduce參數mapred.reduce.tasks
- 輸出文件個數與reduce數相同，文件大小與reduce處理的數據量有關
問題
- 網絡負載過重
- 數據傾斜，優化參數hive.groupby.skewindata=true

Join

表連接
- 兩個表m,n之間按照on條件連接，m中的一條記錄和n中的一條記錄組成一條新的記錄
- join等值連接，只有某個值在m和n中同時存在時才輸出
- left outer join左外連接，左邊表中的值無論是否在b中存在時，都輸出，右邊表中的值只有在左邊表中存在時才輸出
- right outer join 和left outer join相反
- left semi join 類似exists
- mapjoin 在map端完成join操作，不需要用reduce，基于內存做join，屬于優化操作
樣例
- select m.col as col,m.col2 as col2,n.col3 as col3
- from(select col,col2 from test where...(map端執行))m (左表)
- [left outer|right outer|left semi] join
- n (右表)
- on m.col=n.col
- where condition (reduce端執行)
set hive.optimize.skewjoin=true;

Mapjoin

mapjoin(map side join)
- 在map端把小表加載到內存中，然后讀取大表，和內存中的小表完成連接操作
- 其中使用了分布式緩存技術
優缺點
- 不消耗集群的reduce資源（reduce相對緊缺）
- 減少了reduce操作，加快程序執行
- 降低網絡負載
- 占用部分內存，所以加載到內存中的表不能過大，因為每個計算節點都會加載一次
- 生成較多的小文件
配置以下參數，是hive自動根據sql，選擇使用common join或者map join
- set hive.auto.convert.join=true;
- hive.mapjoin.smalltable.filesize默認值是25mb
第二種方式，手動指定
- select /*+mapjoin(n) */ m.col,m.col2,n.col3 from m
- join n
- on m.col=n.col
簡單總結一下，mapjoin的使用場景:
- 關聯操作中有一張表非常小
- 不等值的鏈接操作

DIstribute by 和 Sort by

Distribute分散數據
- distribute by col
- 按照col列把數據分散到不同的reduce
Sort排序
- sort by col2
- 按照col列把數據排序
select col1,col2 from M
distribute by col1
sort by col1 asc,col2 desc;
兩者結合出現，確保每個reduce的輸出都是有序的
distribute by 與group by 的對比
- 都是按key值劃分數據
- 都使用reduce操作
- 唯一不同，distribute by只是單純的分散數據，而group by把相同key的數據聚集到一起，后續必須是聚合操作
order by與sort by
- order by是全局排序
- sort by只是確保每個reduce上面輸出的數據有序，如果只有一個reduce時，和order by作用一樣
應用場景
- map輸出的文件大小不均
- reduce輸出文件大小不均
- 小文件過多
- 文件超大

Cluster by

把有相同值得數據聚集到一起，并排序
效果
- cluster by col
- 等同于distribute by col order by col

Union all

多個表的數據合并成一個表，hive不支持union
樣例
- select col
- form(
- select a as col from t1
- union all
- select b as col from t2
- )tmp
要求
- 字段名字一樣
- 字段類型一樣
- 字段個數一樣
- 子表不能有別名
- 如果需要從合并之后的表中查詢數據，那么合并的表必須要有別名

最后編輯于：2017.12.04 02:35:04

?著作權歸作者所有,轉載或內容合作請聯系作者
平臺聲明：文章內容（如有圖片或視頻亦包括在內）由作者上傳并發布，文章內容僅代表作者本人觀點，簡書系信息發布平臺，僅提供信息存儲服務。

推薦閱讀更多精彩內容

Hive高級查詢
Hive高級查詢 - 簡書 http://www.lxweimin.com/p/edf95ab41e4c Hive...
葡萄喃喃囈語閱讀 697評論 0贊 1
##數據倉庫中的SQL性能優化（Hive篇）
數據倉庫中的SQL性能優化（Hive篇） - 簡書 http://www.lxweimin.com/p/808a5...
葡萄喃喃囈語閱讀 4,607評論 0贊 31
Hive學習筆記：基礎語法
Hive基礎語法 1、創建表 – 用戶表 CREATE[EXTERNAL外部表]TABLE[IF NOT EXIS...
輝格食品閱讀 2,149評論 0贊 3
Apache Spark 2.2.0 中文文檔 - Spark SQL, DataFrames...
Spark SQL, DataFrames and Datasets Guide Overview SQL Dat...
草里有只羊閱讀 18,378評論 0贊 85
日跑2公里堅持一年，第312天
#打卡# 05月04日周四天氣多云青年節快樂【我的進度】日跑2公里第312天，計劃堅持1年；每日5點15分...
龍馬行天下閱讀 190評論 0贊 1

2贊3贊

贊賞

手機看全文

主站蜘蛛池模板：顺昌县| 岳阳市| 兴宁市| 高陵县| 莎车县| 尤溪县| 郁南县| 容城县| 苗栗县| 永安市| 鱼台县| 平安县| 巴彦县| 监利县| 和政县| 富裕县| 朝阳市| 安陆市| 华坪县| 阿瓦提县| 沭阳县| 衡东县| 崇州市| 贡山| 右玉县| 抚顺县| 潜山县| 南阳市| 开封县| 卫辉市| 杭锦旗| 永康市| 霍邱县| 搜索| 财经| 汉沽区| 嵩明县| 策勒县| 工布江达县| 秭归县| 永清县|

<style id="mxot8"></style>