Hive高級查詢

Hive高級查詢

  • 查詢操作
    • group by、Order by 、Join 、distribute by 、Sort by 、cluster by 、Union all
  • 底層的實現
    • Mapreducer
  • 幾個簡單的聚合操作
    • count 計數
      • count(*) count(1) count(col)
    • sum 求和
      • sum(可轉成數字的值)返回bigint
      • sum(col) + cast(1 as bigint)//必須進行類型轉換
    • avg 求平均值
      • avg(可轉成數字的值) 返回double
    • distinct 不同值個數
      • count(distinct col)

Order by

  • 按照某些字段排序
  • 樣例
    • select col1,other...
    • from table
    • where condition
    • oreder by col1,col2 [asc|desc]
  • 注意
    • order by 后面可以有多列進行排序,默認按字典排序
    • order by 為全局排序
    • order by 需要reduce操作,且只有一個reduce,與配置無

Group by

  • 按照某些字段的值進行分組,有相同值放到一起
  • 樣例
    • select col1[,col2],count(1),sel_expr(聚合操作)
    • from table where condition
    • group by col1[,col2]
    • [having...]
  • 注意
    • select后面非聚合列必須出現在group by中
    • 除了普通列就是一些聚合操作
    • group by后面也可以跟表達式,比如substr(col)
  • 特性
    • 使用了reduce操作,受限于reduce數量,設置reduce參數mapred.reduce.tasks
    • 輸出文件個數與reduce數相同,文件大小與reduce處理的數據量有關
  • 問題
    • 網絡負載過重
    • 數據傾斜,優化參數hive.groupby.skewindata=true

Join

  • 表連接
    • 兩個表m,n之間按照on條件連接,m中的一條記錄和n中的一條記錄組成一條新的記錄
    • join等值連接,只有某個值在m和n中同時存在時才輸出
    • left outer join左外連接,左邊表中的值無論是否在b中存在時,都輸出,右邊表中的值只有在左邊表中存在時才輸出
    • right outer join 和left outer join相反
    • left semi join 類似exists
    • mapjoin 在map端完成join操作,不需要用reduce,基于內存做join,屬于優化操作
  • 樣例
    • select m.col as col,m.col2 as col2,n.col3 as col3
    • from(select col,col2 from test where...(map端執行))m (左表)
    • [left outer|right outer|left semi] join
    • n (右表)
    • on m.col=n.col
    • where condition (reduce端執行)
  • set hive.optimize.skewjoin=true;

Mapjoin

  • mapjoin(map side join)
    • 在map端把小表加載到內存中,然后讀取大表,和內存中的小表完成連接操作
    • 其中使用了分布式緩存技術
  • 優缺點
    • 不消耗集群的reduce資源(reduce相對緊缺)

    • 減少了reduce操作,加快程序執行

    • 降低網絡負載

    • 占用部分內存,所以加載到內存中的表不能過大,因為每個計算節點都會加載一次

    • 生成較多的小文件

  • 配置以下參數,是hive自動根據sql,選擇使用common join或者map join
    • set hive.auto.convert.join=true;
    • hive.mapjoin.smalltable.filesize默認值是25mb
  • 第二種方式,手動指定
    • select /*+mapjoin(n) */ m.col,m.col2,n.col3 from m
    • join n
    • on m.col=n.col
  • 簡單總結一下,mapjoin的使用場景:
    • 關聯操作中有一張表非常小
    • 不等值的鏈接操作

DIstribute by 和 Sort by

  • Distribute分散數據
    • distribute by col
    • 按照col列把數據分散到不同的reduce
  • Sort排序
    • sort by col2
    • 按照col列把數據排序
  • select col1,col2 from M
    distribute by col1
    sort by col1 asc,col2 desc;
  • 兩者結合出現,確保每個reduce的輸出都是有序的
  • distribute by 與group by 的對比
    • 都是按key值劃分數據
    • 都使用reduce操作
    • 唯一不同,distribute by只是單純的分散數據,而group by把相同key的數據聚集到一起,后續必須是聚合操作
  • order by與sort by
    • order by是全局排序
    • sort by只是確保每個reduce上面輸出的數據有序,如果只有一個reduce時,和order by作用一樣
  • 應用場景
    • map輸出的文件大小不均
    • reduce輸出文件大小不均
    • 小文件過多
    • 文件超大

Cluster by

  • 把有相同值得數據聚集到一起,并排序
  • 效果
    • cluster by col
    • 等同于distribute by col order by col

Union all

  • 多個表的數據合并成一個表,hive不支持union
  • 樣例
    • select col
    • form(
    • select a as col from t1
    • union all
    • select b as col from t2
    • )tmp
  • 要求
    • 字段名字一樣
    • 字段類型一樣
    • 字段個數一樣
    • 子表不能有別名
    • 如果需要從合并之后的表中查詢數據,那么合并的表必須要有別名
最后編輯于
?著作權歸作者所有,轉載或內容合作請聯系作者
平臺聲明:文章內容(如有圖片或視頻亦包括在內)由作者上傳并發布,文章內容僅代表作者本人觀點,簡書系信息發布平臺,僅提供信息存儲服務。
  • 序言:七十年代末,一起剝皮案震驚了整個濱河市,隨后出現的幾起案子,更是在濱河造成了極大的恐慌,老刑警劉巖,帶你破解...
    沈念sama閱讀 230,563評論 6 544
  • 序言:濱河連續發生了三起死亡事件,死亡現場離奇詭異,居然都是意外死亡,警方通過查閱死者的電腦和手機,發現死者居然都...
    沈念sama閱讀 99,694評論 3 429
  • 文/潘曉璐 我一進店門,熙熙樓的掌柜王于貴愁眉苦臉地迎上來,“玉大人,你說我怎么就攤上這事?!?“怎么了?”我有些...
    開封第一講書人閱讀 178,672評論 0 383
  • 文/不壞的土叔 我叫張陵,是天一觀的道長。 經常有香客問我,道長,這世上最難降的妖魔是什么? 我笑而不...
    開封第一講書人閱讀 63,965評論 1 318
  • 正文 為了忘掉前任,我火速辦了婚禮,結果婚禮上,老公的妹妹穿的比我還像新娘。我一直安慰自己,他們只是感情好,可當我...
    茶點故事閱讀 72,690評論 6 413
  • 文/花漫 我一把揭開白布。 她就那樣靜靜地躺著,像睡著了一般。 火紅的嫁衣襯著肌膚如雪。 梳的紋絲不亂的頭發上,一...
    開封第一講書人閱讀 56,019評論 1 329
  • 那天,我揣著相機與錄音,去河邊找鬼。 笑死,一個胖子當著我的面吹牛,可吹牛的內容都是我干的。 我是一名探鬼主播,決...
    沈念sama閱讀 44,013評論 3 449
  • 文/蒼蘭香墨 我猛地睜開眼,長吁一口氣:“原來是場噩夢啊……” “哼!你這毒婦竟也來了?” 一聲冷哼從身側響起,我...
    開封第一講書人閱讀 43,188評論 0 290
  • 序言:老撾萬榮一對情侶失蹤,失蹤者是張志新(化名)和其女友劉穎,沒想到半個月后,有當地人在樹林里發現了一具尸體,經...
    沈念sama閱讀 49,718評論 1 336
  • 正文 獨居荒郊野嶺守林人離奇死亡,尸身上長有42處帶血的膿包…… 初始之章·張勛 以下內容為張勛視角 年9月15日...
    茶點故事閱讀 41,438評論 3 360
  • 正文 我和宋清朗相戀三年,在試婚紗的時候發現自己被綠了。 大學時的朋友給我發了我未婚夫和他白月光在一起吃飯的照片。...
    茶點故事閱讀 43,667評論 1 374
  • 序言:一個原本活蹦亂跳的男人離奇死亡,死狀恐怖,靈堂內的尸體忽然破棺而出,到底是詐尸還是另有隱情,我是刑警寧澤,帶...
    沈念sama閱讀 39,149評論 5 365
  • 正文 年R本政府宣布,位于F島的核電站,受9級特大地震影響,放射性物質發生泄漏。R本人自食惡果不足惜,卻給世界環境...
    茶點故事閱讀 44,845評論 3 351
  • 文/蒙蒙 一、第九天 我趴在偏房一處隱蔽的房頂上張望。 院中可真熱鬧,春花似錦、人聲如沸。這莊子的主人今日做“春日...
    開封第一講書人閱讀 35,252評論 0 28
  • 文/蒼蘭香墨 我抬頭看了看天上的太陽。三九已至,卻和暖如春,著一層夾襖步出監牢的瞬間,已是汗流浹背。 一陣腳步聲響...
    開封第一講書人閱讀 36,590評論 1 295
  • 我被黑心中介騙來泰國打工, 沒想到剛下飛機就差點兒被人妖公主榨干…… 1. 我叫王不留,地道東北人。 一個月前我還...
    沈念sama閱讀 52,384評論 3 400
  • 正文 我出身青樓,卻偏偏與公主長得像,于是被迫代替她去往敵國和親。 傳聞我的和親對象是個殘疾皇子,可洞房花燭夜當晚...
    茶點故事閱讀 48,635評論 2 380

推薦閱讀更多精彩內容