Hive函數

Hive函數

函數分類

  • cli命令
    • 顯示當前對話有多少函數可用 show functions;
    • 顯示函數的表述信息 desc function concat;
    • 顯示函數的擴展描述信息 desc function extended concat;
  • 簡單函數
  • 特殊函數
    • 窗口函數
      • 應用場景
        • 用于分區排序
        • 動態Group by
        • Top N
        • 累計計算
        • 層次查詢
      • Windowing function
        • lead
        • lag
        • FIRST_VALUE
        • LAST_VALUE
    • 分析函數
      • THE OVER clause
        • COUNT
        • SUM
        • MIN
        • MAX
        • AVG
      • Analytics functions
        • RANK
        • ROW_NUIMBER
        • DENSE_RANK
        • CUME_DIST
        • PERCENT_RANK
        • NTILE
    • 混合函數
      • java_method(class,method[,arg1[,arg2...]])
      • reflect(class,method[,arg1[,arg2...]])
      • hash(a1[,a2])
    • UDTF
      • 表函數
        • lateralView:LATERAL VIEW udtf(expression) tableAlias AS columnAlias(',',columnAlias)* fromClause:FROM baseTable(lateralView)*
      • 例子
        • explode函數 :行展開為列

內置函數

正則表達式

  • 使用正則表達式的函數
  • A LIKE B,字符"_"表示任意單個字符,而字符"%"表示任意數量的字符
  • A RLIKE B
    • select 1 from dual where 'footbar' rlike ^f.*r$;
  • regexp_replace(string A,string B,string C)
    • select regexp_replace('footbar','oo|ar','') from dual;(return 'fb')
  • regexp_extract(string subject,string pattern,int index)
    • select regexp_extract('foothebar','foo(.*?)(bar)',1) from winfunc;

自定義函數

UDF

  • UDF-用戶自定義函數(user defined function)
    • 針對單條記錄
  • 創建函數
    • 自定義一個java類
    • 繼承UDF類
    • 重寫evaluate方法
    • 打jar包
    • hive執行add jar
      • add jar /home/jar/function.jar
    • hive執行創建模板函數
      • create temporary function bigthan as 'com.udf.udftest';
    • hql中使用

UDAF

  • UDAF用戶自定義聚合函數
    • user defined aggregation function
    • 針對記錄集合
  • 開發通用UDAF有兩個步驟
    • 第一個是編寫resolver類,resolver負責類型檢查,操作符重載。
    • 第二個是編寫evaluator類,evaluator真正實現UDAF的邏輯
  • 通常來說,頂層UDAF類繼承org.apache.hadoop.hive.ql.udf.GenericUDAFResolver2,里面編寫嵌套類evaluator實現UDAF的邏輯
  • 實現resolver
    • resolver通常繼承org.apache.hadoop.hive.ql.udf.GenericUDAFResolver2,但是更建議繼承AbstractGenericUDAFResolver,隔離將來hive接口的變化。GenericUDResolver和GenericUDResolver2接口的區別是,后面的允許evaluator實現可以訪問更多的信息,例如DISTINCT限定符,通配符FUNCTION(*)。
  • 實現evaluator
    • 所有evaluators必須繼承抽象類org.apache.hadoop.hive.ql.udf.generic.GenericUDAFEvaluator。子類必須實現它的一些抽象方法,實現UDAF的邏輯。
  • Mode
    • 這個類比較重要,它表示了udaf在mapreduce的各個階段,理解Mode的含義,就可以理解了hive的UDAF的運行流程
    • public static enum Mode{
      PARTIAL1,
      PARTIAL2,
      FINAL,
      COMPLETE
      };
    • PARTIAL1:這個是mapreduce的map階段:從原始數據到部分數據聚合,將會調用iterate()和terminatePartial()
    • PARTIAL2:這個是mapreduce的map端的Combiner階段,負責在map端合并map的數據;從部分數據聚合到部分數據聚合,將會調用merge()和terminatePartial()
    • FINAL:mapreduce的reduce階段:從部分數據的聚合到完全聚合,將會調用merge()和terminate()
    • COMPLETE:如果出現了這個階段,表示mapreduce只有map,沒有reduce,所有map端就直接出結果了;從原始數據直接到完全聚合,將會調用iterate()和terminate()
  • 永久函數
    • 如果希望在hive 中自定義一個函數,且能永久使用,則修改源碼添加相應的函數類,然后在修改ql/src/java/org/apache/hadoop/hive/ql/exec/FunctionRegistry.java類,添加相應的注冊函數代碼。registerUDF("parse_url",UDFParseUrl.class.false);
    • 寫一個hql文件,hive -i 'file'
    • 新建hiverc文件
      • jar包放到安裝目錄下或者指定目錄下
      • $HOME/.hiverc
      • 把初始化語句加載到文件中
最后編輯于
?著作權歸作者所有,轉載或內容合作請聯系作者
平臺聲明:文章內容(如有圖片或視頻亦包括在內)由作者上傳并發布,文章內容僅代表作者本人觀點,簡書系信息發布平臺,僅提供信息存儲服務。
  • 序言:七十年代末,一起剝皮案震驚了整個濱河市,隨后出現的幾起案子,更是在濱河造成了極大的恐慌,老刑警劉巖,帶你破解...
    沈念sama閱讀 230,002評論 6 542
  • 序言:濱河連續發生了三起死亡事件,死亡現場離奇詭異,居然都是意外死亡,警方通過查閱死者的電腦和手機,發現死者居然都...
    沈念sama閱讀 99,400評論 3 429
  • 文/潘曉璐 我一進店門,熙熙樓的掌柜王于貴愁眉苦臉地迎上來,“玉大人,你說我怎么就攤上這事。” “怎么了?”我有些...
    開封第一講書人閱讀 178,136評論 0 383
  • 文/不壞的土叔 我叫張陵,是天一觀的道長。 經常有香客問我,道長,這世上最難降的妖魔是什么? 我笑而不...
    開封第一講書人閱讀 63,714評論 1 317
  • 正文 為了忘掉前任,我火速辦了婚禮,結果婚禮上,老公的妹妹穿的比我還像新娘。我一直安慰自己,他們只是感情好,可當我...
    茶點故事閱讀 72,452評論 6 412
  • 文/花漫 我一把揭開白布。 她就那樣靜靜地躺著,像睡著了一般。 火紅的嫁衣襯著肌膚如雪。 梳的紋絲不亂的頭發上,一...
    開封第一講書人閱讀 55,818評論 1 328
  • 那天,我揣著相機與錄音,去河邊找鬼。 笑死,一個胖子當著我的面吹牛,可吹牛的內容都是我干的。 我是一名探鬼主播,決...
    沈念sama閱讀 43,812評論 3 446
  • 文/蒼蘭香墨 我猛地睜開眼,長吁一口氣:“原來是場噩夢啊……” “哼!你這毒婦竟也來了?” 一聲冷哼從身側響起,我...
    開封第一講書人閱讀 42,997評論 0 290
  • 序言:老撾萬榮一對情侶失蹤,失蹤者是張志新(化名)和其女友劉穎,沒想到半個月后,有當地人在樹林里發現了一具尸體,經...
    沈念sama閱讀 49,552評論 1 335
  • 正文 獨居荒郊野嶺守林人離奇死亡,尸身上長有42處帶血的膿包…… 初始之章·張勛 以下內容為張勛視角 年9月15日...
    茶點故事閱讀 41,292評論 3 358
  • 正文 我和宋清朗相戀三年,在試婚紗的時候發現自己被綠了。 大學時的朋友給我發了我未婚夫和他白月光在一起吃飯的照片。...
    茶點故事閱讀 43,510評論 1 374
  • 序言:一個原本活蹦亂跳的男人離奇死亡,死狀恐怖,靈堂內的尸體忽然破棺而出,到底是詐尸還是另有隱情,我是刑警寧澤,帶...
    沈念sama閱讀 39,035評論 5 363
  • 正文 年R本政府宣布,位于F島的核電站,受9級特大地震影響,放射性物質發生泄漏。R本人自食惡果不足惜,卻給世界環境...
    茶點故事閱讀 44,721評論 3 348
  • 文/蒙蒙 一、第九天 我趴在偏房一處隱蔽的房頂上張望。 院中可真熱鬧,春花似錦、人聲如沸。這莊子的主人今日做“春日...
    開封第一講書人閱讀 35,121評論 0 28
  • 文/蒼蘭香墨 我抬頭看了看天上的太陽。三九已至,卻和暖如春,著一層夾襖步出監牢的瞬間,已是汗流浹背。 一陣腳步聲響...
    開封第一講書人閱讀 36,429評論 1 294
  • 我被黑心中介騙來泰國打工, 沒想到剛下飛機就差點兒被人妖公主榨干…… 1. 我叫王不留,地道東北人。 一個月前我還...
    沈念sama閱讀 52,235評論 3 398
  • 正文 我出身青樓,卻偏偏與公主長得像,于是被迫代替她去往敵國和親。 傳聞我的和親對象是個殘疾皇子,可洞房花燭夜當晚...
    茶點故事閱讀 48,480評論 2 379

推薦閱讀更多精彩內容