Hive 學習筆記

【文件存儲格式】
在建表語句中通過" STORED AS FILE_FORMAT" 指定。

  • TEXTFILE:默認格式,數據不做壓縮,磁盤開銷大,數據解析開銷大,結合Gzip/Bizp2使用,采用此種方式不支持對數據進行切分,從而無法實現數據的并行操作。
  • SEQUENCEFILE:Hadoop API提供的一種二進制文件,使用方便,支持數據切分與壓縮。有三種壓縮方式,NONE,RECORD(壓縮率低)、BLOCK(推薦使用)。
  • RCFILE:一種行列存儲相結合的方式。首先將數據按行分塊,保證同一行記錄在同一個塊上;其次將塊數據進行行列式存儲,這樣有利于數據壓縮和快速的列存儲。采用這種格式在數據加載時耗費的性能較大,但是具備較好的數據壓縮比和查詢響應,在一次寫入多次讀取的場景下推薦采用。
  • 自定義格式:當用戶的數據文件格式不能被Hive識別時,通過實行InputFormat和OutputFormat來自定義輸入輸出格式。
最后編輯于
?著作權歸作者所有,轉載或內容合作請聯系作者
平臺聲明:文章內容(如有圖片或視頻亦包括在內)由作者上傳并發布,文章內容僅代表作者本人觀點,簡書系信息發布平臺,僅提供信息存儲服務。

推薦閱讀更多精彩內容