常用的sql查詢引擎
hive,impala,hive on spark,presto(京東),drill(支持hdfs,hive),phoenix(hbase)
存儲格式
- orc(列式存儲,Zlib壓縮,側重壓縮率,和hive關系比較緊密)
- rc(列式存儲)
- parquest(列式存儲,spark默認的存儲格式,采用Snappy壓縮,側重計算的性能)
總體可以認為,在我們當前的數據集和hive版本環境下,在文件寫入方面,ORC相比RC文件的優勢不顯著,一些場合RC文件還要更優,在查詢檢索方面,ORC則基本是更優的,性能差距大小取決于具體數據集和檢索模式。如果Hive能集成ORC更新的版本,支持LZ4,并修復一些Bug,那應該就沒有任何再使用RC的理由了。
至于Parquet,可以考慮在需要支持深度嵌套的數據結構的應用場合中去使用