
Do not go gentle into that good night,Old age should burn and rave at cl...
轉載一首我很喜歡的英文詩,丁尼生的《尤利西斯》。 It little profits that an idle king, | 這太無謂——當一...
RDD,即Resilient Distributed Dataset,是Spark的核心概念。這篇文章就是講講spark的rdd依賴關系的,不理...
那天去面試,面試官問我知不知道Impala同步數據的方式,我回答invalidate metadata和refresh table [parti...
最近下載了個CDH的quickstart vm玩玩,發現個問題,spark 的Job History Server無法查看已經跑過的Spark ...
前面介紹了HIVE的ANALYZE TABLE命令, IMPALA也提供了一個類似的命令叫COMPUTE STATS。這篇文章就是講講這個命令。...
上次講過HIVE 的一個常用命令 MSCK REPAIR TABLE , 這次講講HIVE的ANALYZE TABLE命令,接下來還會講下Imp...
我們知道存儲在HDFS上的文件一般有多個副本,默認是3個,訪問這個文件是通過一個URL來的,但是這個文件到底存儲在哪個DataNode節點的什么...
工作中碰到個需求,需要我去SFTP服務器采集HIVE導出的數據,由于這個大數據平臺設計問題,很多東西沒考慮到,他們的導出方式是用HIVE提供的i...