
背景 對于億級規模的數據量,使用傳統數據庫分析會比較低效且耗時。 這時就引入了OLAP引擎,本文以impala和spark為主進行介紹。 OLA...
當接到復雜的業務需求需要產出多張報表時,首先需要將需求理解透徹,然后梳理清楚包含哪些指標,然后設計報表的物理存儲結構。 具體從以下角度出發: 1...
真真假假一查便知。 筆者以武漢為例說一下如何查證。 搜索武漢房管局,第一條就是,點擊即可。 找到辦事服務,點擊商品房項目查詢 找到你想要的樓盤 ...
1.使用explain查看執行計劃 建表優化 2.開啟動態分區配置,使用分區過濾3.分桶表 語法優化 a. 分區過濾和列過濾,減少數據量和降低讀...
Spark UI 上面顯示的 Storage Memory 可用內存其實等于 Execution 內存和 Storage 內存之和,也就是 us...
hive timestamp 與impala顯示不一致 hive ''和null 不一致 導入hive \n\r 特殊字符 hive 動態分區插入
知音號里面的劇情是上世紀二三十年代的大武漢,船上有不同的角色,名伶、報童、商賈…… 你可以自由地穿梭在各個角落,在演員之間駐足,甚至與他們共舞對...
傳統的離線 Batch SQL (面向有界數據集的 SQL)有三種基礎的實現方式,分別是 Nested-loop Join(嵌套循環)、Sort...
Window概述 streaming流式計算是一種被設計用于處理無限數據集的數據處理引擎,而無限數據集是指一種不斷增長的本質上無限的數據集,而w...