01 什么是數據漂移 數據漂移指的是在數據同步過程之中,ODS表同一個業務日期包含前一天的數據或丟失了當天的數據、或者包含后一天的數據。 02 ...
Spark任務通過application id在Spark UI查看任務執行狀態,任務大多數以on yarn的形式提交到Spark集群。 1、定...
Spark有BroadCastJoin、ShuffleHashJoin、SortMergeJoin三種join方式。首先講一下hash join...
1、union 和 union all的區別 union會對結果進行去重,union all會保留重復數據 2、窗口函數rank() over(...
1 整體優化思路 1、從數據任務本身出發,優化業務邏輯代碼,偏業務優化 2、 從集群的資源參數進行優化,偏技術優化 3、從全局的角度觀察任務的調...
給大家分享一些只有經歷了才能深切感同身受的幾句話,與君共勉: 1、人生沒有彩排,看似有意無意的安排,都會成為成為界定結果。 2、愿你好好珍惜現在...
01 國外有一個叫摩根的青年,每天閑的蛋疼,有天突發奇想——連續吃三十天麥當勞會怎樣? 他說干就干,一日三餐都吃麥當勞,連吃三十天。 他還用攝像...
2021 年,我給自己定的一個關鍵詞是「平衡」。 說到平衡,可能很多人會想到工作和生活的平衡,所謂的 Work-Life Balance。但我并...
Apache Flink是一個開源的分布式、高性能、高可用、準確的流處理框架。 主要由Java代碼實現。 支持實時流(stream)處理和批(b...