筆者最近在做一些任務的優化,大多的場景是因為采用row_number()進行分組去重,所以耗時特別高。樣例代碼如下: 原因 要做這個操作,不得不做的就是shuffle,而且因...

筆者最近在做一些任務的優化,大多的場景是因為采用row_number()進行分組去重,所以耗時特別高。樣例代碼如下: 原因 要做這個操作,不得不做的就是shuffle,而且因...
毛選中的大多數文章都是很簡短的,中心明確,沒有廢話。以這篇為例:怎樣分析農村階級(一九三三年十月)[https://www.marxists.org/chinese/maoz...
筆者之前對策略模式和模板方法的理解有些模糊,正好有空查查資料搞清楚兩者之間的區別。一句話來說就是: 策略模式:把具體實現都留給子類或者實現類。重子類 模板方法:父類定好算法框...
Rust編譯器不會保證類型的布局,但是提供了一個屬性用來對類型添加布局要求,如下所示: #[repr(C)]提供了兼容C/C++編譯器的類型布局,當你在使用FFI的時候會很有...
筆者今天遇到一個數據需求,計算從2024年1月1日到今天為止每一天的累計UV,即每一天都是一個從2024年1月1日累計到那一天的UV。 暴力法 一種從結果結果的辦法就是制作一...
筆者在這篇文章[http://www.lxweimin.com/p/3fc9b458bdab]中提到了如何使用SQL來完成時間段的一個合并,在完成該任務的同時不禁感嘆為啥提供...
數據湖自身會提供一些元數據的信息,我們可以利用這些信息進行快速粗略的數據校驗 分區數據數校驗 以Iceberg為例,catalog.db.tb2.partitions可以得到...
近期組內產品分享了關于指標的一些內容,其中最令我印象深刻的就是指標體系的構建,雖說在日常的業務開發中很多概念,比如活躍,留存,激活等都是明白的,但是這些離散的東西很難構成一個...
今天在看《Computer Networks:A Systems Approach》,讀到這段的時候有些感觸,基本涵蓋了整個軟件架構(開發)的整個過程。 To start u...
block、packet與chunk 在DFSClient寫HDFS的過程中,有三個需要搞清楚的單位:block、packet與chunk; block是最大的一個單位,它是...
一、背景 線上環境下,jvm經常發生full gc;運維監控方面,服務健康檢測不健康;用戶體驗方面,經常出現大量的慢接口調用。經觀察,這三者是伴隨發生的。起初,我們從慢接口入...
故事背景 數據處理邏輯:將一個json的數組從map結構里面扣出來然后將json數組里面的每一個元素和map結構里面的其他元素重新組成一個新的map,存入一個新表實現方式:采...
問題 使用SparkSQL將上述的數據根據嵌套提取成3列 解答 主要采用Spark 3.1.0新增的json_object_keys函數拿到key值,然后依次提取,最后輸出如...