GooDs: Organizing Google’s Datasets <閱讀筆記> 參與了dantezhao的一個論文閱讀計劃 paper-notes 將閱讀成果分享到博客...
withColumn / withColumnRenamed 是 spark 中常用的 API,可以用于添加新字段 / 字段重命名 / 修改字段類型,但是當列的數量增加時,...
背景 大數據平臺早期是野蠻生長的,作業直接在終端提交運行,處于一種完全無管理的自由狀態。在17年上線了內部的大數據平臺后,用戶開始逐漸在平臺上進行數據管理,代碼編寫,作業管理...
背景 Delta Lake 進行數據刪除或更新操作時實際上只是對被刪除數據文件做了一個 remove 標記,在進行 vacuum 前并不會進行物理刪除,因此一些例如在 web...
Delta Lake當前版本(0.5)只支持API操作的,但是實現 Insert SQL 語法也不難,可以參考 Delta Lake 平臺化實踐(離線篇),需要注意的是 De...
本文是cloudera公司的一篇技術博客,原文地址:Hadoop Delegation Tokens Explained 譯文 Hadoop Security在2009年被設...
很久沒寫過部署文檔了,不過 Apache Ranger KMS 的手動部署較為繁瑣,網上的相關資料基本都是散裝的,因此寫了一篇進行總結。 背景 需要一個高可用的 KMS 服務...
Hadoop KMS(Key Management Server)是基于Hadoop的KeyProvider API的加密密鑰管理服務,采用對稱加密算法:AES加密算法;提供...
Delta 0.5 已于上周發布,增加了不少新特性,這篇文章主要講解其 Presto Integration 和 Manifests 機制。該功能與我們之前平臺化 Delta...
Delta Lake 是什么?簡單的說就是為大數據場景添加了事務功能,并且支持了 update/delete/merge into 等功能, Delta Lake 初探。本文...
對 spark 任務數據落地(HDFS) 碎片文件過多的問題的優化實踐及思考。 背景 此文是關于公司在 Delta Lake 上線之前對Spark任務寫入數據產生碎片文件優化...
數據接入 背景 使用界面化和 sql 的方式將數據導入到 druid,提供數據給后續告警,監控,查詢等服務使用。 方案設計 數據源1:內部消息服務 dclog ,本質上是一個...
有時候會發現即使是讀取少量的數據,啟動延時可能也非常大,針對該現象進行分析,并提供一些解決思路。 背景 Spark 一次查詢過程可以簡單抽象為 planning 階段和 ex...
Delta Lake 在說 Delta Lake 之前,要先提一下 Data Lake ,Data Lake 的主要思想是將企業中的所有數據進行統一管理。例如基于 Hadoo...