GooDs: Organizing Google’s Datasets <閱讀筆記> 參與了dantezhao的一個(gè)論文閱讀計(jì)劃 paper-notes 將閱讀成果分享到博客...
GooDs: Organizing Google’s Datasets <閱讀筆記> 參與了dantezhao的一個(gè)論文閱讀計(jì)劃 paper-notes 將閱讀成果分享到博客...
本文是cloudera公司的一篇技術(shù)博客,原文地址:Hadoop Delegation Tokens Explained 譯文 Hadoop Security在2009年被設(shè)...
Hadoop KMS(Key Management Server)是基于Hadoop的KeyProvider API的加密密鑰管理服務(wù),采用對(duì)稱加密算法:AES加密算法;提供...
Delta Lake 是什么?簡(jiǎn)單的說就是為大數(shù)據(jù)場(chǎng)景添加了事務(wù)功能,并且支持了 update/delete/merge into 等功能, Delta Lake 初探。本文...
對(duì) spark 任務(wù)數(shù)據(jù)落地(HDFS) 碎片文件過多的問題的優(yōu)化實(shí)踐及思考。 背景 此文是關(guān)于公司在 Delta Lake 上線之前對(duì)Spark任務(wù)寫入數(shù)據(jù)產(chǎn)生碎片文件優(yōu)化...
數(shù)據(jù)接入 背景 使用界面化和 sql 的方式將數(shù)據(jù)導(dǎo)入到 druid,提供數(shù)據(jù)給后續(xù)告警,監(jiān)控,查詢等服務(wù)使用。 方案設(shè)計(jì) 數(shù)據(jù)源1:內(nèi)部消息服務(wù) dclog ,本質(zhì)上是一個(gè)...
本文基于 Spark 2.1 進(jìn)行解析 前言 從 Spark 2.0 開始移除了Hash Based Shuffle,想要了解可參考Shuffle 過程,本文將講解 Sort...