什么是 Gravitino 引用官方文檔 Apache Gravitino 是一個(gè)高性能、地理分布式、聯(lián)邦式元數(shù)據(jù)湖。它能夠直接管理不同數(shù)據(jù)源、類型及區(qū)域的元數(shù)據(jù),同時(shí)為用戶...

什么是 Gravitino 引用官方文檔 Apache Gravitino 是一個(gè)高性能、地理分布式、聯(lián)邦式元數(shù)據(jù)湖。它能夠直接管理不同數(shù)據(jù)源、類型及區(qū)域的元數(shù)據(jù),同時(shí)為用戶...
前置知識(shí): RDD 與算子: RDD(類似 Stream) RDD(彈性分布式數(shù)據(jù)集)是 Spark 的核心抽象,代表一個(gè)分布式的、不可變的數(shù)據(jù)集合。它允許開發(fā)人員以容錯(cuò)的方...
概要 MapReduce 是一個(gè)處理和生成大數(shù)據(jù)集的程序模型和相關(guān)實(shí)現(xiàn)。用戶定義一個(gè) map 函數(shù):處理一個(gè) key/value 對(duì)生成一組中間鍵值對(duì),和一個(gè)Reduce 函...
前言 貪心是人類自帶的能力,貪心算法是在貪心決策上進(jìn)行統(tǒng)籌規(guī)劃的統(tǒng)稱。 比如一道常見的算法筆試題----跳一跳: 有n個(gè)盒子排成一行,每個(gè)盒子上面有一個(gè)數(shù)字a[i],表示最多...
參考文獻(xiàn):https://mp.weixin.qq.com/s/7Rq0LFhIs8oJoDRmNqrKqw 日志最主要的采集工具是 Agent,在 Kubernetes 場(chǎng)...
寫一下個(gè)人spark實(shí)現(xiàn)的es completion suggester,目錄如下, Overview 檢索建議suggestion(補(bǔ)全completion和糾正corre...
Ranger介紹 2016年,Hadoop迎來了自己十周歲生日。過去的十年,Hadoop雄霸武林盟主之位,號(hào)令天下,引領(lǐng)大數(shù)據(jù)技術(shù)生態(tài)不斷發(fā)展壯大,一時(shí)間百家爭(zhēng)鳴,百花齊放。...
0 前言 對(duì)于存儲(chǔ)介質(zhì)為磁盤或SSD的數(shù)據(jù)庫(kù),長(zhǎng)期以來主流使用B+樹這種索引結(jié)構(gòu)來實(shí)現(xiàn)快速數(shù)據(jù)查找。當(dāng)數(shù)據(jù)量不太大時(shí),B+樹讀寫性能表現(xiàn)非常好。但是在海量數(shù)據(jù)情況下,B+樹越...
本篇文章內(nèi)的源碼: 這里[https://gitee.com/wo883721/compilers] 一. 概念 1.1 串首終結(jié)符集 定義: 給定一個(gè)文法符號(hào)串α, α的...