背景介紹 在交互式分析場景下,很多時(shí)候除了固定字段之外,還會(huì)有一些動(dòng)態(tài)字段的需求。比如,在游戲場景下,需要?jiǎng)討B(tài)存儲(chǔ)用戶每個(gè)游戲的play時(shí)長。 ...
ReplicatedMergeTree是ClickHouse最常用的表引擎之一,該引擎和MergeTree一樣都繼承自MergeTreeData...
因?yàn)楣ぷ髦杏玫絚alcite做SQL query engine,所以對(duì)calcite的源代碼做了一些研究,其中VolcanoPlanner是非常...
在maintain我們的daily spark jobs時(shí),發(fā)現(xiàn)有的時(shí)候一些spark jobs在insert數(shù)據(jù)到hive table時(shí)會(huì)在所...
本文基于spark streaming通過direct mode訪問kafka的場景,從源碼出發(fā)分析spark streaming如何實(shí)現(xiàn)數(shù)據(jù)讀...
本文討論跟執(zhí)行內(nèi)存密切相關(guān)的一個(gè)組件:TaskMemoryManager(下文簡稱TMM)。TMM是tungsten內(nèi)存管理機(jī)制的核心實(shí)現(xiàn)類(t...
漫談Spark內(nèi)存管理(一)有提到問題:“ Spark中用到內(nèi)存的地方有哪些?存儲(chǔ)內(nèi)存主要消耗在哪些地方?執(zhí)行內(nèi)存主要消耗在哪些地方?”。本文就...
Spark的join操作可能觸發(fā)shuffle操作。shuffle操作要經(jīng)過磁盤IO,網(wǎng)絡(luò)傳輸,對(duì)性能影響比較大。本文聊一聊Spark的join...
在漫談Spark內(nèi)存管理(一)中,概述了Spark內(nèi)存管理做的事情,并著重對(duì)unroll memory的概念做了解釋及分析。本文繼續(xù)討論Spar...