Delta Lake 是什么?簡單的說就是為大數據場景添加了事務功能,并且支持了 update/delete/merge into 等功能, D...

Delta Lake 是什么?簡單的說就是為大數據場景添加了事務功能,并且支持了 update/delete/merge into 等功能, D...
Delta 0.5 已于上周發布,增加了不少新特性,這篇文章主要講解其 Presto Integration 和 Manifests 機制。該功...
前言 Spark YarnShuffleService是作為Hadoop Yarn模塊中NodeManager的輔助服務寄生在其進程內部,大家都...
數據本地性是 Spark 等計算引擎從計算性能方面去考量的一個重要指標,對于某個數據分片的運算,Spark 在調度側會做數據本地性的預測,然后盡...
什么是 ConfigMap 顧名思義,用來存配置的Map,可以存單個配置或者配置文件,在 POD 中我們可以通過環境變量來訪問單個配置和配置文件...
漫談Spark內存管理(一)有提到問題:“ Spark中用到內存的地方有哪些?存儲內存主要消耗在哪些地方?執行內存主要消耗在哪些地方?”。本文就...
原文 前段時間工作中踩到SPARK-21444的坑,這里做個記錄。 1 場景描述 我們的一個spark app在正常運行幾個月后經常出現driv...
場景 spark streaming接受到數據后,在spark中進行存儲,之后將kafka確認信息存儲到zookeeper上(kafka的偏移量...
目錄 流量控制簡介 Spark Streaming流控基本設置 Spark Streaming反壓機制的具體實現動態流量控制器基于PID機制的速...
在Kafka、Storm、Flink、Spark Streaming等分布式流處理系統中(沒錯,Kafka本質上是流處理系統,不是單純的“消息隊...