
背景 在調試flink寫hdfs和hive時,任務總是報各種各樣的異常,其中255問題最多,異常信息如下: 這段異常是yarn報出來的,根本原因是Direct Memory ...
上一篇中寫了Kafka to Hive的樣例,在實際測試過程中,發現性能比較差。 問題1 我使用的是Flink1.11.1版本,這個版本有個性能上的問題,見FLINK-191...
背景 傳統的入庫任務一般借助于MapReduce或者Spark來寫hive表,一般都是天級別最多小時級別的任務。隨著實時性要求越來越高,傳統的入庫不太能滿足需求。Flink完...
背景 Flink的filesystem connector支持寫入hdfs,同時支持基于Checkpoint的滾動策略,每次做Checkpoint時將inprogress的文...
前言 ZSTD壓縮算法是現在最流行壓縮算法了,有著高壓縮比和壓縮性能強的有點,已經被各大框架所使用。目前hadoop 3.1.0版本已經支持ZSTD算法。所以可以使用Flin...
背景 最近在用filesystem connector來寫hdfs,底層是通過StreamFileSink實現的。在看官方文檔[https://ci.apache.org/p...
代碼在flink-table-runtime-blink模塊,用戶指南參考官網[https://ci.apache.org/projects/flink/flink-docs...
前言 Flink jdbc connect已經為依賴于jdbc進行操作的數據庫系統提供了非常完善的功能。對于擴展只需要擴展其Dialect即可。 具體步驟 定義Customi...
背景 目前flink sql是不支持source/sink并行度配置的,flink sql中各算子并行度默認是根據source的partition數或文件數來決定的,比如常用...
前言 sql-cli相信大家都用過,通過sql-client.sh embedded啟動就會進入交互界面,每條sql都可以單獨執行。在功能調試時非常方便,還有進入界面的那個大...
Flink sql支持Map、Array、Row類型,這幾種類型在DDL中如何定義、如何獲取、如何構造,本文做個總結。 以如下數據作為樣例: 定義 獲取 構造
我們經常使用flink run命令提交一個jar任務,比如提交到yarn集群,那么執行這個命令的背后flink都做了什么,能將我們的job提交到集群呢。對此我有興趣一探究竟。...
Flink 1.11版本對Table&SQL模塊進行了重構,廢棄了TableEnvironment.sqlUpdate方法,引入了TableEnvironment.execu...
自定義TableFormat主要包含如下步驟: 實現TableFormatFactory接口 實現SerializationSchemaFactory、Deserializa...
Dynamic是1.11版本對table重構的新的接口,后者是1.11之前老的接口。
老接口對datastream嚴重依賴
Flink實戰之自定義flink sql connector背景 最近工作中需要自定義開發一些flink sql的connector,因為官方提供的connector畢竟有限,在我們工作中可能會用到各種各樣的中間件。所以官方沒有提供的...
補充一下,直接往hdfs寫這個policy是ok的,但是同樣的代碼應用到寫hive table里面就無法生成目標文件
Flink SQL FileSystem Connector分區提交與自定義小文件合并策略本文已授權「Flink中文社區」微信公眾號發布并標注原創。 Prologue 之前筆者在介紹Flink 1.11 Hive Streaming新特性時提到過,Flink SQ...
按照樓主的代碼測試之后,關鍵日志都打印出來了,也沒任何異常,合并后的文件就是沒有是什么情況,搞了今天也找不出原因,樓主有什么思路嗎?
Flink SQL FileSystem Connector分區提交與自定義小文件合并策略本文已授權「Flink中文社區」微信公眾號發布并標注原創。 Prologue 之前筆者在介紹Flink 1.11 Hive Streaming新特性時提到過,Flink SQ...
一、概述 ??上一篇實戰中我們已經使用ogg實現了mysql數據以json的格式同步到了kafka里邊去了,也就是說我們的源端的埋點的數據已經處理好咯;那么接下來我們就可以使...