Flink 使用之 MySQL CDC

Flink 使用介紹相關(guān)文檔目錄

Flink 使用介紹相關(guān)文檔目錄

CDC 簡介

CDC即Change Data Capture 變更數(shù)據(jù)捕獲,為Flink 1.11中一個(gè)新增功能。我們可以通過CDC得知數(shù)據(jù)源表的更新內(nèi)容(包含Insert Update和Delete),并將這些更新內(nèi)容作為數(shù)據(jù)流發(fā)送到下游系統(tǒng)。捕獲到的數(shù)據(jù)操作具有一個(gè)標(biāo)識符,分別對應(yīng)數(shù)據(jù)的增加,修改和刪除。

  • +I:新增數(shù)據(jù)。
  • -U:一條數(shù)據(jù)的修改會產(chǎn)生兩個(gè)U標(biāo)識符數(shù)據(jù)。其中-U含義為修改前數(shù)據(jù)。
  • +U:修改之后的數(shù)據(jù)。
  • -D:刪除的數(shù)據(jù)。

MySQL 啟用binlog

接下來以MySQL CDC為例,和大家一起配置Flink MySQL CDC。

在使用CDC之前務(wù)必要開啟MySQL的binlog。下面以MySQL 5.7版本為例說明。

修改my.cnf文件,在[mysqld]一節(jié)增加:

server_id=1
log_bin=mysql-bin
binlog_format=ROW
expire_logs_days=30
binlog_do_db=db_a
binlog_do_db=db_b

配置項(xiàng)的解釋如下:

  • server_id:MySQL5.7及以上版本開啟binlog必須要配置這個(gè)選項(xiàng)。對于MySQL集群,不同節(jié)點(diǎn)的server_id必須不同。對于單實(shí)例部署則沒有要求。
  • log_bin:指定binlog文件名和儲存位置。如果不指定路徑,默認(rèn)位置為/var/lib/mysql/
  • binlog_format:binlog格式。有3個(gè)值可以選擇:ROW:記錄哪條數(shù)據(jù)被修改和修改之后的數(shù)據(jù),會產(chǎn)生大量日志。STATEMENT:記錄修改數(shù)據(jù)的SQL,日志量較小。MIXED:混合使用上述兩個(gè)模式。CDC要求必須配置為ROW。
  • expire_logs_days:bin_log過期時(shí)間,超過該時(shí)間的log會自動(dòng)刪除。
  • binlog_do_db:binlog記錄哪些數(shù)據(jù)庫。如果需要配置多個(gè)庫,如例子中配置多項(xiàng)。切勿使用逗號分隔。

配置文件修改完畢后保存并重啟MySQL。然后進(jìn)入MySQL命令行,驗(yàn)證是否已啟用binlog:

mysql> show variables like '%bin%';
+--------------------------------------------+--------------------------------+
| Variable_name                              | Value                          |
+--------------------------------------------+--------------------------------+
| bind_address                               | *                              |
| binlog_cache_size                          | 32768                          |
| binlog_checksum                            | CRC32                          |
| binlog_direct_non_transactional_updates    | OFF                            |
| binlog_error_action                        | ABORT_SERVER                   |
| binlog_format                              | ROW                            |
| binlog_group_commit_sync_delay             | 0                              |
| binlog_group_commit_sync_no_delay_count    | 0                              |
| binlog_gtid_simple_recovery                | ON                             |
| binlog_max_flush_queue_time                | 0                              |
| binlog_order_commits                       | ON                             |
| binlog_row_image                           | FULL                           |
| binlog_rows_query_log_events               | OFF                            |
| binlog_stmt_cache_size                     | 32768                          |
| binlog_transaction_dependency_history_size | 25000                          |
| binlog_transaction_dependency_tracking     | COMMIT_ORDER                   |
| innodb_api_enable_binlog                   | OFF                            |
| innodb_locks_unsafe_for_binlog             | OFF                            |
| log_bin                                    | ON                             |
| log_bin_basename                           | /var/lib/mysql/mysql-bin       |
| log_bin_index                              | /var/lib/mysql/mysql-bin.index |
| log_bin_trust_function_creators            | OFF                            |
| log_bin_use_v1_row_events                  | OFF                            |
| log_statements_unsafe_for_binlog           | ON                             |
| max_binlog_cache_size                      | 18446744073709547520           |
| max_binlog_size                            | 1073741824                     |
| max_binlog_stmt_cache_size                 | 18446744073709547520           |
| sql_log_bin                                | ON                             |
| sync_binlog                                | 1                              |
+--------------------------------------------+--------------------------------+
29 rows in set (0.00 sec)

發(fā)現(xiàn)log_bin的值為ON。binlog配置已生效。

初始化MySQL 源數(shù)據(jù)表

到這里MySQL環(huán)境已經(jīng)配置完畢。接下來開始準(zhǔn)備測試表和數(shù)據(jù)。

create database demo character set utf8mb4;
use demo;

create table student(`id` int primary key, `name` varchar(128), `age` int);

這里創(chuàng)建了演示數(shù)據(jù)庫demo和一張student表。

使用Java代碼讀取CDC數(shù)據(jù)流

到這一步我們開始使用Flink程序來獲取CDC數(shù)據(jù)流。

使用傳統(tǒng)MySQL 數(shù)據(jù)源方式

首先需要引入Flink Connector MySQL CDC依賴。

<dependency>
    <groupId>com.alibaba.ververica</groupId>
    <artifactId>flink-connector-mysql-cdc</artifactId>
    <version>1.3.0</version>
</dependency>

然后使用Table API編寫程序。這里我們僅僅將CDC數(shù)據(jù)流配置為數(shù)據(jù)源,然后將CDC數(shù)據(jù)流的內(nèi)容打印出來。

val env = StreamExecutionEnvironment.getExecutionEnvironment

// 使用MySQLSource創(chuàng)建數(shù)據(jù)源
// 同時(shí)指定StringDebeziumDeserializationSchema,將CDC轉(zhuǎn)換為String類型輸出
val sourceFunction = MySQLSource.builder().hostname("your-ip").port(3306)
    .databaseList("demo").username("root").password("123456")
    .deserializer(new StringDebeziumDeserializationSchema).build();

// 單并行度打印,避免輸出亂序
env.addSource(sourceFunction).print.setParallelism(1)

env.execute()

此時(shí)我們插入一條數(shù)據(jù):

insert into student values(2, 'kate', 28);

可以看到程序有如下輸出:

SourceRecord{sourcePartition={server=mysql_binlog_source}, sourceOffset={ts_sec=1618390979, file=mysql-bin.000003, pos=885, row=1, server_id=1, event=2}} ConnectRecord{topic='mysql_binlog_source.demo.student', kafkaPartition=null, key=Struct{id=2}, keySchema=Schema{mysql_binlog_source.demo.student.Key:STRUCT}, value=Struct{after=Struct{id=2,name=kate,age=28},source=Struct{version=1.4.1.Final,connector=mysql,name=mysql_binlog_source,ts_ms=1618390979000,db=demo,table=student,server_id=1,file=mysql-bin.000003,pos=1011,row=0,thread=2},op=c,ts_ms=1618391175254}, valueSchema=Schema{mysql_binlog_source.demo.student.Envelope:STRUCT}, timestamp=null, headers=ConnectHeaders(headers=)}

使用SQL

接下來我們使用更為簡潔的SQL方式。

首先引入Flink SQL必須的依賴。需要注意的是,這里使用blink planner。本例子中使用Scala語言編寫,所以引入了Scala相關(guān)依賴。

<dependency>
    <groupId>org.apache.flink</groupId>
    <artifactId>flink-table-api-scala-bridge_${scala.binary.version}</artifactId>
    <version>${flink.version}</version>
</dependency>
<dependency>
    <groupId>org.apache.flink</groupId>
    <artifactId>flink-table-planner-blink_${scala.binary.version}</artifactId>
    <version>${flink.version}</version>
</dependency>
<dependency>
    <groupId>org.apache.flink</groupId>
    <artifactId>flink-streaming-scala_${scala.binary.version}</artifactId>
    <version>${flink.version}</version>
</dependency>

<dependency>
    <groupId>com.alibaba.ververica</groupId>
    <artifactId>flink-connector-mysql-cdc</artifactId>
    <version>1.3.0</version>
</dependency>

編寫如下所示的程序代碼:

// 創(chuàng)建Blink Streaming的TableEnvironment
val bsSettings = EnvironmentSettings.newInstance().useBlinkPlanner().inStreamingMode().build()
val tableEnvironment = TableEnvironment.create(bsSettings)

// 創(chuàng)建表,connector使用mysql-cdc
tableEnvironment.executeSql("CREATE TABLE mysql_binlog (id INT NOT NULL, name STRING, age INT) WITH ('connector' = 'mysql-cdc', 'hostname' = '10.180.210.135', 'port' = '3306', 'username' = 'root', 'password' = '123456', 'database-name' = 'demo', 'table-name' = 'student')")

// 創(chuàng)建下游數(shù)據(jù)表,這里使用print類型的connector,將數(shù)據(jù)直接打印出來
tableEnvironment.executeSql("CREATE TABLE sink_table (id INT NOT NULL, name STRING, age INT) WITH ('connector' = 'print')")

// 將CDC數(shù)據(jù)源和下游數(shù)據(jù)表對接起來
tableEnvironment.executeSql("INSERT INTO sink_table SELECT id, name, age FROM mysql_binlog")

接下來可以執(zhí)行insert語句插入數(shù)據(jù),控制臺會打印出數(shù)據(jù)的變化。

例如我們依次執(zhí)行:

insert into student values(1,'paul',20);
update student set age=30 where id=1;
delete from student where id=1;

在控制臺可以得到如下輸出:

+I(1,paul,20)
-U(1,paul,20)
+U(1,paul,30)
-D(1,paul,30)

使用SQL Client讀取CDC

相比較創(chuàng)建一個(gè)Java項(xiàng)目以jar包的方式創(chuàng)建作業(yè),F(xiàn)llink提供了一個(gè)更為簡單的方式:使用 SQL Client。接下來我們開始配置SQL Client環(huán)境。

配置Flink環(huán)境

在Flink SQL Client使用CDC功能之前,我們需要將相關(guān)依賴放入Flink目錄。

訪問https://mvnrepository.com/artifact/com.alibaba.ververica/flink-connector-mysql-cdc/,下載flink-connector-mysql-cdcjar包,復(fù)制到flink安裝位置的lib目錄中。

啟動(dòng)Flink SQL Client

這里SQL Client在standalone集群上運(yùn)行。

官網(wǎng)配置方式鏈接:https://ci.apache.org/projects/flink/flink-docs-master/docs/dev/table/sqlclient/#getting-started,簡單來說是執(zhí)行Flink安裝目錄如下兩個(gè)命令:

./bin/start-cluster.sh
./bin/sql-client.sh embedded

如果沒有問題,此時(shí)可以進(jìn)入SQL Client。

執(zhí)行如下SQL(和上一章"使用SQL"使用的語句相同):

CREATE TABLE mysql_binlog (
 id INT NOT NULL,
 name STRING,
 age INT
) WITH (
 'connector' = 'mysql-cdc',
 'hostname' = 'localhost',
 'port' = '3306',
 'username' = 'root',
 'password' = '123456',
 'database-name' = 'demo',
 'table-name' = 'student'
);

CREATE TABLE sink_table (
 id INT NOT NULL,
 name STRING,
 age INT
) WITH (
    'connector' = 'print'
);

INSERT INTO sink_table SELECT id, name, age FROM mysql_binlog;

然后在MySQL命令行執(zhí)行些insert語句插入數(shù)據(jù)。需要注意的是sink_table的輸出是無法在SQL client上面查看的。需要打開Flink Web UI的Task Managers頁面的stdout標(biāo)簽。可以找到類似如下輸出:

+I(1,paul,20)
-U(1,paul,20)
+U(1,paul,30)
-D(1,paul,30)

Flink 已經(jīng)成功捕獲到MySQL的數(shù)據(jù)變更。

最后編輯于
?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請聯(lián)系作者
平臺聲明:文章內(nèi)容(如有圖片或視頻亦包括在內(nèi))由作者上傳并發(fā)布,文章內(nèi)容僅代表作者本人觀點(diǎn),簡書系信息發(fā)布平臺,僅提供信息存儲服務(wù)。
  • 序言:七十年代末,一起剝皮案震驚了整個(gè)濱河市,隨后出現(xiàn)的幾起案子,更是在濱河造成了極大的恐慌,老刑警劉巖,帶你破解...
    沈念sama閱讀 230,182評論 6 543
  • 序言:濱河連續(xù)發(fā)生了三起死亡事件,死亡現(xiàn)場離奇詭異,居然都是意外死亡,警方通過查閱死者的電腦和手機(jī),發(fā)現(xiàn)死者居然都...
    沈念sama閱讀 99,489評論 3 429
  • 文/潘曉璐 我一進(jìn)店門,熙熙樓的掌柜王于貴愁眉苦臉地迎上來,“玉大人,你說我怎么就攤上這事。” “怎么了?”我有些...
    開封第一講書人閱讀 178,290評論 0 383
  • 文/不壞的土叔 我叫張陵,是天一觀的道長。 經(jīng)常有香客問我,道長,這世上最難降的妖魔是什么? 我笑而不...
    開封第一講書人閱讀 63,776評論 1 317
  • 正文 為了忘掉前任,我火速辦了婚禮,結(jié)果婚禮上,老公的妹妹穿的比我還像新娘。我一直安慰自己,他們只是感情好,可當(dāng)我...
    茶點(diǎn)故事閱讀 72,510評論 6 412
  • 文/花漫 我一把揭開白布。 她就那樣靜靜地躺著,像睡著了一般。 火紅的嫁衣襯著肌膚如雪。 梳的紋絲不亂的頭發(fā)上,一...
    開封第一講書人閱讀 55,866評論 1 328
  • 那天,我揣著相機(jī)與錄音,去河邊找鬼。 笑死,一個(gè)胖子當(dāng)著我的面吹牛,可吹牛的內(nèi)容都是我干的。 我是一名探鬼主播,決...
    沈念sama閱讀 43,860評論 3 447
  • 文/蒼蘭香墨 我猛地睜開眼,長吁一口氣:“原來是場噩夢啊……” “哼!你這毒婦竟也來了?” 一聲冷哼從身側(cè)響起,我...
    開封第一講書人閱讀 43,036評論 0 290
  • 序言:老撾萬榮一對情侶失蹤,失蹤者是張志新(化名)和其女友劉穎,沒想到半個(gè)月后,有當(dāng)?shù)厝嗽跇淞掷锇l(fā)現(xiàn)了一具尸體,經(jīng)...
    沈念sama閱讀 49,585評論 1 336
  • 正文 獨(dú)居荒郊野嶺守林人離奇死亡,尸身上長有42處帶血的膿包…… 初始之章·張勛 以下內(nèi)容為張勛視角 年9月15日...
    茶點(diǎn)故事閱讀 41,331評論 3 358
  • 正文 我和宋清朗相戀三年,在試婚紗的時(shí)候發(fā)現(xiàn)自己被綠了。 大學(xué)時(shí)的朋友給我發(fā)了我未婚夫和他白月光在一起吃飯的照片。...
    茶點(diǎn)故事閱讀 43,536評論 1 374
  • 序言:一個(gè)原本活蹦亂跳的男人離奇死亡,死狀恐怖,靈堂內(nèi)的尸體忽然破棺而出,到底是詐尸還是另有隱情,我是刑警寧澤,帶...
    沈念sama閱讀 39,058評論 5 363
  • 正文 年R本政府宣布,位于F島的核電站,受9級特大地震影響,放射性物質(zhì)發(fā)生泄漏。R本人自食惡果不足惜,卻給世界環(huán)境...
    茶點(diǎn)故事閱讀 44,754評論 3 349
  • 文/蒙蒙 一、第九天 我趴在偏房一處隱蔽的房頂上張望。 院中可真熱鬧,春花似錦、人聲如沸。這莊子的主人今日做“春日...
    開封第一講書人閱讀 35,154評論 0 28
  • 文/蒼蘭香墨 我抬頭看了看天上的太陽。三九已至,卻和暖如春,著一層夾襖步出監(jiān)牢的瞬間,已是汗流浹背。 一陣腳步聲響...
    開封第一講書人閱讀 36,469評論 1 295
  • 我被黑心中介騙來泰國打工, 沒想到剛下飛機(jī)就差點(diǎn)兒被人妖公主榨干…… 1. 我叫王不留,地道東北人。 一個(gè)月前我還...
    沈念sama閱讀 52,273評論 3 399
  • 正文 我出身青樓,卻偏偏與公主長得像,于是被迫代替她去往敵國和親。 傳聞我的和親對象是個(gè)殘疾皇子,可洞房花燭夜當(dāng)晚...
    茶點(diǎn)故事閱讀 48,505評論 2 379

推薦閱讀更多精彩內(nèi)容