JobManager 高可用 (HA)--v1.11官網(wǎng)譯文

概覽

JobManager協(xié)調(diào)每個Flink部署。 它負(fù)責(zé)調(diào)度和資源管理。

默認(rèn)情況下,每個Flink集群只有一個JobManager實例。 這將創(chuàng)建一個單點故障(SPOF):如果JobManager崩潰,則無法提交任何新程序,并且正在運行的程序也會失敗。

使用JobManager高可用性,您可以從JobManager故障中恢復(fù)并消除SPOF。 您可以為獨立群集和YARN群集配置高可用性。

在Flink Wiki中的?JobManager High Availability 中查看更多HA實現(xiàn)細(xì)節(jié)? ?。

獨立群集高可用性

獨立集群的JobManager高可用性的總體思想是,隨時有一個JobManager leader,并且有多個備用JobManager可以在leader失敗的情況下接管leader。 這樣可以保證不會出現(xiàn)單點故障,并且只要待機(jī)JobManager處于領(lǐng)導(dǎo)地位,程序就可以取得進(jìn)展。 備用JobManager實例和主JobManager實例之間沒有明顯區(qū)別。 每個JobManager都可以充當(dāng)主角色或備用角色。

作為示例,請考慮以下三個JobManager實例的設(shè)置:


1

配置

要啟用JobManager高可用性,您必須將高可用性模式設(shè)置為zookeeper,配置ZooKeeper?quorum并使用所有JobManager主機(jī)及其Web UI端口設(shè)置主文件。

Flink利用ZooKeeper在所有正在運行的JobManager實例之間進(jìn)行分布式協(xié)調(diào)。 ZooKeeper是Flink的一項獨立服務(wù),該服務(wù)通過leader選舉和輕量級一致狀態(tài)存儲提供高度可靠的分布式協(xié)調(diào)。 查看?ZooKeeper’s Getting Started Guide,了解有關(guān)ZooKeeper的更多信息。 Flink包含用于引導(dǎo)簡單的ZooKeeper安裝的腳本。

Masters File (masters)

為了啟動HA集群,請在conf / masters中配置masters文件:

masters文件:masters文件包含啟動了JobManager的所有主機(jī),以及Web用戶界面綁定的端口。

? ? ?jobManagerAddress1:webUIPort1

? ? ?[...]

? ? ?jobManagerAddressX:webUIPortX

默認(rèn)情況下,作業(yè)管理器將選擇一個隨機(jī)端口進(jìn)行進(jìn)程間通信。 您可以通過high-availability.jobmanager.port鍵更改此設(shè)置。 此key接受單個端口(例如50010),范圍(50000-50025)或兩者的組合(50010,50011,50020-50025,50050-50075)。

Config File (flink-conf.yaml)

為了啟動HA集群,請向 conf / flink-conf.yaml添加以下配置key:

高可用性模式(必需):必須在conf / flink-conf.yaml中將高可用性模式設(shè)置為zookeeper,以啟用高可用性模式。 或者,可以將此選項設(shè)置為Flink用來創(chuàng)建HighAvailabilityServices實例的工廠類的FQN。

? ? ? high-availability: zookeeper

ZooKeeper quorum?(必需):ZooKeeper quorum是ZooKeeper服務(wù)器的復(fù)制組,它們提供分布式協(xié)調(diào)服務(wù)。

? ? ?high-availability.zookeeper.quorum: address1:2181[,...],addressX:2181

每個addressX:port都引用一個ZooKeeper服務(wù)器,F(xiàn)link在給定的地址和端口可以訪問該服務(wù)器。

ZooKeeper root(推薦):根ZooKeeper節(jié)點,所有群集節(jié)點都放置在該根節(jié)點下。

? ? ?high-availability.zookeeper.path.root: /flink

ZooKeeper cluster-id(推薦):cluster-id ZooKeeper節(jié)點,在該節(jié)點下放置了群集的所有必需協(xié)調(diào)數(shù)據(jù)。

? ?? ??high-availability.cluster-id: /default_ns # important: customize per cluster

重要說明:在運行YARN群集,每作業(yè)YARN會話或在另一個群集管理器上時,您不應(yīng)手動設(shè)置此值。 在這些情況下,將根據(jù)應(yīng)用程序ID自動生成cluster-id。 手動設(shè)置cluster-id會覆蓋YARN中的此行為。 依次使用-z CLI選項指定集群ID會覆蓋手動配置。 如果您在裸機(jī)上運行多個Flink HA群集,則必須為每個群集手動配置單獨的群集ID。

存儲目錄(必需):JobManager元數(shù)據(jù)保留在文件系統(tǒng)storageDir中,并且僅指向此狀態(tài)的指針存儲在ZooKeeper中。

? ? ?high-availability.storageDir: hdfs:///flink/recovery

storageDir存儲恢復(fù)JobManager故障所需的所有元數(shù)據(jù)。

配置了主服務(wù)器和ZooKeeper quorum后,您可以照常使用提供的群集啟動腳本。 他們將啟動HA集群。 請記住,調(diào)用腳本時必須運行ZooKeeper quorum,并確保為要啟動的每個HA群集配置單獨的ZooKeeper根路徑。

Example: Standalone Cluster with 2 JobManagers

1?在conf / flink-conf.yaml中配置高可用性模式和ZooKeeper quorum

????????high-availability: zookeeper

????????high-availability.zookeeper.quorum: localhost:2181

????????high-availability.zookeeper.path.root: /flink

????????high-availability.cluster-id: /cluster_one # important: customize per cluster

????????high-availability.storageDir: hdfs:///flink/recovery

2??Configure masters?in?conf/masters:

????????localhost:8081

????????localhost:8082

3?在conf / zoo.cfg中配置ZooKeeper服務(wù)器(目前,每臺機(jī)器只能運行一個ZooKeeper服務(wù)器):

????????server.0=localhost:2888:3888

4?Start ZooKeeper quorum:

????????$ bin/start-zookeeper-quorum.sh

????????Starting zookeeper daemon on host localhost.

5?Start an HA-cluster:

????????$ bin/start-cluster.sh

????????Starting HA cluster with 2 masters and 1 peers in ZooKeeper quorum.

????????Starting standalonesession daemon on host localhost.

????????Starting standalonesession daemon on host localhost.

????????Starting taskexecutor daemon on host localhost.

6?Stop ZooKeeper quorum and cluster:

????????$ bin/stop-cluster.sh

????????Stopping taskexecutor daemon (pid: 7647) on localhost.

????????Stopping standalonesession daemon (pid: 7495) on host localhost.

????????Stopping standalonesession daemon (pid: 7349) on host localhost.

? ??????$ bin/stop-zookeeper-quorum.sh

? ??????Stopping zookeeper daemon (pid: 7101) on host localhost.


YARN Cluster High Availability

在運行高度可用的YARN群集時,我們不會運行多個JobManager(ApplicationMaster)實例,而只能運行一個實例,當(dāng)實例出現(xiàn)故障時,YARN會重新啟動該實例。 確切的行為取決于您使用的特定YARN版本。

Configuration

最大應(yīng)用程序主嘗試次數(shù)(yarn-site.xml)

您必須在yarn-site.xml中為YARN設(shè)置配置應(yīng)用程序主數(shù)據(jù)庫的最大嘗試次數(shù):


2

當(dāng)前YARN版本的默認(rèn)值為2(表示可以容忍單個JobManager故障)。

Application Attempts (flink-conf.yaml)

除了高可用性配置(參見上文),您還必須在conf / flink-conf.yaml中配置最大嘗試次數(shù):

? ? yarn.application-attempts: 10

這意味著在YARN使應(yīng)用程序失敗之前,可以為失敗的嘗試將應(yīng)用程序重新啟動9次(9次重試+ 1次初始嘗試)。 如果YARN操作需要,則YARN可以執(zhí)行其他重新啟動:搶占,節(jié)點硬件故障或重新啟動,或NodeManager重新同步。 這些重新啟動不計入yarn.application-attempts,請參閱Jian Fang的博客文章。 請務(wù)必注意,yarn.resourcemanager.am.max-attempts是應(yīng)用程序重新啟動的上限。 因此,在Flink中設(shè)置的應(yīng)用程序嘗試次數(shù)不能超過啟動YARN的YARN群集設(shè)置。

Container Shutdown Behaviour

YARN 2.3.0 <版本<2.4.0。 如果應(yīng)用程序主服務(wù)器失敗,則所有容器都將重新啟動。

YARN 2.4.0 <版本<2.6.0。 TaskManager容器在應(yīng)用程序主服務(wù)器發(fā)生故障時保持活動狀態(tài)。 這樣的優(yōu)點是啟動時間更快,并且用戶不必等待再次獲取容器資源。

YARN 2.6.0 <=版本:將嘗試失敗的有效性間隔設(shè)置為Flinks的Akka超時值。 嘗試失敗有效性間隔表示只有在系統(tǒng)在一個間隔內(nèi)看到最大次數(shù)的應(yīng)用程序嘗試后,才會終止應(yīng)用程序。 這樣可以避免長時間的工作會耗盡應(yīng)用程序的嘗試次數(shù)。

注意:Hadoop YARN 2.4.0有一個主要錯誤(已在2.5.0中修復(fù)),阻止容器從重新啟動的Application Master / Job Manager容器重新啟動。 有關(guān)詳細(xì)信息,請參見FLINK-4142。 對于YARN上的高可用性設(shè)置,我們建議至少使用Hadoop 2.5.0。

Example: Highly Available YARN Session

1?Configure HA mode and ZooKeeper quorum?in?conf/flink-conf.yaml:

????????high-availability: zookeeper

????????high-availability.zookeeper.quorum: localhost:2181

????????high-availability.storageDir: hdfs:///flink/recovery

????????high-availability.zookeeper.path.root: /flink

????????yarn.application-attempts: 10

2?Configure ZooKeeper server?in?conf/zoo.cfg?(currently it’s only possible to run a single ZooKeeper server per machine):

????????server.0=localhost:2888:3888

3?Start ZooKeeper quorum:

????????$ bin/start-zookeeper-quorum.sh

Starting zookeeper daemon on host localhost.

4?Start an HA-cluster:

????????$ bin/yarn-session.sh -n 2

Configuring for Zookeeper Security


如果ZooKeeper使用Kerberos在安全模式下運行,則可以根據(jù)需要在flink-conf.yaml中覆蓋以下配置:


3

有關(guān)用于Kerberos安全性的Flink配置的更多信息,請參見此處。 您還可以在此處找到有關(guān)Flink如何在內(nèi)部設(shè)置基于Kerberos的安全性的更多詳細(xì)信息。

Zookeeper Versions

Flink隨附了用于3.4和3.5的單獨Zookeeper客戶端,其中3.4位于發(fā)行版的lib目錄中,因此默認(rèn)使用,而3.5放置在opt目錄中。

3.5客戶端允許您通過SSL保護(hù)Zookeeper連接,但可能不適用于3.4- Zookeeper安裝。

您可以通過將任一jar放在lib目錄中來控制Flink使用哪個版本。

Bootstrap ZooKeeper

如果沒有正在運行的ZooKeeper安裝,則可以使用Flink附帶的幫助程序腳本。

conf / zoo.cfg中有一個ZooKeeper配置模板。 您可以配置主機(jī)以在server.X條目上運行ZooKeeper,其中X是每個服務(wù)器的唯一ID:


腳本bin / start-zookeeper-quorum.sh將在每個配置的主機(jī)上啟動ZooKeeper服務(wù)器。 啟動的進(jìn)程通過Flink包裝器啟動ZooKeeper服務(wù)器,該包裝器從conf / zoo.cfg中讀取配置,并確保設(shè)置一些必需的配置值以方便使用。 在生產(chǎn)設(shè)置中,建議管理您自己的ZooKeeper安裝。


原文鏈接?https://ci.apache.org/projects/flink/flink-docs-release-1.11/zh/ops/jobmanager_high_availability.html

最后編輯于
?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請聯(lián)系作者
平臺聲明:文章內(nèi)容(如有圖片或視頻亦包括在內(nèi))由作者上傳并發(fā)布,文章內(nèi)容僅代表作者本人觀點,簡書系信息發(fā)布平臺,僅提供信息存儲服務(wù)。
  • 序言:七十年代末,一起剝皮案震驚了整個濱河市,隨后出現(xiàn)的幾起案子,更是在濱河造成了極大的恐慌,老刑警劉巖,帶你破解...
    沈念sama閱讀 230,527評論 6 544
  • 序言:濱河連續(xù)發(fā)生了三起死亡事件,死亡現(xiàn)場離奇詭異,居然都是意外死亡,警方通過查閱死者的電腦和手機(jī),發(fā)現(xiàn)死者居然都...
    沈念sama閱讀 99,687評論 3 429
  • 文/潘曉璐 我一進(jìn)店門,熙熙樓的掌柜王于貴愁眉苦臉地迎上來,“玉大人,你說我怎么就攤上這事。” “怎么了?”我有些...
    開封第一講書人閱讀 178,640評論 0 383
  • 文/不壞的土叔 我叫張陵,是天一觀的道長。 經(jīng)常有香客問我,道長,這世上最難降的妖魔是什么? 我笑而不...
    開封第一講書人閱讀 63,957評論 1 318
  • 正文 為了忘掉前任,我火速辦了婚禮,結(jié)果婚禮上,老公的妹妹穿的比我還像新娘。我一直安慰自己,他們只是感情好,可當(dāng)我...
    茶點故事閱讀 72,682評論 6 413
  • 文/花漫 我一把揭開白布。 她就那樣靜靜地躺著,像睡著了一般。 火紅的嫁衣襯著肌膚如雪。 梳的紋絲不亂的頭發(fā)上,一...
    開封第一講書人閱讀 56,011評論 1 329
  • 那天,我揣著相機(jī)與錄音,去河邊找鬼。 笑死,一個胖子當(dāng)著我的面吹牛,可吹牛的內(nèi)容都是我干的。 我是一名探鬼主播,決...
    沈念sama閱讀 44,009評論 3 449
  • 文/蒼蘭香墨 我猛地睜開眼,長吁一口氣:“原來是場噩夢啊……” “哼!你這毒婦竟也來了?” 一聲冷哼從身側(cè)響起,我...
    開封第一講書人閱讀 43,183評論 0 290
  • 序言:老撾萬榮一對情侶失蹤,失蹤者是張志新(化名)和其女友劉穎,沒想到半個月后,有當(dāng)?shù)厝嗽跇淞掷锇l(fā)現(xiàn)了一具尸體,經(jīng)...
    沈念sama閱讀 49,714評論 1 336
  • 正文 獨居荒郊野嶺守林人離奇死亡,尸身上長有42處帶血的膿包…… 初始之章·張勛 以下內(nèi)容為張勛視角 年9月15日...
    茶點故事閱讀 41,435評論 3 359
  • 正文 我和宋清朗相戀三年,在試婚紗的時候發(fā)現(xiàn)自己被綠了。 大學(xué)時的朋友給我發(fā)了我未婚夫和他白月光在一起吃飯的照片。...
    茶點故事閱讀 43,665評論 1 374
  • 序言:一個原本活蹦亂跳的男人離奇死亡,死狀恐怖,靈堂內(nèi)的尸體忽然破棺而出,到底是詐尸還是另有隱情,我是刑警寧澤,帶...
    沈念sama閱讀 39,148評論 5 365
  • 正文 年R本政府宣布,位于F島的核電站,受9級特大地震影響,放射性物質(zhì)發(fā)生泄漏。R本人自食惡果不足惜,卻給世界環(huán)境...
    茶點故事閱讀 44,838評論 3 350
  • 文/蒙蒙 一、第九天 我趴在偏房一處隱蔽的房頂上張望。 院中可真熱鬧,春花似錦、人聲如沸。這莊子的主人今日做“春日...
    開封第一講書人閱讀 35,251評論 0 28
  • 文/蒼蘭香墨 我抬頭看了看天上的太陽。三九已至,卻和暖如春,著一層夾襖步出監(jiān)牢的瞬間,已是汗流浹背。 一陣腳步聲響...
    開封第一講書人閱讀 36,588評論 1 295
  • 我被黑心中介騙來泰國打工, 沒想到剛下飛機(jī)就差點兒被人妖公主榨干…… 1. 我叫王不留,地道東北人。 一個月前我還...
    沈念sama閱讀 52,379評論 3 400
  • 正文 我出身青樓,卻偏偏與公主長得像,于是被迫代替她去往敵國和親。 傳聞我的和親對象是個殘疾皇子,可洞房花燭夜當(dāng)晚...
    茶點故事閱讀 48,627評論 2 380