k8s 網(wǎng)絡(luò)二 k8s組網(wǎng)與插件

主機(jī)內(nèi)組網(wǎng)

k8s主機(jī)內(nèi)組網(wǎng)模型是veth pair+bridge的方式。
k8s使用veth pair將容器與主機(jī)的網(wǎng)絡(luò)協(xié)議棧連接起來(lái),從而使數(shù)據(jù)包可以進(jìn)出pod。容器放在主機(jī)根network namespace中,veth pair的一端連接到linux網(wǎng)橋,可以讓同一節(jié)點(diǎn)上的各pod之間相互通信。

跨節(jié)點(diǎn)組網(wǎng)

k8s跨節(jié)點(diǎn)組網(wǎng)模型有bridge、overlay等。
bridge網(wǎng)絡(luò)本身不解決容器的跨節(jié)點(diǎn)通信,而是添加主機(jī)路由表,映射目標(biāo)容器網(wǎng)段和主機(jī)IP的關(guān)系,集群內(nèi)如果有N個(gè)主機(jī),則需要N-1條路由項(xiàng)。
overlay網(wǎng)絡(luò)構(gòu)建在物理網(wǎng)絡(luò)上的虛擬網(wǎng)絡(luò),VXLAN是主流的overlay標(biāo)準(zhǔn)。VXLAN是用UDP包頭封裝二層幀,即所謂的MAC in UDP。
為了讓多個(gè)Pod的網(wǎng)絡(luò)命名空間鏈接起來(lái),可以讓veth對(duì)的一端鏈接到root網(wǎng)絡(luò)命名空間(宿主機(jī)的),另一端鏈接到Pod的網(wǎng)絡(luò)命名空間。還需要Linux以太網(wǎng)橋,它是虛擬的二層網(wǎng)絡(luò)設(shè)備,把多個(gè)以太網(wǎng)段連接起來(lái),它維護(hù)轉(zhuǎn)發(fā)表,通過(guò)查看每個(gè)設(shè)備mac地址決定轉(zhuǎn)發(fā),還是丟棄數(shù)據(jù)。

跨節(jié)點(diǎn)通信
隧道方案( Overlay Networking )

隧道方案在IaaS層的網(wǎng)絡(luò)中應(yīng)用也比較多,但隨著節(jié)點(diǎn)規(guī)模的增長(zhǎng),復(fù)雜度會(huì)提升,而且跟蹤網(wǎng)絡(luò)問(wèn)題比較麻煩。
Weave:UDP廣播,本機(jī)建立新的BR,通過(guò)PCAP互通。
Open vSwitch(OVS):基于VxLan和GRE協(xié)議,但是性能方面損失比較嚴(yán)重。
Flannel:UDP廣播,VxLan。

overlay網(wǎng)絡(luò)是指在不改變現(xiàn)有網(wǎng)絡(luò)基礎(chǔ)設(shè)施的前提下,通過(guò)額外的網(wǎng)絡(luò)協(xié)議,把二層報(bào)文封裝在IP報(bào)文之上的新的數(shù)據(jù)格式,形成邏輯上的新網(wǎng)絡(luò)。這樣不但能夠充分利用成熟的ip路由協(xié)議進(jìn)行數(shù)據(jù)分發(fā),而且在overlay技術(shù)中采用擴(kuò)展的隔離標(biāo)識(shí)位數(shù),能夠突破vlan的4000數(shù)量限制,支持高達(dá)16M的用戶,并且在必要時(shí)將廣播流量轉(zhuǎn)化為組播流量,避免廣播數(shù)據(jù)泛濫。

flannel插件
flannel為每個(gè)主機(jī)的docker deamon分配一個(gè)ip段,通過(guò)etcd維護(hù)一個(gè)跨主機(jī)的路由表,容器之間的ip是可以互相連通的,當(dāng)兩個(gè)跨主機(jī)的容器要通信的時(shí)候,會(huì)在主機(jī)上修改數(shù)據(jù)包的header,修改目的地址和源地址,經(jīng)過(guò)路由表發(fā)送到目標(biāo)主機(jī)后解封。封包的方式,支持udp/vxlan/host-gw等,但是如果一個(gè)容器要暴露服務(wù),還是需要映射ip到主機(jī)側(cè)。

路由方案

一般是從3層或者2層實(shí)現(xiàn)隔離和跨主機(jī)容器互通的,出了問(wèn)題也容易排查。
Calico:基于BGP協(xié)議的路由方案,支持細(xì)粒度的ACL控制,對(duì)混合云親和度比較高。
Macvlan:從邏輯和Kernel層來(lái)看隔離性和性能最優(yōu)的方案,基于二層隔離,所以需要二層路由器支持,大多數(shù)云服務(wù)商不支持,所以混合云上較難實(shí)現(xiàn)。

calico插件
Calico是基于BGP的純?nèi)龑拥木W(wǎng)絡(luò)方案。Calico可以應(yīng)用在虛擬機(jī),物理機(jī),容器環(huán)境中。在Calico運(yùn)行的主機(jī)上可以看到大量由linux路由組成的路由表,這是calico通過(guò)自有組件動(dòng)態(tài)生成和管理的。但BGP帶給它的好處的同時(shí)也帶給他的劣勢(shì),BGP協(xié)議在企業(yè)內(nèi)部還很少被接受,企業(yè)網(wǎng)管不太愿意在跨網(wǎng)絡(luò)的路由器上開(kāi)啟BGP協(xié)議。
基于BGP的純?nèi)龑拥木W(wǎng)絡(luò)方案。Calico保證所有容器之間的數(shù)據(jù)流量都是通過(guò)IP路由的方式完成互聯(lián)互通。Calico節(jié)點(diǎn)組網(wǎng)可以直接利用數(shù)據(jù)中心的網(wǎng)絡(luò)結(jié)構(gòu)(L2或L3),不需要額外的NAT、隧道或者overlay network,沒(méi)有額外的封包解包,節(jié)約CPU運(yùn)算且提高網(wǎng)絡(luò)效率。容器的IP可以直接對(duì)外部訪問(wèn),可以直接分配到業(yè)務(wù)IP,而且如果網(wǎng)絡(luò)設(shè)備支持BGP的話,可以用它實(shí)現(xiàn)大規(guī)模的容器網(wǎng)絡(luò)。
calico插件可提供pod固定ip的解決方案。

三層(路由)和隧道的異同

相同之處是都實(shí)現(xiàn)了跨主機(jī)容器的三層互通,都是通過(guò)對(duì)目的 MAC 地址的操作來(lái)實(shí)現(xiàn)的。
不同之處是三層通過(guò)配置下一條主機(jī)的路由規(guī)則來(lái)實(shí)現(xiàn)互通,隧道是通過(guò)通過(guò)在 IP 包外再封裝一層 MAC 包頭來(lái)實(shí)現(xiàn)。
三層的優(yōu)點(diǎn):少了封包和解包的過(guò)程,性能更高。
三層的缺點(diǎn):需要自己維護(hù)路由規(guī)則。
隧道的優(yōu)點(diǎn):簡(jiǎn)單,原因是大部分工作都是已由 Linux 內(nèi)核的模塊實(shí)現(xiàn),應(yīng)用層工作量較少。
隧道的缺點(diǎn):性能低。

CNI

在k8s平臺(tái)上,通過(guò)CNI插件的方式部署容器網(wǎng)絡(luò)。
Container Networking Interface(CNI)定義的是容器運(yùn)行環(huán)境與網(wǎng)絡(luò)插件之間的接口規(guī)范,僅關(guān)心容器創(chuàng)建時(shí)的網(wǎng)絡(luò)配置和容器被銷(xiāo)毀時(shí)網(wǎng)絡(luò)資源的釋放。容器可以通過(guò)綁定多個(gè)CNI插件加入多個(gè)網(wǎng)絡(luò)中。
與CRI之于k8s的runtime類似。CNI是pod網(wǎng)絡(luò)的標(biāo)準(zhǔn)接口,通過(guò)JSON描述容器網(wǎng)絡(luò)配置,是k8s與底層網(wǎng)絡(luò)插件之間的抽象層。
要使用CNI網(wǎng)絡(luò)驅(qū)動(dòng)則需要配置參數(shù)--network-plugin=cni。k8s從--cni-conf-dir(默認(rèn)為/etc/cni/net.d)中讀取文件的CNI配置來(lái)配置每個(gè)pod網(wǎng)絡(luò)。CNI插件二進(jìn)制文件的目錄通過(guò)kubelet的--cni-bin-dir參數(shù)配置(默認(rèn)為/otp/cni/bin)。
CNI從v1.11版本開(kāi)始支持控制pod的帶寬。

網(wǎng)絡(luò)互通
  • pod到pod, 三層網(wǎng)絡(luò)的連通。 通過(guò)CNI實(shí)現(xiàn)。
  • pod到service, 四層負(fù)載均衡器。 通過(guò)kube-proxy實(shí)現(xiàn)。
  • pod到k8s外, 通過(guò)SNAT實(shí)現(xiàn)。
  • 主機(jī)到pod,
IP轉(zhuǎn)發(fā)

內(nèi)核態(tài)設(shè)置,允許將一個(gè)接口的流量轉(zhuǎn)發(fā)到另一個(gè)接口。該配置是linux內(nèi)核將流量從容器路由到外部所必須的。ipv4 forwarding。

橋接

k8s通過(guò)bridge-netfilter配置使iptables規(guī)則應(yīng)用到linux網(wǎng)橋上。該配置對(duì)linux內(nèi)核進(jìn)行宿主機(jī)和容器之間數(shù)據(jù)包的地址轉(zhuǎn)換是必須的。否則pod進(jìn)行外部服務(wù)網(wǎng)絡(luò)請(qǐng)求時(shí)會(huì)出現(xiàn)目標(biāo)主機(jī)不可達(dá)或者連接拒絕的錯(cuò)誤。

tips

“單pod單ip”網(wǎng)絡(luò)模型。實(shí)現(xiàn)k8s扁平化網(wǎng)絡(luò)。容器之間直接通信,不需要額外NAT。node與容器網(wǎng)絡(luò)直連,不需要額外NAT。
扁平化網(wǎng)絡(luò)的優(yōu)點(diǎn):沒(méi)有NAT帶來(lái)的性能損耗,可以追溯源地址,為網(wǎng)絡(luò)策略做鋪墊,降低網(wǎng)絡(luò)排錯(cuò)難度。

pod中docker容器和pod在同一個(gè)網(wǎng)絡(luò)命名空間內(nèi),所以ip和端口等網(wǎng)絡(luò)配置都和pod一樣,是docker的網(wǎng)絡(luò)模式是container,即和已經(jīng)存在的容器(pause容器)共享網(wǎng)絡(luò)。

參考

?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請(qǐng)聯(lián)系作者
平臺(tái)聲明:文章內(nèi)容(如有圖片或視頻亦包括在內(nèi))由作者上傳并發(fā)布,文章內(nèi)容僅代表作者本人觀點(diǎn),簡(jiǎn)書(shū)系信息發(fā)布平臺(tái),僅提供信息存儲(chǔ)服務(wù)。
  • 序言:七十年代末,一起剝皮案震驚了整個(gè)濱河市,隨后出現(xiàn)的幾起案子,更是在濱河造成了極大的恐慌,老刑警劉巖,帶你破解...
    沈念sama閱讀 228,786評(píng)論 6 534
  • 序言:濱河連續(xù)發(fā)生了三起死亡事件,死亡現(xiàn)場(chǎng)離奇詭異,居然都是意外死亡,警方通過(guò)查閱死者的電腦和手機(jī),發(fā)現(xiàn)死者居然都...
    沈念sama閱讀 98,656評(píng)論 3 419
  • 文/潘曉璐 我一進(jìn)店門(mén),熙熙樓的掌柜王于貴愁眉苦臉地迎上來(lái),“玉大人,你說(shuō)我怎么就攤上這事。” “怎么了?”我有些...
    開(kāi)封第一講書(shū)人閱讀 176,697評(píng)論 0 379
  • 文/不壞的土叔 我叫張陵,是天一觀的道長(zhǎng)。 經(jīng)常有香客問(wèn)我,道長(zhǎng),這世上最難降的妖魔是什么? 我笑而不...
    開(kāi)封第一講書(shū)人閱讀 63,098評(píng)論 1 314
  • 正文 為了忘掉前任,我火速辦了婚禮,結(jié)果婚禮上,老公的妹妹穿的比我還像新娘。我一直安慰自己,他們只是感情好,可當(dāng)我...
    茶點(diǎn)故事閱讀 71,855評(píng)論 6 410
  • 文/花漫 我一把揭開(kāi)白布。 她就那樣靜靜地躺著,像睡著了一般。 火紅的嫁衣襯著肌膚如雪。 梳的紋絲不亂的頭發(fā)上,一...
    開(kāi)封第一講書(shū)人閱讀 55,254評(píng)論 1 324
  • 那天,我揣著相機(jī)與錄音,去河邊找鬼。 笑死,一個(gè)胖子當(dāng)著我的面吹牛,可吹牛的內(nèi)容都是我干的。 我是一名探鬼主播,決...
    沈念sama閱讀 43,322評(píng)論 3 442
  • 文/蒼蘭香墨 我猛地睜開(kāi)眼,長(zhǎng)吁一口氣:“原來(lái)是場(chǎng)噩夢(mèng)啊……” “哼!你這毒婦竟也來(lái)了?” 一聲冷哼從身側(cè)響起,我...
    開(kāi)封第一講書(shū)人閱讀 42,473評(píng)論 0 289
  • 序言:老撾萬(wàn)榮一對(duì)情侶失蹤,失蹤者是張志新(化名)和其女友劉穎,沒(méi)想到半個(gè)月后,有當(dāng)?shù)厝嗽跇?shù)林里發(fā)現(xiàn)了一具尸體,經(jīng)...
    沈念sama閱讀 49,014評(píng)論 1 335
  • 正文 獨(dú)居荒郊野嶺守林人離奇死亡,尸身上長(zhǎng)有42處帶血的膿包…… 初始之章·張勛 以下內(nèi)容為張勛視角 年9月15日...
    茶點(diǎn)故事閱讀 40,833評(píng)論 3 355
  • 正文 我和宋清朗相戀三年,在試婚紗的時(shí)候發(fā)現(xiàn)自己被綠了。 大學(xué)時(shí)的朋友給我發(fā)了我未婚夫和他白月光在一起吃飯的照片。...
    茶點(diǎn)故事閱讀 43,016評(píng)論 1 371
  • 序言:一個(gè)原本活蹦亂跳的男人離奇死亡,死狀恐怖,靈堂內(nèi)的尸體忽然破棺而出,到底是詐尸還是另有隱情,我是刑警寧澤,帶...
    沈念sama閱讀 38,568評(píng)論 5 362
  • 正文 年R本政府宣布,位于F島的核電站,受9級(jí)特大地震影響,放射性物質(zhì)發(fā)生泄漏。R本人自食惡果不足惜,卻給世界環(huán)境...
    茶點(diǎn)故事閱讀 44,273評(píng)論 3 347
  • 文/蒙蒙 一、第九天 我趴在偏房一處隱蔽的房頂上張望。 院中可真熱鬧,春花似錦、人聲如沸。這莊子的主人今日做“春日...
    開(kāi)封第一講書(shū)人閱讀 34,680評(píng)論 0 26
  • 文/蒼蘭香墨 我抬頭看了看天上的太陽(yáng)。三九已至,卻和暖如春,著一層夾襖步出監(jiān)牢的瞬間,已是汗流浹背。 一陣腳步聲響...
    開(kāi)封第一講書(shū)人閱讀 35,946評(píng)論 1 288
  • 我被黑心中介騙來(lái)泰國(guó)打工, 沒(méi)想到剛下飛機(jī)就差點(diǎn)兒被人妖公主榨干…… 1. 我叫王不留,地道東北人。 一個(gè)月前我還...
    沈念sama閱讀 51,730評(píng)論 3 393
  • 正文 我出身青樓,卻偏偏與公主長(zhǎng)得像,于是被迫代替她去往敵國(guó)和親。 傳聞我的和親對(duì)象是個(gè)殘疾皇子,可洞房花燭夜當(dāng)晚...
    茶點(diǎn)故事閱讀 48,006評(píng)論 2 374

推薦閱讀更多精彩內(nèi)容