Kubernetes網絡

kube-proxy

我們知道,Kubernetes中Pod的生命是短暫了,它隨時可能被終止。即使使用了Deployment或者ReplicaSet保證Pod掛掉之后還會重啟,但也沒法保證重啟后Pod的IP不變。從服務的高可用性與連續性的角度出發,我們不可能把Pod的IP直接暴露成service端口。因此我們需要一個更加可靠的“前端”去代理Pod,這就是k8s中的Service。引用官方文檔的定義就是:

Service 定義了這樣一種抽象:邏輯上的一組 Pod,一種可以訪問它們的策略 —— 通常稱為微服務。 這一組 Pod 能夠被 Service 訪問到。

也可以說,Service作為“前端”提供穩定的服務端口,Pod作為“后端”提供服務實現。Service會監控自己組內的Pod的運行狀態,剔除終止的Pod,添加新增的Pod。配合k8s的服務發現機制,我們再也不用擔心IP改變,Pod終止等問題了。kube-proxy則是實現Service的關鍵組件,到目前為止共有3種實現模式:userspace、iptables 或者 IPVS。其中userspace 模式非常陳舊、緩慢,已經不推薦使用。

IP Tables模式

iptables 是一個 Linux 內核功能,是一個高效的防火墻,并提供了大量的數據包處理和過濾方面的能力。它可以在核心數據包處理管線上用 Hook 掛接一系列的規則。在K8S中,kube-proxy 會把請求的代理轉發規則全部寫入iptable中,砍掉了kube-proxy轉發的部分,整個過程發生在內核空間,提高了轉發性能,但是iptable的規則是基于鏈表實現的,規則數量隨著Service數量的增加線性增加,查找時間復雜度為O(n),也就是說,當Service數量到達一定量級時,CPU消耗和延遲將顯著增加。

IP VS模式

IPVS 是一個用于負載均衡的 Linux 內核功能。IPVS 模式下,kube-proxy 使用 IPVS 負載均衡代替了 iptable。IPVS 的設計就是用來為大量服務進行負載均衡的,它有一套優化過的 API,使用優化的查找算法,而不是簡單的從列表中查找規則。這樣一來,kube-proxy 在 IPVS 模式下,其連接過程的復雜度為 O(1)。換句話說,多數情況下,他的連接處理效率是和集群規模無關的。另外作為一個獨立的負載均衡器,IPVS 包含了多種不同的負載均衡算法,例如輪詢、最短期望延遲、最少連接以及各種哈希方法等。而 iptables 就只有一種隨機平等的選擇算法。IPVS 的一個潛在缺點就是,IPVS 處理數據包的路徑和通常情況下 iptables 過濾器的路徑是不同的。

通過下圖,可以簡單的看出Client pod 、kube proxy 、Pod之間的關系。Service的虛擬Ip會寫到ip tables/ip vs中,被轉發到真正的Pod地址。

image.png

IP Tables & IP VS 網絡扭轉


image.png

流程簡述如下:

  1. kube-proxy DNAT + SNAT 用自己的 IP 替換源 IP ,用 Pod IP 替換掉目的 IP
  2. 數據包轉發到目標 Pod
  3. Pod 將 Ingress Node 視為源,并作出響應
  4. 源 / 目的地址在 Ingress Node 替換為客戶端地址(目的) ,服務地址(Ingress Node)

性能對比

image.png

image.png

總結下IPVS & IPTables

1.在小規模的集群中,兩者在CPU和響應時間上,差別不大,無論是keep alive 還是non keep alive 。

2.在大規模集群中,兩者會慢慢在響應時間以及CPU上都會出現區別,不過在使用keep alive的情況下,區別還是主要來源于CPU的使用。

3.ipvs 基于散列表,復雜度 O(1),iptables 基于鏈表,復雜度 O(n)

4.ipvs 支持多種負載均衡調度算法;iptables 只有由 statistic 模塊的 DNAT 支持概率輪詢。

PS:要注意,在微服務的情況下,調用鏈會非常長,兩者影響效果會更顯著一些。

eBPF

什么是eBPF?

Linux內核一直是實現監視/可觀察性,網絡和安全性的理想場所。不幸的是,這通常是不切實際的,因為它需要更改內核源代碼或加載內核模塊,并導致彼此堆疊的抽象層。 eBPF是一項革命性的技術,可以在Linux內核中運行沙盒程序,而無需更改內核源代碼或加載內核模塊。通過使Linux內核可編程,基礎架構軟件可以利用現有的層,從而使它們更加智能和功能豐富,而無需繼續為系統增加額外的復雜性層。

eBPF導致了網絡,安全性,應用程序配置/跟蹤和性能故障排除等領域的新一代工具的開發,這些工具不再依賴現有的內核功能,而是在不影響執行效率或安全性的情況下主動重新編程運行時行為。對于云原生領域,Cilium 已經使用eBPF 實現了無kube-proxy的容器網絡。利用eBPF解決iptables帶來的性能問題。

通過的 eBPF 實現,可以保留原始源 IP,并且可以選擇執行直接服務器返回 (DSR)。即返回流量可以選擇最優路徑,而無需通過原始入口節點環回,如下圖:


image.png

簡述流程如下:

  1. BPF program 將數據發送給 K8s service; 做負載均衡決策并將數據包發送給目的 pod 節點
  2. BPF program 程序將 DNAT 轉換成 Pod 的IP
  3. Pod 看到客戶端真正的 IP
  4. Pod 做出響應; BPF 反向 DNAT
  5. 如果網絡準許,數據包直接返回。否則將通過 Ingress Node (ingress controller Pod 所在服務器)

性能

網絡吞吐

測試環境:兩臺物理節點,一個發包,一個收包,收到的包做 Service loadbalancing 轉發給后端 Pods。


image.png

可以看出:

  1. Cilium XDP eBPF 模式能處理接收到的全部 10Mpps(packets per second)。
  2. Cilium tc eBPF 模式能處理 3.5Mpps。
  3. kube-proxy iptables 只能處理 2.3Mpps,因為它的 hook 點在收發包路徑上更后面的位置。
  4. kube-proxy ipvs 模式這里表現更差,它相比 iptables 的優勢要在 backend 數量很多的時候才能體現出來。

CPU 利用率

測試生成了 1Mpps、2Mpps 和 4Mpps 流量,空閑 CPU 占比(可以被應用使用的 CPU)結果如下:


image.png

結論與上面吞吐類似。

  • XDP 性能最好,是因為 XDP BPF 在驅動層執行,不需要將包 push 到內核協議棧
  • kube-proxy 不管是 iptables 還是 ipvs 模式,都在處理軟中斷(softirq)上消耗了大量 CPU。

eBPF簡化服務網格

首先看下Service Mesh

image.png

這是一張經典的service mesh圖,在eBPF之前,kubernetes服務網格解決方案是要求我們在每一個應用pod上添加一個代理Sidecar容器,如:Envoy/Linkerd-proxy。

:即使在一個非常小的環境中,比如說有20個服務,每個服務運行5個pod,分在3個節點上,你也有100個代理容器。無論代理的實現多么小和有效,這種純粹的重復都會浪費資源。每個代理使用的內存與它需要能夠通信的服務數量有關。

問題:

為什么我們需要所有這些 sidecar?這種模式允許代理容器與 pod 中的應用容器共享一個網絡命名空間。網絡命名空間是 Linux 內核的結構,它允許容器和 pod 擁有自己獨立的網絡堆棧,將容器化的應用程序相互隔離。這使得應用之間互不相干,這就是為什么你可以讓盡可能多的 pod 在 80 端口上運行一個 web 應用 —— 網絡命名空間意味著它們各自擁有自己的 80 端口。代理必須共享相同的網絡命名空間,這樣它就可以攔截和處理進出應用容器的流量。

eBPF的sidecar less proxy model

基于eBPF的Cilium項目,最近將這種“無 sidecar”模式帶到了服務網格的世界。除了傳統的 sidecar 模型,Cilium 還支持每個節點使用一個 Envoy 代理實例運行服務網格的數據平面。使用上面的例子,這就把代理實例的數量從 100 個減少到只有 3 個。

image.png

支持eBPF的網絡允許數據包走捷徑,繞過內核部分網絡對戰,這可以使kubernetes網絡的性能得到更加顯著的改善,如下圖:


image.png

在服務網格的情況,代理在傳統網絡中作為sidecar運行,數據包到達應用程序的路徑相當曲折:入棧數據包必須穿越主機TPC/IP棧,通過虛擬以太網連接到達pod的網絡命名空間。從那里,數據包必須穿過pod的網絡對戰到達代理,代理講數據包通過回環接口轉發到應用程序,考慮到流量必須在連接的兩端流經代理,于非服務網格流量相比,這將導致延遲的顯著增加。

而基于eBPF的kubernetes CNI實現,如Cilium,可以使用eBPF程序,明智的勾住內核中的特定點,沿著更加直接的路線重定向數據包。因為Cilium知道所有的kubernetes斷點和服務的身份。當數據包到達主機時,Cilium 可以將其直接分配到它所要去的代理或 Pod 端點。

總結

通過以上的內容,我想大家對kube-proxy和基于eBPF的CNI插件Cilium已經有了一些了解。可以看到在云原生領域,Cilium 已經使用eBPF 實現了無kube-proxy的容器網絡。利用eBPF解決iptables帶來的性能問題。另外以上也只是介紹了eBPF的網絡方面,其實eBPF在跟蹤、安全、負載均衡、故障分析等領域都是eBPF的主戰場,而且還有更多更多的可能性正在被發掘。

?著作權歸作者所有,轉載或內容合作請聯系作者
平臺聲明:文章內容(如有圖片或視頻亦包括在內)由作者上傳并發布,文章內容僅代表作者本人觀點,簡書系信息發布平臺,僅提供信息存儲服務。
  • 序言:七十年代末,一起剝皮案震驚了整個濱河市,隨后出現的幾起案子,更是在濱河造成了極大的恐慌,老刑警劉巖,帶你破解...
    沈念sama閱讀 229,406評論 6 538
  • 序言:濱河連續發生了三起死亡事件,死亡現場離奇詭異,居然都是意外死亡,警方通過查閱死者的電腦和手機,發現死者居然都...
    沈念sama閱讀 99,034評論 3 423
  • 文/潘曉璐 我一進店門,熙熙樓的掌柜王于貴愁眉苦臉地迎上來,“玉大人,你說我怎么就攤上這事?!?“怎么了?”我有些...
    開封第一講書人閱讀 177,413評論 0 382
  • 文/不壞的土叔 我叫張陵,是天一觀的道長。 經常有香客問我,道長,這世上最難降的妖魔是什么? 我笑而不...
    開封第一講書人閱讀 63,449評論 1 316
  • 正文 為了忘掉前任,我火速辦了婚禮,結果婚禮上,老公的妹妹穿的比我還像新娘。我一直安慰自己,他們只是感情好,可當我...
    茶點故事閱讀 72,165評論 6 410
  • 文/花漫 我一把揭開白布。 她就那樣靜靜地躺著,像睡著了一般。 火紅的嫁衣襯著肌膚如雪。 梳的紋絲不亂的頭發上,一...
    開封第一講書人閱讀 55,559評論 1 325
  • 那天,我揣著相機與錄音,去河邊找鬼。 笑死,一個胖子當著我的面吹牛,可吹牛的內容都是我干的。 我是一名探鬼主播,決...
    沈念sama閱讀 43,606評論 3 444
  • 文/蒼蘭香墨 我猛地睜開眼,長吁一口氣:“原來是場噩夢啊……” “哼!你這毒婦竟也來了?” 一聲冷哼從身側響起,我...
    開封第一講書人閱讀 42,781評論 0 289
  • 序言:老撾萬榮一對情侶失蹤,失蹤者是張志新(化名)和其女友劉穎,沒想到半個月后,有當地人在樹林里發現了一具尸體,經...
    沈念sama閱讀 49,327評論 1 335
  • 正文 獨居荒郊野嶺守林人離奇死亡,尸身上長有42處帶血的膿包…… 初始之章·張勛 以下內容為張勛視角 年9月15日...
    茶點故事閱讀 41,084評論 3 356
  • 正文 我和宋清朗相戀三年,在試婚紗的時候發現自己被綠了。 大學時的朋友給我發了我未婚夫和他白月光在一起吃飯的照片。...
    茶點故事閱讀 43,278評論 1 371
  • 序言:一個原本活蹦亂跳的男人離奇死亡,死狀恐怖,靈堂內的尸體忽然破棺而出,到底是詐尸還是另有隱情,我是刑警寧澤,帶...
    沈念sama閱讀 38,849評論 5 362
  • 正文 年R本政府宣布,位于F島的核電站,受9級特大地震影響,放射性物質發生泄漏。R本人自食惡果不足惜,卻給世界環境...
    茶點故事閱讀 44,495評論 3 348
  • 文/蒙蒙 一、第九天 我趴在偏房一處隱蔽的房頂上張望。 院中可真熱鬧,春花似錦、人聲如沸。這莊子的主人今日做“春日...
    開封第一講書人閱讀 34,927評論 0 28
  • 文/蒼蘭香墨 我抬頭看了看天上的太陽。三九已至,卻和暖如春,著一層夾襖步出監牢的瞬間,已是汗流浹背。 一陣腳步聲響...
    開封第一講書人閱讀 36,172評論 1 291
  • 我被黑心中介騙來泰國打工, 沒想到剛下飛機就差點兒被人妖公主榨干…… 1. 我叫王不留,地道東北人。 一個月前我還...
    沈念sama閱讀 52,010評論 3 396
  • 正文 我出身青樓,卻偏偏與公主長得像,于是被迫代替她去往敵國和親。 傳聞我的和親對象是個殘疾皇子,可洞房花燭夜當晚...
    茶點故事閱讀 48,241評論 2 375

推薦閱讀更多精彩內容