轉:http://www.ruijie.com.cn/fa/xw-hlw/61072/
1.概述
針對面向HPC業務的下一代數據中心網絡,基于INT和gRPC的Network Telemetry技術可以實現業務端到端的網絡流量可視化,打破“網絡黑盒”,為精細化網絡運維提供整體的解決方案和必要的技術支撐。
2.業務挑戰
首先,接入帶寬從傳統的10Gbps升級到25Gbps/100Gbps,需要基礎網絡提供高轉發能力保障業務的高可用。
其次,基于RDMA(Remote Direct Memory Access,遠程直接內存訪問)無損以太網技術的普遍應用,實現了計算節點到存儲節點的微秒級延時,大大優化端到端的業務轉發性能,而這也意味著對網絡運維提出了更高的挑戰——如何在大規模、復雜的HPC(High Performance Computing)網絡中實現更加精細的流量可視、可控?如何面向業務實現端到端的秒級故障定位,并為網絡的持續優化提供精準的數據支撐?
為了確保業務的高可靠,基于Scale out方式實現的分布式計算和存儲應用(Hadoop/ Map reduce/HDFS)得到了大規模使用
例如,當一臺Master節點向一組Slave節點發起一個計算任務請求時,所有Slave節點幾乎會同時返回計算結果數據,對于Master節點來說就產生了一個“微突發流”。
瞬時的多打一導致出接口報文擁塞,出接口緩存用完后會基于尾部丟棄機制進行丟包,應用監測到丟包后發起TCP重傳,造成數據端到端延時的進一步惡化,嚴重影響業務體驗。
3.解決方案(定位丟包點、轉發路徑上的時延)
針對網絡丟包引起的業務故障,需要網絡監控系統快速定位網絡中哪臺交換機的哪個端口因緩存不足導致了丟包。同時,重要業務端到端時延超出預期時,也需要定位流量轉發路徑上每個節點的轉發時延。
總結起來,需要網絡監控系統實現如下能力:
●快速定位哪臺交換機的哪個端口發生丟包;
●實時監控每臺交換機的Buffer使用情況;
●端到端時延可以定位到具體設備和鏈路。
通過在交換機中集成gRPC應用,定義靈活的數據格式以及數據推送的閾值來實現交換機自身狀態的主動推送能力,可以實現周期性推送交換機Buffer Usage、CPU、Memory等信息給監控服務器。
當發生Buffer不足導致丟包,也會實時通知給監控服務器,實現網絡運行數據的可視化。
gRPC的出現很好的解決了實時數據無法有效傳給監控服務器的問題。
INT的出現解決了轉發路徑和轉發時延不可見的問題。
在報文中增加出、入設備端口的時間,這樣就能計算出報文在每個設備的處理時長Cost.
以及路徑。