在上一篇文章中,介紹了 如何在 k8s 中無侵入安裝 Otel 探針 并實現了無侵入(某些語言還無法實現,比如 Go 的 eBPF 對內核的苛刻要求)的分布式跟蹤。
這篇文章發出后有讀者評論 javaagent 的“無侵入”一說,這里有必要解釋下。“無侵入”主要指的是不需要修改應用程序的業務邏輯代碼就能實現的功能,對應用程序透明無感知,讓開發者專注于業務開發;同時由于無需修改應用程序代碼,更易于集成;同時還維護簡單,在多種語言、框架間保證功能的一致性。
而 Java Agent 在 JVM 啟動時加載,它在運行時修改字節碼來注入跟蹤代碼,而不是在應用程序的源代碼層面上進行修改。
背景
分布式跟蹤
分布式跟蹤是監控和診斷微服務請求流程的關鍵技術,也是可觀測性的關鍵組成部分,提供了對微服務架構中復雜交互和性能問題的深入洞察。它通過提供服務間請求鏈路的清晰視圖來管理復雜性,并幫助識別性能瓶頸、優化資源分配、快速定位和解決故障,提高系統的整體可靠性。
服務網格的無侵入式分布式跟蹤
又是無侵入性!服務網格中的代理自動處理所有入站和出站的網絡通信,自動捕獲、記錄和分析服務間的請求和響應的詳細信息,如請求時間、持續時間、狀態代碼和其他元數據。這種 實現方式 對應用程序本身透明,并且較 Java Agent 在運行時修改字節碼更加徹底。
這里有個前提是應用程序能夠在請求中傳遞上下文信息,這樣 sidecar 代理生成和發送的跟蹤信息最終可以串聯在一起,不會發生斷鏈。
網格的無侵入式分布式跟蹤雖然為我們展示了請求的鏈路,但是如上圖所示每個跨度(span)都是 sidecar 代理的信息。
緊跟上篇文章之后,我們今天將探索 服務網格 FSM 與 OpenTelemetry 的集成,實現應用、網格的全鏈路分布式跟蹤。
演示
架構
環境配置
Jaeger、cert-manager 和 Otel operator 的安裝,請參考 上一篇文章。
配置 Instrumentation
接下來就是配置探針的安裝和配置了,詳細的配置說明,可以參考 Instrumentation API 文檔。
根據 FSM 分布式跟蹤文檔 的介紹,FSM 支持 Zipkin 的協議,因此在 propagators
中我們使用 b3multi
,使用 B3 的多標頭格式,在請求頭中傳遞如下的信息:
x-b3-traceid
x-b3-spanid
x-b3-parentspanid
x-b3-sampled
x-b3-flags
這次使用 sample
命名空間。
kubectl create namespace sample
kubectl apply -n sample -f - <<EOF
apiVersion: opentelemetry.io/v1alpha1
kind: Instrumentation
metadata:
name: instrumentation-sample
spec:
propagators:
- b3multi
sampler:
type: parentbased_traceidratio
argument: "1"
env:
- name: OTEL_EXPORTER_OTLP_ENDPOINT
value: otel-collector.default:4318
EOF
配置 OpenTelemetry Collector
Otel 收集器的詳細配置可以參考 官方文檔。
- 接收器(receiver),我們配置
otlp
來接收來自應用程序的跟蹤信息,使用zipkin
來接收來自 sidecar 的上報,使用端點0.0.0.0:9411
。 - 輸出器(exporter),配置 Jager 的 otlp 端點
jaeger.default:4317
。 - 管道服務(pipeline service),使用
otlp
和zipkin
作為輸入源,將 jaeger 作為輸出目的地。
kubectl apply -f - <<EOF
apiVersion: opentelemetry.io/v1alpha1
kind: OpenTelemetryCollector
metadata:
name: otel
spec:
config: |
receivers:
otlp:
protocols:
grpc:
http:
zipkin:
endpoint: "0.0.0.0:9411"
exporters:
otlp/jaeger:
endpoint: "jaeger.default:4317"
tls:
insecure: true
service:
pipelines:
traces:
receivers: [otlp, zipkin]
exporters: [otlp/jaeger]
EOF
安裝服務網格 FSM
我們通過 CLI 來安裝 FSM,現下載 FSM 使用當前最新的正式版 1.1.4。
system=$(uname -s | tr '[:upper:]' '[:lower:]')
arch=$(uname -m | sed -E 's/x86_/amd/' | sed -E 's/aarch/arm/')
release=v1.1.4
curl -L https://github.com/flomesh-io/fsm/releases/download/$release/fsm-$release-$system-$arch.tar.gz | tar -vxzf -
./$system-$arch/fsm version
在安裝時,啟用分布式跟蹤并將地址指向 Otel Collector 的 zipkin 接收器,zipkin 接收器端點為 /api/v2/spans
。
fsm install \
--set=fsm.tracing.enable=true \
--set=fsm.tracing.address=otel-collector.default \
--set=fsm.tracing.port=9411 \
--set=fsm.tracing.endpoint=/api/v2/spans
部署示例應用
將命名空間 sample
加入到服務網格中,部署應用。
fsm namespace add sample
kubectl apply -n sample -f https://raw.githubusercontent.com/addozhang/http-sample/main/manifests/service-v1.yaml
確認應用 pod 注入 sidecar 并正常運行。
kubectl get po -n sample
NAME READY STATUS RESTARTS AGE
service-c-66bf9dcc7b-pdj8p 2/2 Running 0 38s
service-b-586cfc5ccd-k9qrs 2/2 Running 0 37s
service-a-7cf7bc5bcc-tgjzz 2/2 Running 0 37s
測試
pod_name="$(kubectl get pod -n sample -l app=service-a -o jsonpath='{.items[0].metadata.name}')"
kubectl port-forward -n sample $pod_name 8080:8080 &
curl localhost:8080
發送請求后,打開 Jaeger UI。
jaeger_pod="$(kubectl get pod -l app=jaeger -o jsonpath='{.items[0].metadata.name}')"
kubectl port-forward $jaeger_pod 16686:16686 &
在 Jaeger UI 中,可以看到鏈路的內容更加的豐富:包含了應用程序和 sidecar 代理的跨度數據。