Operations Service提供監控管理服務,主要包括:
- 日志等級管理(/logspec):動態獲取和設置peer和orderer的日志等級。
- 健康檢查(/healthz ):檢查peer和orderer是否存活以及健康狀態。
- 運維信息監控(/metrics ):提供運維指標數據,支持Prometheus和StatsD統計數據。
適用場景
- 日志等級管理:適用于聯盟鏈管理人員或者開發人員對Fabric的日志等級進行實時變更以定位問題。
- 健康檢查:可以獲知節點的健康狀況,兼容Kubernetes的容器檢測探針liveness probe等。
- 運維信息監控:主要對外提供運維信息數據,適用于聯盟鏈管理人員對Fabric的運行情況進行實時監控;可以支持第三方運維工具的集成,對Fabric運行狀況和性能進行分析。
技術實現
Operation Service在peer或orderer啟動的過程中,創建了一個http服務器處理日志等級管理、健康檢查和運維信息獲取三類請求。
1)日志等級管理
日志管理主體功能模塊位于common/flogging,主要基于高性能的zap日志庫,對zapcore進行了定制開發。通過重寫zapcore的Check函數(common/flogging/core.go,在Write之前調用),對將要寫入的日志進行等級判斷,實現日志等級的實時變更。
2)健康檢查
健康檢查通過查詢Docker服務的狀態來確定peer和orderer是否仍處于健康狀態。只要結構體實現HealthCheck(context.Context) error(位于github.com/hyperledger/fabric-lib-go/healthz/checker.go)的健康檢查接口,并且通過RegisterChecker函數進行注冊,則可以實現對應功能的健康檢查。官網上說暫時只支持對docker容器的檢查,目前本文調研時使用的版本(commitID為334a66f17e91666d583ec1e5720419de38153ebd)可以支持如下檢查:
- peer:couchdb是否可以正常連接;docker容器是否可以連接;
- orderer:是否可以向kafka發送消息。
3)運維信息監控
運維信息監控包括Prometheus和StatsD兩種第三方組件的接入:
A. Prometheus
Prometheus是開源的監控框架。Fabric支持Prometheus接入,主要使用go-kit庫和Prometheus庫。
Prometheus記載的時序數據分為四種:Counter, Gauge, Histogram, Summary。Fabric僅使用了前三種,這三種類型的簡介如下:
- Counter:單調遞增的計數器,常用于記錄服務請求總量、任務完成數目、錯誤總數等。
- Gauge:一個單獨的數值,可以增加或減少,常用于記錄內存使用率、磁盤使用率、并發請求數等。
- Histogram:直方圖采樣數據,對一段時間范圍內的數據進行采樣,按照指定區間和總數進行統計,會生成三個記錄數據<basename>_bucket,<basename>_count和<basename>_sum。其中bucket形式為<basename>_bucket{le="<upper inclusive bound>"};count是bucket數目,即<basename>_bucket{le="+Inf"}的值;sum是總數。
Fabric在需要記錄信息的模塊,創建相應的結構體,比如peer endorser模塊的EndorserMetrics:
var (
proposalDurationHistogramOpts = metrics.HistogramOpts{
Namespace: "endorser",
Name: "propsal_duration",
Help: "The time to complete a proposal.",
LabelNames: []string{"channel", "chaincode", "success"},
StatsdFormat: "%{#fqname}.%{channel}.%{chaincode}.%{success}",
}
receivedProposalsCounterOpts = metrics.CounterOpts{
Namespace: "endorser",
Name: "proposals_received",
Help: "The number of proposals received.",
}
successfulProposalsCounterOpts = metrics.CounterOpts{
Namespace: "endorser",
Name: "successful_proposals",
Help: "The number of successful proposals.",
}
……
)
func NewEndorserMetrics(p metrics.Provider) *EndorserMetrics {
return &EndorserMetrics{
ProposalDuration: p.NewHistogram(proposalDurationHistogramOpts),
ProposalsReceived: p.NewCounter(receivedProposalsCounterOpts),
SuccessfulProposals: p.NewCounter(successfulProposalsCounterOpts),
ProposalValidationFailed: p.NewCounter(proposalValidationFailureCounterOpts),
ProposalACLCheckFailed: p.NewCounter(proposalChannelACLFailureOpts),
InitFailed: p.NewCounter(initFailureCounterOpts),
EndorsementsFailed: p.NewCounter(endorsementFailureCounterOpts),
DuplicateTxsFailure: p.NewCounter(duplicateTxsFailureCounterOpts),
}
}
Fabric將需要記錄的信息寫入相應的指標記錄器中,代碼如下:
// ProcessProposal process the Proposal
func (e *Endorser) ProcessProposal(ctx context.Context, signedProp *pb.SignedProposal) (*pb.ProposalResponse, error) {
// start time for computing elapsed time metric for successfully endorsed proposals
startTime := time.Now()
// 請求接收數目加1
e.Metrics.ProposalsReceived.Add(1)
……
meterLabels := []string{
"channel", chainID,
"chaincode", hdrExt.ChaincodeId.Name + ":" + hdrExt.ChaincodeId.Version,
"success", strconv.FormatBool(success),
}
// 添加請求時長值
e.Metrics.ProposalDuration.With(meterLabels...).Observe(time.Since(startTime).Seconds())
目前Fabric統計的指標具體參見:https://hyperledger-fabric.readthedocs.io/en/release-1.4/metrics_reference.html。
B. StatsD
StatsD是一個簡單的網絡守護進程,基于 Node.js,通過 UDP 或者 TCP 方式偵聽各種統計信息,并發送聚合信息到后端服務,如 Graphite。Fabric支持StatsD接入,主要使用go-kit庫,記載的時序數據也是分為Counter, Gauge, Histogram(實際上是StatsD中的Timer)三種,使用邏輯和Prometheus類似,但是讀取數據的方式上看,Prometheus是從Fabric拉取數據,而StatsD是Fabric向StatsD推送數據。
實際操作
Operations Service可以配置監聽地址和TLS,配置內容如下:
operations: # host and port for the operations server listenAddress: 127.0.0.1:9443 # TLS configuration for the operations endpoint tls: # TLS enabled enabled: false # path to PEM encoded server certificate for the operations server cert: file: # path to PEM encoded server key for the operations server key: file: # most operations service endpoints require client authentication when TLS # is enabled. clientAuthRequired requires client certificate authentication # at the TLS layer to access all resources. clientAuthRequired: false # paths to PEM encoded ca certificates to trust for client authentication clientRootCAs: files: []
1)日志等級管理
查看日志等級可以使用如下命令:
curl http://127.0.0.1:9443/logspec
其中地址和端口為peer或orderer映射出的地址和端口(默認端口是9443),獲得信息示例如下:
{"spec":"info"}
設置日志等級可以使用如下命令:
curl -i -X PUT -H "Content-Type: application/json" -d "{\"spec\":\"debug\"}" http://127.0.0.1:9443/logspec
設置以后可以查看log,實時生效。
設置日志等級時傳入參數的格式如下,可以支持多模塊不同日志等級。
[<logger>[,<logger>...]=]<level>[:[<logger>[,<logger>...]=]<level>...]
目前,不同模塊設置不同日志等級的情況,只有官網提供的修改合約日志等級的參數,如下所示:
{"spec":"chaincode=debug:info"}
2)健康檢查
查看健康情況可以使用如下命令:
curl http://127.0.0.1:9443/healthz
其中地址和端口為peer或orderer映射出的地址和端口(默認端口是9443),正常情況下獲得信息示例如下:
{"status":"OK","time":"2019-06-04T09:31:39.2034071Z"}
目前peer可以檢查docker容器和couchdb是否可以正常連接;orderer可以檢查kafka是否可以向其發送消息。如果peer的couchdb容器宕機了,獲得信息如下:
{
"status": "Service Unavailable",
"time": "2019-06-05T03:33:58.4322205Z",
"failed_checks": [
{
"component": "couchdb",
"reason": "failed to connect to couch db [Head http://couchdb0:5984: dial tcp: lookup couchdb0 on 127.0.0.11:53: no such host]"
}
]
}
3)運維信息監控
Prometheus
A. 安裝Prometheus
首先,從官網(https://prometheus.io/download/)下載Prometheus的軟件包,直接解壓到相應目錄即可,命令如下:
tar xvfz prometheus-*.tar.gz
cd prometheus-*
B. 修改Prometheus相關配置文件
【此處使用fabric-sample中提供的first-network示例】
修改Fabric的docker-compose.yaml文件,在peer的環境變量中添加:
- CORE_METRICS_PROVIDER=prometheus
在orderer的環境變量中添加:
- CORE_METRICS_PROVIDER=prometheus
需要修改prometheus.yml文件,添加Fabric環境中的peer和orderer參數,具體參照如下內容:
# my global config
global:
scrape_interval: 15s # Set the scrape interval to every 15 seconds. Default is every 1 minute.
evaluation_interval: 15s # Evaluate rules every 15 seconds. The default is every 1 minute.
# scrape_timeout is set to the global default (10s).
# Attach these labels to any time series or alerts when communicating with
# external systems (federation, remote storage, Alertmanager).
external_labels:
monitor: 'codelab-monitor'
# Alertmanager configuration
alerting:
alertmanagers:
- static_configs:
- targets:
# - alertmanager:9093
# Load rules once and periodically evaluate them according to the global 'evaluation_interval'.
rule_files:
# - "second_rules.yml"
# A scrape configuration containing exactly one endpoint to scrape:
scrape_configs:
- job_name: 'fabric'
# Override the global default and scrape targets from this job every 5 seconds.
scrape_interval: 5s
static_configs:
- targets: ['localhost:9443']
labels:
group: 'peer0_org1'
- targets: ['localhost:10443']
labels:
group: 'peer1_org1'
- targets: ['localhost:11443']
labels:
group: 'peer0_org2'
- targets: ['localhost:12443']
labels:
group: 'peer1_org2'
- targets: ['localhost:8443']
labels:
group: 'orderer'
主要關注scrape_configs,其中添加了名字為fabric的job,其中static_configs中添加需要監控的節點,targets中填寫operations服務的地址和監聽端口(默認是9443),labels.group中填寫分組的名稱。以上示例把peer分成不同的組,也可以根據組織合并為一個組,如下所示:
static_configs:
- targets: ['localhost:9443', 'localhost:10443']
labels:
group: 'peers_org1'
- targets: ['localhost:11443', 'localhost:12443']
labels:
group: 'peers_org2'
C. 啟動Prometheus
首先啟動Fabric環境,待Fabric環境啟動完成后,運行如下命令啟動Prometheus:
./prometheus --config.file=prometheus.yml
使用瀏覽器訪問http://localhost:9090即可查看Prometheus監控面板,可以選擇指標或者寫入查詢語句,點擊execute查看圖表,如下圖所示:
D. 可以配置Grafana可視化工具
參照官網說明(https://grafana.com/grafana/download)下載Grafana軟件后,使用瀏覽器訪問http://localhost:3000(默認用戶名admin,密碼admin),配置數據源為Prometheus,即可定制可視化監控界面。具體流程可參照https://prometheus.io/docs/visualization/grafana/。界面如下圖所示:
StatsD
A. 下載StatsD + Graphite + Grafana的docker鏡像
Graphite主要由監聽器carbon,時序數據庫whisper和圖形展示django-webapp三個組件構成。一般使用StatsD + Graphite + Grafana這三個框架搭建運維可視化界面。該鏡像集成了StatsD + Graphite + Grafana 4 + Kamon(https://hub.docker.com/r/kamon/grafana_graphite)。使用如下命令拉取鏡像:
docker pull kamon/grafana_graphite
B. 啟動docker容器
使用如下命令啟動容器:
docker run -d\
--name graphite\
--restart=always\
-p 80:80\
-p 81:81\
-p 2003:2003\
-p 8125:8125/udp\
-p 8126:8126\
kamon/grafana_graphite
C. 修改Fabric配置文件
【此處使用fabric-sample中提供的first-network示例】
修改Fabric的docker-compose.yaml文件,在peer的環境變量中添加:
- CORE_METRICS_PROVIDER= statsd
- CORE_METRICS_STATSD_PREFIX=peer0_org1
- CORE_METRICS_STATSD_ADDRESS=192.168.101.76:8125
在orderer的環境變量中添加:
- ORDERER_METRICS_PROVIDER=statsd
- ORDERER_METRICS_STATSD_PREFIX=orderer
- ORDERER_METRICS_STATSD_ADDRESS=192.168.101.76:8125
如上所示,需要配置prefix用于區分節點,配置address是StatsD的地址和端口,即docker容器映射的地址和端口。
D. 查看界面
訪問http://localhost:81可以查看Graphite界面,如下:
訪問http://localhost可以查看Grafana界面,具體配置方法見前面Prometheus的描述。界面如下: