使用filebeat收集ES集群運行日志和慢日志并寫入到ES
背景
Elasticsearch集群運行過程中,運行日志和慢日志能夠幫助集群使用者迅速定位出現的問題。鑒于Elasticsearch的一大應用場景是日志收集,因此我們嘗試使用filebeat收集Elasticsearch集群各節點中的運行日志和慢日志,并寫入到另一個公共的Elasticsearch集群中,使用Kibana進行日志檢索。
為什么是filebeat
filebeat歸屬于Beats家族,使用go語言開發,是一個輕量的日志收集器,因為輕量所以適用于部署在需要收集日志的服務器中。相比之下,另一個可用于日志收集的logstash組件就比較笨重了,運行于JVM中,占用服務器資源比filebeat多,所以不適用直接部署在服務器中,但是logstash對已采集數據的清洗、過濾等處理能力要比filebeat強。通常的日至系統架構中,將filebeat部署在服務器中用于收集日志,然后寫入到單獨部署的logstash集群中,經logstash對日志內容進行統一處理之后,再寫入到Elasticsearch集群中去。
實戰過程
Elasticsearch集群運行日志和慢日志內容分析
首先要分析一下要收集的日志格式,確定日志每一行記錄的固定pattern,以及是否要對日志內容進行解析,提取重要字段或者過濾一些無用的字段。
以下是Elasticsearch集群的運行日志和慢日志示例(5.6.4版本):
運行日志:
[2018-10-23T20:42:37,451][INFO ][o.e.h.n.Netty4HttpServerTransport] [1540298502000001009] publish_address {10.0.64.80:16703}, bound_addresses {0.0.0.0:16703}
[2018-10-23T20:42:37,451][INFO ][o.e.n.Node ] [1540298502000001009] started
[2018-10-23T20:42:37,463][INFO ][o.e.g.GatewayService ] [1540298502000001009] recovered [0] indices into cluster_state
慢日志:
[2018-10-28T12:04:17,307][WARN ][index.indexing.slowlog.index] [1540298502000001009] [pmc/wCALr6BfRm-sr3qOQuGX
Xw] took[18.6ms], took_millis[18], type[articles], id[AWa41-J9c0s1mOPvR6F3], routing[] , source[]
從以上日志內容可以看出,運行日志是的格式為"[時間戳][日志級別][類名][節點名][日志詳細信息]", 慢日志的格式為"[時間戳][日志級別][日志類別][節點名][日志詳細信息]"。
需要完成的解析工作為:
- 解析出時間戳,并替換默認的@timestamp字段,并且保證時區為中國時間
- 解析出日志級別,作為一個單獨的字段,便于檢索
- 每一行日志中去除已經解析的時間戳和日志字段
- 解析出異常日志,與異常日志的前一行合并作為一條記錄
- 為了節省存儲空間,去除filebeat默認增加的beat.name,beat.version,beat.host等無關緊要的字段
定義日志解析pipeline
filebeat對收集到的日志處理能力是比較弱的,并且為了提高日志收集性能,一般不在filebeat中進行日志內容的處理,可以借助于logstash強大的日志處理能力或者Elasticsearch的ingest pipeline功能對日志內容進行處理。
Elasticsearch的ingest pipeline可查閱官方文檔了解更多ingest api.
基于上一節定義的五項日志處理工作,前三項可以由ingest pipeline解決,下面定義名為es-log-pipeline的pipeline:
{
"description": "es-log-pipeline",
"processors": [{
"grok": {
"field": "message",
"patterns": [
"^\\[%{TIMESTAMP_ISO8601:timestamp}\\]\\[%{LOGLEVEL:level}%{SPACE}\\]%{GREEDYDATA:message}"
]
},
"remove": {
"field": "@timestamp"
}
}, {
"date": {
"field": "timestamp",
"formats": ["ISO8601"],
"timezone": "Asia/Shanghai",
"ignore_failure": true
},
"remove": {
"field": "timestamp"
}
}],
"on_failure": [{
"set": {
"field": "error.message",
"value": "{{ _ingest.on_failure_message }}"
}
}]
}
主要使用了grok processors進行日志解析,解析出了日志中的時間戳字段和日志級別字段,并將時間戳替換為filebeat默認提供的@timestamp字段。
調用Elasticsearch 的ingest API創建上述pipeline:
curl -X PUT _ingest/pipeline/es-log-pipeline
定義filebeat配置
日志解析工作的4和5兩項可以由filebeat處理,定義filebeat.yml配置文件:
filebeat.prospectors:
- input_type: log
paths:
- {{.runlogPath}}
fields:
type: "runlog"
ip: "{{.ip}}"
fields_under_root: true
multiline.pattern: '^\[[0-9]{4}-[0-9]{2}-[0-9]{2}'
multiline.negate: true
multiline.match: after
- input_type: log
paths:
- {{.searchSlowlogPath}}
fields:
type: "slowlog"
logtype: "search"
ip: "{{.ip}}"
fields_under_root: true
multiline.pattern: '^\[[0-9]{4}-[0-9]{2}-[0-9]{2}'
multiline.negate: true
multiline.match: after
- input_type: log
paths:
- {{.indexSlowLogPath}}
fields:
type: "slowlog"
logtype: "indexing"
ip: "{{.ip}}"
fields_under_root: true
multiline.pattern: '^\[[0-9]{4}-[0-9]{2}-[0-9]{2}'
multiline.negate: true
multiline.match: after
processors:
- drop_fields:
fields: ["beat", "offset", "source"]
output.elasticsearch:
hosts: ["{{.esEndPoint}}"]
index: "es-%{[type]}-%{+yyyy.MM.dd}"
pipeline: "es-log-pipeline"
上述配置按天創建了兩個索引,分別為es-runlog-%{+yyyy.MM.dd}和es-slowlog-%{+yyyy.MM.dd},分別存儲運行日志和慢日志。
經過上述配置,啟動filebeat, 就可以實現收集Elasticsearch集群的運行日志和慢日志并寫入到另外一個Elasticsearch集群中。
總結
- 日志格式解析的工作比較繁瑣,需要詳細了解grok processor的處理能力grok processor
- filebeat目錄下有名為filebeat.template.json的文件,該文件定義了filebeat的默認模板,如果需要可以修改該模板配置文件或者自定義新模板。