概覽
通過此文檔,你能夠配置簡單的Grafana8告警。
背景
Grafana8以后,alert功能更新。新告警設置與老告警設置完全不同。我們這里暫定新告警名為統(tǒng)一告警。
在開始配置之前,需要先對齊一下信息。
監(jiān)控架構圖
整體監(jiān)控平臺以prometheus為核心進行設計。
不支持在 Docs 外粘貼 block
告警級別分類
告警級別很重要,故障應急策略會根據告警級別而定。
不支持在 Docs 外粘貼 block
告警配置
告警頁面常用名詞解釋:
三大組件關系圖:
為了方便理解,將配置告警使用的對象,簡稱為三大組件。
他們分別是:Alert rules , contact points,notification polices
不支持在 Docs 外粘貼 block
設置Prometheus告警
第一步:contact points
創(chuàng)建告警通道
一個contact points可以設置多個發(fā)送告警通道
image.png
第二步:Notification policies
創(chuàng)建告警通道匹配規(guī)則
- 使用label匹配alert rules
- 選擇contact point
- 設置Override general timings (可選)
- Group wait: 調節(jié)告警敏感度
- Group interval:這里設置多個alert rules匹配1個contact point,所以此參數設置較低。
- Repeat interval:建議對齊"告警策略"中的"故障狀態(tài)更新時間"參數設置
image
第三步:Alert rules
配置告警策略
這里使用CPU告警舉例
- 找到CPU的監(jiān)控panel
image.png
- 編輯panel進入alert頁簽,創(chuàng)建alert rule
image.png
- 設置報警規(guī)則
設置所有IP地址是10.11開頭的主機,CPU使用率最新的參數超過80%閾值,30s檢查一次,持續(xù)1分鐘都超過告警閾值,則觸發(fā)告警。為了匹配告警通道,標簽設置Contact_point=alert-test-group-ms-teams
注意:告警內容要清晰的告知需要做什么,因半夜2點多當你收到告警時,你很難保證在迷糊的狀態(tài)快速的做出正確的判斷。
image
image
image.png
上圖的配置會將此報警綁定到下圖的告警通道
image.png
Microsoft Teams設置webhook
- 創(chuàng)建群組
- 給群組增加通道
image
- 給通道增加連接器
image
- 選擇Add Incoming Webhook
image
- 創(chuàng)建后復制webhook地址,填寫到Grafana中。
注意:webhook地址需要單獨保存,創(chuàng)建后無法再次查看。
參考文檔:
https://grafana.com/docs/grafana/latest/alerting/unified-alerting/
https://docs.microsoft.com/zh-cn/outlook/actionable-messages/send-via-connectors