Grafana8告警配置(unified alerts)

概覽

通過此文檔,你能夠配置簡單的Grafana8告警。

背景

Grafana8以后,alert功能更新。新告警設置與老告警設置完全不同。我們這里暫定新告警名為統(tǒng)一告警。

在開始配置之前,需要先對齊一下信息。

監(jiān)控架構圖

整體監(jiān)控平臺以prometheus為核心進行設計。

不支持在 Docs 外粘貼 block

告警級別分類

告警級別很重要,故障應急策略會根據告警級別而定。

不支持在 Docs 外粘貼 block

告警配置

告警頁面常用名詞解釋:

三大組件關系圖:

為了方便理解,將配置告警使用的對象,簡稱為三大組件。

他們分別是:Alert rules , contact points,notification polices

不支持在 Docs 外粘貼 block

設置Prometheus告警

第一步:contact points

創(chuàng)建告警通道

一個contact points可以設置多個發(fā)送告警通道

image.png

第二步:Notification policies

創(chuàng)建告警通道匹配規(guī)則

  • 使用label匹配alert rules
  • 選擇contact point
  • 設置Override general timings (可選)
    • Group wait: 調節(jié)告警敏感度
    • Group interval:這里設置多個alert rules匹配1個contact point,所以此參數設置較低。
    • Repeat interval:建議對齊"告警策略"中的"故障狀態(tài)更新時間"參數設置
image

第三步:Alert rules

配置告警策略

這里使用CPU告警舉例

  1. 找到CPU的監(jiān)控panel
image.png
  1. 編輯panel進入alert頁簽,創(chuàng)建alert rule
image.png
  1. 設置報警規(guī)則

設置所有IP地址是10.11開頭的主機,CPU使用率最新的參數超過80%閾值,30s檢查一次,持續(xù)1分鐘都超過告警閾值,則觸發(fā)告警。為了匹配告警通道,標簽設置Contact_point=alert-test-group-ms-teams

注意:告警內容要清晰的告知需要做什么,因半夜2點多當你收到告警時,你很難保證在迷糊的狀態(tài)快速的做出正確的判斷。

image
image
image.png

上圖的配置會將此報警綁定到下圖的告警通道


image.png

Microsoft Teams設置webhook

  1. 創(chuàng)建群組
  2. 給群組增加通道
image
  1. 給通道增加連接器
image
  1. 選擇Add Incoming Webhook
image
  1. 創(chuàng)建后復制webhook地址,填寫到Grafana中。

注意:webhook地址需要單獨保存,創(chuàng)建后無法再次查看。

參考文檔:

https://grafana.com/docs/grafana/latest/alerting/unified-alerting/

https://docs.microsoft.com/zh-cn/outlook/actionable-messages/send-via-connectors

最后編輯于
?著作權歸作者所有,轉載或內容合作請聯(lián)系作者
平臺聲明:文章內容(如有圖片或視頻亦包括在內)由作者上傳并發(fā)布,文章內容僅代表作者本人觀點,簡書系信息發(fā)布平臺,僅提供信息存儲服務。
禁止轉載,如需轉載請通過簡信或評論聯(lián)系作者。