Zabbix是大家喜聞樂見的監控工具,可很多朋友也飽受告警設置及報警風暴之苦。我曾經有過幾十萬臺服務器的運維經驗,在這些方面也有較多經驗,本文側重分析Zabbix告警的相關問題,并給出一種快速解決方案:
郵件報警配置復雜,多了沒人看;
短信報警流程復雜,短信容易被延遲或漏發;
電話報警配置太麻煩,需要二次開發;
報警風暴令人苦惱不堪。
1、什么是Zabbix?
Zabbix是一個開源、高度集成的監控解決方案。以圖形化展示和操作界面,提供了針對各種IT系統的系統參數、網絡參數的分布式監控及告警,讓系統管理員能夠快速感知、定位、解決IT系統問題。
雖然只支持普通的報警方式。
2、為什么需要Zabbix?
首先,業務規模稍微大一些的公司,都需要監控。 當公司從一個幾人、十幾人的小公司,發展成一個幾百上千人規模的中、大型公司,公司的業務規模也處于不斷增長,服務器從幾臺發展到幾百幾千臺。這個時候,IT系統出現故障的幾率就會大大的增大,影響程度也更加嚴重。
可能只是幾分鐘的宕機,就會給公司帶來幾十萬、幾百萬的損失。
如果這個時候,領導問“為何某個服務不可用、為何系統會出現故障”,而你卻不能及時確定故障的根源并提供解決方案時,工作一定會受到領導的質疑和挑戰。
而監控系統,就是為了解決這些問題。
它能夠讓運維人員快速知曉系統的運行狀況,并在出現問題時甚至在出現問題前,及時感知到問題的存在,通過提前處理或實施預案,解決或避免問題的出現,并且盡快進行處理。
其次,無論是在安裝還是在使用上,Zabbix都是一款遠勝其他同類產品的監控工具:
安裝與配置非常簡單,學習成本低;
支持多語言(包括中文);
免費開源,維護志愿者眾多;
具有node、proxy兩種模式,非常適合構建分布式監控系統;
企業實現自動化運維的必然之選:能自動發現服務器和網絡設備、自動注冊主機、自動添加模板及分組;
支持多種監控方式,適應復雜企業IT環境。
3、 Zabbix 真的那么受關注?
根據“百度指數”中Zabbix、Falcon和Nagios最近半年的指數趨勢(下圖),Zabbix的受關注程度,一直處于非常穩定并且長期持續的狀態。
4、 Zabbix告警配置很煩人?
隨機選擇今年1月份的一周(1.04-1.10),如下圖。
從這個數據來看,確實,Zabbix報警依然困擾著大家(當然,Zabbix相關中文文檔的翻譯需求,也是類似)。
而這些,也正是企業選用Zabbix作為監控工具時,可能遇到的問題:
Zabbix的告警配置相當復雜,并且沒有詳盡的中文翻譯資料,以幫助解決這個問題。
5、如何解決Zabbix告警配置的問題?
Zabbix監控再好,也必須能在最快的時間將故障信息推送給對應的人,才能真正將監控的價值最大化。
但可惜的是,Zabbix的報警機制過于復雜,難以與公司的實際場景結合,達成“優化整個團隊的故障監控和處理效率”的目的。
告警通道配置太繁瑣
郵件報警:如需配置郵件報警,就得在Zabbix里配置郵件調用接口。并且Zabbix郵件報警經常發生延遲(Zabbix自身延遲+郵件服務商延遲),更悲催的是,報警郵件往往沒人看。
僅憑這一點,想要“解放運維人員、不再24小時盯著監控大屏幕”,就已基本夢碎。
短信報警:如需配置短信報警,就需要向短信服務商購買短信服務。
簽訂合同、定期購買短信數量、設定短信模板、在Zabbix配置短信調用接口; 經常從短信服務商那邊索取回執報告并作對比,以避免被“糊弄”; 需配置多個短信服務商,以避免某個短信服務商短信延遲或漏發。
電話報警:電話報警,是為了保證在深夜,把運維人員弄醒,及時解決緊急故障。比起短信,電話的提醒效果肯定更好。但電話報警更加繁瑣,而且往往需要二次開發。
配置短信的痛還沒消,你真的還要再找一次虐?
微信報警:配置微信報警,需要申請開通微信的相關服務,然后排期進行針對性開發。
首先,微信的訂閱號、服務號、企業號,其消息推送限制、消息內容限制、認證前后的人數限制都是不同的 ,真的能分的那么清楚?
其次,如果發生報警風暴,確定你的小心臟接受得了微信里突然多出來的成百上千條報警提示?
2)告警風暴的痛,Zabbix不夠懂!
Zabbix的報警配置很復雜,并且沒有中文文檔可供參考;
Zabbix的報警合并機制不夠高效,不符合實際運維場景。
可是,大部分運維人員只能硬著頭皮上,配一個User組、一個Trigger就了事。
無論是郵件報警、短信報警或微信報警,都會存在告警風暴的問題:如果發現類似斷網等大面積故障,而且沒有告警保護和收斂機制的話。
郵件被充爆、手機收件箱被報警短信爆滿、手機連續響1個小時。
批量刪除?那也要拖滾動條拖個幾十秒啊!這種痛,復雜的Zabbix,真的不夠懂。
其實,大家的要求很簡單:只是想要一個足夠友好、簡單易懂、支持自定義又有默認設置的人性化報警機制。
3)只想團隊高效協作,別老是全體出動!
可否實現一個報警升級機制?而不是一旦產生報警,立即全員通知。我們真的沒有那么閑啊:
短信和電話,真的也是要付費的。 普通、通知級別的報警,讓剛來的運維小白看看可否? 嚴重級別和災難級別的報警,先發給一級,一級響應不及再升級,而不是直接“捅給”老大好不?
靈犀,負責解決您的這些問題!
靈犀(linkedsee)旨在成為客戶一站式混合IT運營管理專家,核心成員來自原百度系統部。創始人@朱品燕同學曾致力于百度多年,其離職網文《IT狗,離開百度,你還是什么?》曾一度引起轟動。
靈犀,負責解決您的這些問題!
快速高效接入:10分鐘內完成接入,瞬間擁有四大通道、多個主備服務商。 消滅告警風暴:默認恢復自動合并、相同報警自動合并,支持自定義合并。 專人客服值守:普通級別專人輪流值班,嚴重級別輪循升級通知、處理。
不僅僅這樣,靈犀還可:
完美對接工單系統,讓Zabbix告警不再石沉大海、無人跟進。
支持Open-falcon及其他自定義監控。
想看看靈犀的真容?
靈活的告警觸發策略設定。
豐富的事件處理及統計功能。
方便的監控值班功能。
看到這里,是不是有些心動,迫不及待的想試試呢。點擊 靈犀注冊,立即體驗。