天下武功無堅不破,唯快不破!

沒有天下第一的武功,但如果你的速度夠快(比如接近光速),必然無敵。

11 月 20 日晚,深圳龍崗愛聯愛新小區里的 54 輛私家車被刮花,等到車主們調取監控錄像后才發現,竟是 4 名年齡都不超過 10 歲的「熊孩子」拿著石塊把小區里的車輛當成了畫畫的面板。目前,愛聯派出所已介入調查,熊孩子究竟是誰仍在核查中。

由刮車事件引發的聯想......

「我們覺得這件事主要還是家長監管和平時教育不到位,并且事發已經好幾天了,也沒有人主動出來承擔責任。」車主李先生表示,小區里過半車倆被刮花,修理費用加起來已超過了15萬元,而且由于是人為損壞,保險公司不會理賠,大家都希望這件事能有個結果。「如果這次不弄清楚,擔心以后還會出現類似的情況。」事發后業主們紛紛討要說法。

事雖小,但出現的問題很發人深思:監管、監控不到位,導致群體悲劇上演。如果能在孩子身上放一個類似監控器的東西,當孩子刮第一輛寶馬車或者將要做出刮車的這個動作時就可以受到制止,又或者車輛內有足夠強大的告警系統,當受到侵害時就能夠第一時間傳達給車主或者鳴響報警,那結果是不是壓根兒就不會這么嚴重呢?!

說多了,讀者該嘲笑我異想天開了。但今天我想說的是,隨著企業業務發展的深入,IT 系統也日益復雜。公有云、私有云大規模應用,網絡、服務器、軟件應用系統之間錯綜的關聯關系,使得 IT 管理和運維人員面對最終用戶反映的應用不穩定、系統中斷等問題時,無法快速準確的定位問題根源,讓企業數據中心的管理和維護面臨前所未有的挑戰。很多企業正是由于沒有做到全方位的監控又或者是告警后沒有及時做出有效的補救措施才導致以點到面的受到大批量不可修復的災難,而 IT 世界里受到的損失可就不是單純的6位數字那么簡單了。

放眼全球,規模和成熟度都很強大的亞馬遜、谷歌、Facebook,國內的 BAT 等企業,IT 故障也會頻發。全球500強企業里 IT 故障引發的損失也是很常見的,每次故障帶出的直接或是間接性的災難更是巨大:

故障影響統計

全球500強故障影響統計

常見的場景:數據服務器在晚間自動備份,引發磁盤空間不足故障,同時關聯的應用程序引發故障,從而引發雪崩。2:00監控發現故障,并郵件通知運維一線楊過,然并卵過兒同學在甜蜜夢鄉中,直到6點用戶投訴,過兒接到老板小龍女的電話,才開始響應處理故障。


故障恢復時間

我們可以從以上場景中看到,該公司沒有建立起有效的值班響應機制,首先沒有分派通知到位(郵件不靠譜,電話才靠譜),其次沒有形成多人同時支撐的值班流程。及時發現問題,并不意味著能夠及時響應。

那么如何有效提升 IT 可靠性,將成為各企業 IT 支撐的重點。本質上來說,應該是及時發現、及時通知值班、及時處理,最終提升IT可靠性,所以需要一個靠譜的告警平臺幫助他們解決上述所有問題。

好吧,鋪墊這么多,我們也是想做一個小小的廣告!下面這位就是廣告的「主角」OneAlert ,它能夠接收 IT 運營支撐過程中的告警事件,在一個平臺上有序、更快的解決告警,讓業務更可靠。為了實現這點,OneAlert 還引入告警壓縮機制,減少告警數量;并通過多種渠道+自動升級的方式實現通知必達,不遺漏一個告警。

當管理服務器和應用服務規模較大,一般根據用途或者管理職責不同,分配和提醒不同運維負責人。

一線、二線自動化升級,可以根據企業的值班響應要求,設置自動化升級的時間間隔。例如,如果要求10分鐘內必須響應故障(確認故障),那么應該設置為5分鐘自動化升級。例如一線可以是運維人員,二線是相關測試或開發,三線為主管等。

一線的人員,可以設置為具體的人,也可以是一個排班。排班是指一組成員通過周、日、小時輪值的方式進行值班,有序分發找對人。

多渠道通知,總有一種方式打動你。微信、短信、電話、郵件、以及即將推出的 APP。日常過程中,微信的應用已經深入人心,在方寸屏幕中實現告警確認跟蹤。在夜深人靜、深入夢鄉時,電話總能第一時間通知到達。

注意,這里的傳達是指整個團隊,從技術手段和團隊協作管理手段多重冗余的角度實現。這樣下來,我們不難把握所有的 IT 事件,并有序跟蹤、建立起 7x24 on call 運維響應機制,IT 事件有序分發、有效通知、協作處理。降低故障恢復時間 MTTR,最終提升 IT 可靠性,即「天下武功無堅不破,唯快不破」,讓現實中的悲劇不再重演。

OneAlert 是應用性能管理領軍企業 OneAPM 公司旗下產品,也是國內首個 SaaS 模式的云告警平臺,集成國內外主流監控/支撐系統,實現一個平臺上集中處理所有IT事件,提升IT可靠性。想了解更多信息,請訪問 OneAlert 官網

最后編輯于
?著作權歸作者所有,轉載或內容合作請聯系作者
平臺聲明:文章內容(如有圖片或視頻亦包括在內)由作者上傳并發布,文章內容僅代表作者本人觀點,簡書系信息發布平臺,僅提供信息存儲服務。

推薦閱讀更多精彩內容