夏洛克·福爾摩斯,一直以來柯南道爾筆下的福爾摩斯形象在人們的腦海中都栩栩如生。敏銳的觀察力,縝密的推理思路,豐富的專業知識,一切撲朔迷離的刑事案件在他手中都能迎刃而解,一切的競爭對手在他面前都如此的黯然失色。他有一雙能夠看穿世界的眼睛,被他關注的人都好像身體上被安裝了監控,所有的行動他都了如指掌。在福爾摩斯的領域中,任何的異動都掌握在他的手中,并且這些異動信息會第一時間到達他的手中。福爾摩斯教會了我們,善于使用工具,能夠讓工作事半功倍。
《血字的研究》一案中,一把直尺,一個放大鏡等等都成為了破案的重要工具,一群野孩子提供的信息的效率遠遠高于警方所能提供的信息。再加上福爾摩斯全面的專業知識,最終將謎題解開。
如何利用簡單實用的工具,再加上過硬的專業知識找到事實的真相呢?又如何成為運維界的福爾摩斯呢?運維的基本工作就是保障公司網站服務的可用性,服務器運行的穩定性。那么如何對網站可用性、對服務器的運行狀態了如指掌?出現問題如何能夠接收到精準的告警消息呢?
請 mark 下面三款工具:
Ct (Cloud Test) 主要是通過分布在全國各地的服務器對網站進行持續的監控,Ct 產品的價值在于網站管理員可以借此在終端用戶或顧客發現問題之前發現問題,知道網站或 web 應用是否運行緩慢,甚至宕機。Ct 產品不涉及真實的網站流量,因此可以實現 7x24 小時的監控,或在正式發布 web 應用之前進行測試。通過 Ct 產品可以實時的了解網站在各個地域,運營商的性能表現,結合真實用戶監控產品 Browser Insight,能深入了解應用的健康狀況。
通過 Cloud Test,你可以:
單頁面監控:分布全國的服務器對網頁性能進行實時監控,提供網頁可用性、響應時間、http 錯誤等具體信息,深入代碼級了解錯誤詳情,可用于監控網頁、個人站點,實時監控網頁性能。
Ping 監控:在運維人員的日常工作中,對物理服務器的監控十分重要。物理機的 CPU、內存、磁盤使用率,網卡流量,磁盤 IO 等都需要進行監控。通過 ICMP 協議的 ping 監控,可以判斷物理服務器運行是否正常或者網站是否出現故障。網絡不穩定或者服務器宕機, ping 就產生報警,讓您在第一時間收到告警。這樣大大提升了運維人員的工作效率。
API 監控:對于商務運算來說一個比較穩定的趨勢在于對 API 日漸增長的依賴性,幾乎每一個代碼級交互過程都會調用 API 來收集數據或觸發某些關鍵過程,這就帶來一個問題,開發者怎么才能確定開發者的應用是由于開發者自己的問題還是由于第三方服務廠商的 API 問題,所以開發者需要API監控。
-
DNS 監控:監控 DNS 系統,防止網站 DNS 劫持(域名劫持)、域名過期或已被停止、域名 DNS 服務器未解析、域名解析記錄為空或不正確等 DNS 服務器錯誤。
既然有了實時的網站可用性監控,那么對服務器的基礎組件監控需求也是必不可少的。我推薦一些還在觀望 Zabbix 和 Nagios 的初創團隊,可以試一試 Cloud Insight。
Ci(Cloud Insight) 集監控、管理、協作、計算、可視化于一身,減少在系統監控上的人力和時間成本投入,讓運維工作變得更加高效、簡單。使用 Cloud Insight 操作簡單,40s完成安裝,再配置上數據庫中間件監控即可,其它的就直接在 Web 上查看,操作。
通過 Cloud Insight,你可以:
- 關注服務器內存,流量,CPU 等基本性能指標,每天都可以檢測服務器性能,哪天數據有巨幅變化那就要趕緊查查是哪出問題了。
- 高可視化,關注數據庫增刪減查操作,慢查詢等條件,主從復制狀態,將關注的數據制定一個自定義儀表盤,順道再設置個報警,這樣數據庫有任何異常,都會第一時間得到通知,及時相應處理。
- 集群管理與可視化,如果有多臺服務器,這幾臺用作 webserver,這幾臺用做 database,那幾臺做 DNS,設置不同的 tag ,通過拓補圖分開聚合展示,分分鐘總覽集群全貌。
- 多人合作,對接簡聊,BearyChat,瀑布等 ChatOps 工具,將操作事件流同步到多個即時通訊里面,匯集報警、探針啟動和操作歷史記錄于一身。能夠讓運維人員、研發人員、管理人員,甚至運營人員都參與到 Cloud Insight 這個工具的使用中來,溝通與協作效率更高。
有了強大的監控工具還不夠,完善的報警通知體系也是至關重要的。OneAlert 作為國內首家云告警平臺,能夠輕松集成 Ct,Ci 產品,提供更合理的告警方式(當然 zabbix,nagios,阿里云等監控工具都可以集成)。
通過 OneAlert ,你可以:
合理的通知體系:
不同的主機組告警消息發給特定的負責人,并且告警消息通過微信、短信、郵件、電話、App 的方式通知,通知必達。
不同類型的告警消息發到不同角色負責人手中,比如 MySQL 類型的告警消息我們可以選擇發給公司的 DBA 同事,而網絡相關的告警消息我們可以選擇發給網絡工程師等。
-
有效的告警升級機制能夠保證告警不會被遺漏,告警在設置時間內不確認、不解決的時候,會升級到二線值班人員。
成為運維界的「福爾摩斯」,你還需要3個幫手!
合適的時間選擇合適的通知方式:
- 當告警消息來了,選擇一個好的通知方式是至關重要的。比如白天工作時間,告警消息的推送只需要通過微信、郵件的方式。而晚上下班時間休息時間,告警消息推送可以選擇短信和電話兩種方式進行通知,靈活的通知方式能夠達到事半功倍的效果。
健全的告警分析體系:
- 好的告警分析機制能夠幫助管理者分析團隊整體的工作情況,根據 MTTR 作為評判標準,通過告警分析能夠分析出某一告警應用某段時間內處理情況。而且 OneAlert 的分析機制也可以根據應用、團隊以及成員三個維度進行分析,讓你真正認識你的工作團隊。
從 Ct 對網站可用性的實時監控,再到 Ci 對服務器基礎組件的實時監控,出現問題有 OneAlert 健全的報警機制,通知必達,網站服務有問題及時監控發現,告警消息多方式通知到位,服務器這點小事,你還怕什么?總有一款適合你。
本文系國內 ITOM 管理平臺 OneAPM 工程師原創文章。我們致力于幫助企業用戶提供全棧式的性能管理以及 IT 運維管理服務,通過一個探針就能夠完成日志分析、安全防護、APM 基礎組件監控、集成報警以及大數據分析等功能。想閱讀更多技術文章,請訪問 OneAPM 官方技術博客
本文轉自 OneAPM 官方博客