成為運維界的「福爾摩斯」,你還需要3個幫手!

夏洛克·福爾摩斯,一直以來柯南道爾筆下的福爾摩斯形象在人們的腦海中都栩栩如生。敏銳的觀察力,縝密的推理思路,豐富的專業知識,一切撲朔迷離的刑事案件在他手中都能迎刃而解,一切的競爭對手在他面前都如此的黯然失色。他有一雙能夠看穿世界的眼睛,被他關注的人都好像身體上被安裝了監控,所有的行動他都了如指掌。在福爾摩斯的領域中,任何的異動都掌握在他的手中,并且這些異動信息會第一時間到達他的手中。福爾摩斯教會了我們,善于使用工具,能夠讓工作事半功倍。

《血字的研究》一案中,一把直尺,一個放大鏡等等都成為了破案的重要工具,一群野孩子提供的信息的效率遠遠高于警方所能提供的信息。再加上福爾摩斯全面的專業知識,最終將謎題解開。

如何利用簡單實用的工具,再加上過硬的專業知識找到事實的真相呢?又如何成為運維界的福爾摩斯呢?運維的基本工作就是保障公司網站服務的可用性,服務器運行的穩定性。那么如何對網站可用性、對服務器的運行狀態了如指掌?出現問題如何能夠接收到精準的告警消息呢?

請 mark 下面三款工具:

Ct (Cloud Test) 主要是通過分布在全國各地的服務器對網站進行持續的監控,Ct 產品的價值在于網站管理員可以借此在終端用戶或顧客發現問題之前發現問題,知道網站或 web 應用是否運行緩慢,甚至宕機。Ct 產品不涉及真實的網站流量,因此可以實現 7x24 小時的監控,或在正式發布 web 應用之前進行測試。通過 Ct 產品可以實時的了解網站在各個地域,運營商的性能表現,結合真實用戶監控產品 Browser Insight,能深入了解應用的健康狀況。

通過 Cloud Test,你可以:

成為運維界的「福爾摩斯」,你還需要3個幫手!

  • 單頁面監控:分布全國的服務器對網頁性能進行實時監控,提供網頁可用性、響應時間、http 錯誤等具體信息,深入代碼級了解錯誤詳情,可用于監控網頁、個人站點,實時監控網頁性能。

  • Ping 監控:在運維人員的日常工作中,對物理服務器的監控十分重要。物理機的 CPU、內存、磁盤使用率,網卡流量,磁盤 IO 等都需要進行監控。通過 ICMP 協議的 ping 監控,可以判斷物理服務器運行是否正常或者網站是否出現故障。網絡不穩定或者服務器宕機, ping 就產生報警,讓您在第一時間收到告警。這樣大大提升了運維人員的工作效率。

  • API 監控:對于商務運算來說一個比較穩定的趨勢在于對 API 日漸增長的依賴性,幾乎每一個代碼級交互過程都會調用 API 來收集數據或觸發某些關鍵過程,這就帶來一個問題,開發者怎么才能確定開發者的應用是由于開發者自己的問題還是由于第三方服務廠商的 API 問題,所以開發者需要API監控。

  • DNS 監控:監控 DNS 系統,防止網站 DNS 劫持(域名劫持)、域名過期或已被停止、域名 DNS 服務器未解析、域名解析記錄為空或不正確等 DNS 服務器錯誤。


既然有了實時的網站可用性監控,那么對服務器的基礎組件監控需求也是必不可少的。我推薦一些還在觀望 Zabbix 和 Nagios 的初創團隊,可以試一試 Cloud Insight

Ci(Cloud Insight) 集監控、管理、協作、計算、可視化于一身,減少在系統監控上的人力和時間成本投入,讓運維工作變得更加高效、簡單。使用 Cloud Insight 操作簡單,40s完成安裝,再配置上數據庫中間件監控即可,其它的就直接在 Web 上查看,操作。

成為運維界的「福爾摩斯」,你還需要3個幫手!

通過 Cloud Insight,你可以:

  • 關注服務器內存,流量,CPU 等基本性能指標,每天都可以檢測服務器性能,哪天數據有巨幅變化那就要趕緊查查是哪出問題了。
  • 高可視化,關注數據庫增刪減查操作,慢查詢等條件,主從復制狀態,將關注的數據制定一個自定義儀表盤,順道再設置個報警,這樣數據庫有任何異常,都會第一時間得到通知,及時相應處理。
  • 集群管理與可視化,如果有多臺服務器,這幾臺用作 webserver,這幾臺用做 database,那幾臺做 DNS,設置不同的 tag ,通過拓補圖分開聚合展示,分分鐘總覽集群全貌。
  • 多人合作,對接簡聊,BearyChat,瀑布等 ChatOps 工具,將操作事件流同步到多個即時通訊里面,匯集報警、探針啟動和操作歷史記錄于一身。能夠讓運維人員、研發人員、管理人員,甚至運營人員都參與到 Cloud Insight 這個工具的使用中來,溝通與協作效率更高。
成為運維界的「福爾摩斯」,你還需要3個幫手!

有了強大的監控工具還不夠,完善的報警通知體系也是至關重要的。OneAlert 作為國內首家云告警平臺,能夠輕松集成 Ct,Ci 產品,提供更合理的告警方式(當然 zabbix,nagios,阿里云等監控工具都可以集成)。

通過 OneAlert ,你可以:

合理的通知體系:

  • 不同的主機組告警消息發給特定的負責人,并且告警消息通過微信、短信、郵件、電話、App 的方式通知,通知必達。

  • 不同類型的告警消息發到不同角色負責人手中,比如 MySQL 類型的告警消息我們可以選擇發給公司的 DBA 同事,而網絡相關的告警消息我們可以選擇發給網絡工程師等。

  • 有效的告警升級機制能夠保證告警不會被遺漏,告警在設置時間內不確認、不解決的時候,會升級到二線值班人員。


    成為運維界的「福爾摩斯」,你還需要3個幫手!

合適的時間選擇合適的通知方式:

  • 當告警消息來了,選擇一個好的通知方式是至關重要的。比如白天工作時間,告警消息的推送只需要通過微信、郵件的方式。而晚上下班時間休息時間,告警消息推送可以選擇短信和電話兩種方式進行通知,靈活的通知方式能夠達到事半功倍的效果。

健全的告警分析體系:

  • 好的告警分析機制能夠幫助管理者分析團隊整體的工作情況,根據 MTTR 作為評判標準,通過告警分析能夠分析出某一告警應用某段時間內處理情況。而且 OneAlert 的分析機制也可以根據應用、團隊以及成員三個維度進行分析,讓你真正認識你的工作團隊。

從 Ct 對網站可用性的實時監控,再到 Ci 對服務器基礎組件的實時監控,出現問題有 OneAlert 健全的報警機制,通知必達,網站服務有問題及時監控發現,告警消息多方式通知到位,服務器這點小事,你還怕什么?總有一款適合你。

本文系國內 ITOM 管理平臺 OneAPM 工程師原創文章。我們致力于幫助企業用戶提供全棧式的性能管理以及 IT 運維管理服務,通過一個探針就能夠完成日志分析、安全防護、APM 基礎組件監控、集成報警以及大數據分析等功能。想閱讀更多技術文章,請訪問 OneAPM 官方技術博客

本文轉自 OneAPM 官方博客

最后編輯于
?著作權歸作者所有,轉載或內容合作請聯系作者
平臺聲明:文章內容(如有圖片或視頻亦包括在內)由作者上傳并發布,文章內容僅代表作者本人觀點,簡書系信息發布平臺,僅提供信息存儲服務。
  • 序言:七十年代末,一起剝皮案震驚了整個濱河市,隨后出現的幾起案子,更是在濱河造成了極大的恐慌,老刑警劉巖,帶你破解...
    沈念sama閱讀 229,698評論 6 539
  • 序言:濱河連續發生了三起死亡事件,死亡現場離奇詭異,居然都是意外死亡,警方通過查閱死者的電腦和手機,發現死者居然都...
    沈念sama閱讀 99,202評論 3 426
  • 文/潘曉璐 我一進店門,熙熙樓的掌柜王于貴愁眉苦臉地迎上來,“玉大人,你說我怎么就攤上這事。” “怎么了?”我有些...
    開封第一講書人閱讀 177,742評論 0 382
  • 文/不壞的土叔 我叫張陵,是天一觀的道長。 經常有香客問我,道長,這世上最難降的妖魔是什么? 我笑而不...
    開封第一講書人閱讀 63,580評論 1 316
  • 正文 為了忘掉前任,我火速辦了婚禮,結果婚禮上,老公的妹妹穿的比我還像新娘。我一直安慰自己,他們只是感情好,可當我...
    茶點故事閱讀 72,297評論 6 410
  • 文/花漫 我一把揭開白布。 她就那樣靜靜地躺著,像睡著了一般。 火紅的嫁衣襯著肌膚如雪。 梳的紋絲不亂的頭發上,一...
    開封第一講書人閱讀 55,688評論 1 327
  • 那天,我揣著相機與錄音,去河邊找鬼。 笑死,一個胖子當著我的面吹牛,可吹牛的內容都是我干的。 我是一名探鬼主播,決...
    沈念sama閱讀 43,693評論 3 444
  • 文/蒼蘭香墨 我猛地睜開眼,長吁一口氣:“原來是場噩夢啊……” “哼!你這毒婦竟也來了?” 一聲冷哼從身側響起,我...
    開封第一講書人閱讀 42,875評論 0 289
  • 序言:老撾萬榮一對情侶失蹤,失蹤者是張志新(化名)和其女友劉穎,沒想到半個月后,有當地人在樹林里發現了一具尸體,經...
    沈念sama閱讀 49,438評論 1 335
  • 正文 獨居荒郊野嶺守林人離奇死亡,尸身上長有42處帶血的膿包…… 初始之章·張勛 以下內容為張勛視角 年9月15日...
    茶點故事閱讀 41,183評論 3 356
  • 正文 我和宋清朗相戀三年,在試婚紗的時候發現自己被綠了。 大學時的朋友給我發了我未婚夫和他白月光在一起吃飯的照片。...
    茶點故事閱讀 43,384評論 1 372
  • 序言:一個原本活蹦亂跳的男人離奇死亡,死狀恐怖,靈堂內的尸體忽然破棺而出,到底是詐尸還是另有隱情,我是刑警寧澤,帶...
    沈念sama閱讀 38,931評論 5 363
  • 正文 年R本政府宣布,位于F島的核電站,受9級特大地震影響,放射性物質發生泄漏。R本人自食惡果不足惜,卻給世界環境...
    茶點故事閱讀 44,612評論 3 348
  • 文/蒙蒙 一、第九天 我趴在偏房一處隱蔽的房頂上張望。 院中可真熱鬧,春花似錦、人聲如沸。這莊子的主人今日做“春日...
    開封第一講書人閱讀 35,022評論 0 28
  • 文/蒼蘭香墨 我抬頭看了看天上的太陽。三九已至,卻和暖如春,著一層夾襖步出監牢的瞬間,已是汗流浹背。 一陣腳步聲響...
    開封第一講書人閱讀 36,297評論 1 292
  • 我被黑心中介騙來泰國打工, 沒想到剛下飛機就差點兒被人妖公主榨干…… 1. 我叫王不留,地道東北人。 一個月前我還...
    沈念sama閱讀 52,093評論 3 397
  • 正文 我出身青樓,卻偏偏與公主長得像,于是被迫代替她去往敵國和親。 傳聞我的和親對象是個殘疾皇子,可洞房花燭夜當晚...
    茶點故事閱讀 48,330評論 2 377

推薦閱讀更多精彩內容

  • Spring Cloud為開發人員提供了快速構建分布式系統中一些常見模式的工具(例如配置管理,服務發現,斷路器,智...
    卡卡羅2017閱讀 134,816評論 18 139
  • 國家電網公司企業標準(Q/GDW)- 面向對象的用電信息數據交換協議 - 報批稿:20170802 前言: 排版 ...
    庭說閱讀 11,067評論 6 13
  • 運維 2.0 時代 運維 2.0 是指,從技術運維升級為服務運維,向公司提供可依賴的專業服務。運維 2.0 強調服...
    OneAPM閱讀 534評論 0 3
  • 本文遵循「知識共享許可協議 CC-BY-NC-SA 4.0 International」,未經作者(laiwei)...
    laiwei閱讀 6,573評論 3 19
  • 近日,阿妹在出席某企業年會上,她一身花色薄紗裙,腿上穿著側面面有陰影的絲襪,使自己的肉腿一下子變成了竹竿腿! 接著...
    DrPepper閱讀 1,267評論 2 4