基礎(chǔ)設(shè)施與應(yīng)用監(jiān)控之監(jiān)控與報(bào)警實(shí)踐

介紹

監(jiān)控系統(tǒng)有助于提高基礎(chǔ)架構(gòu)和應(yīng)用程序的可視性,并定義可接受的性能和可靠性范圍。通過了解要測量的組件以及針對不同方案關(guān)注的最合適的指標(biāo),您可以開始規(guī)劃涵蓋服務(wù)的所有關(guān)鍵部分的監(jiān)控策略。在我們關(guān)于從您的基礎(chǔ)架構(gòu)和應(yīng)用程序收集指標(biāo)的指南中,我們引入了一個(gè)流行的框架來識別高價(jià)值指標(biāo),然后將部署分層,以討論在不同階段收集的內(nèi)容。

在本文中,我們將討論構(gòu)成監(jiān)控系統(tǒng)的組件以及如何使用它們來實(shí)施監(jiān)控策略。我們將首先回顧有效的,可靠的監(jiān)測系統(tǒng)的基本職責(zé)。之后,我們將介紹監(jiān)控系統(tǒng)的各個(gè)元素如何滿足這些功能要求。然后,我們將討論如何最好地將您的監(jiān)控策略轉(zhuǎn)換為儀表板和警報(bào)策略,為您的團(tuán)隊(duì)提供所需的信息,而無需在無效的時(shí)間中引起他們的注意力。

審查度量,監(jiān)視和警報(bào)系統(tǒng)的重要性質(zhì)

在我們介紹指標(biāo),監(jiān)控和警報(bào)指南的最后一節(jié)中,我們討論了有效監(jiān)控系統(tǒng)的一些最重要的特性。由于我們將關(guān)注這些系統(tǒng)的核心組件,因此查看我們認(rèn)為有用或必要的特征非常有用:

  • 獨(dú)立于大多數(shù)其他基礎(chǔ)架構(gòu):為了準(zhǔn)確收集數(shù)據(jù)并避免對性能產(chǎn)生負(fù)面影響,大多數(shù)監(jiān)控組件應(yīng)使用與其他應(yīng)用程序分開的專用資源。
  • 可靠和值得信賴:由于監(jiān)控用于評估其他系統(tǒng)的運(yùn)行狀況,因此確保監(jiān)控系統(tǒng)本身正確且可用是非常重要的。
  • 易于使用的摘要和詳細(xì)信息視圖:如果數(shù)據(jù)不易理解或無法操作,則數(shù)據(jù)無用。允許操作員查看摘要視圖,然后在重要區(qū)域發(fā)現(xiàn)更多詳細(xì)信息,這在調(diào)查期間非常有價(jià)值。
  • 維護(hù)歷史數(shù)據(jù)的有效策略:了解典型模式是什么以識別異常非常重要。在較長的時(shí)間線上,這可能需要訪問系統(tǒng)必須能夠檢索和訪問舊的數(shù)據(jù)。
  • 能夠關(guān)聯(lián)來自不同來源的因素:以有組織的方式顯示部署中不同部分的信息對于識別模式和相關(guān)因素非常重要。
  • 易于開始跟蹤新指標(biāo)或基礎(chǔ)架構(gòu):您的監(jiān)控系統(tǒng)必須隨著應(yīng)用程序和基礎(chǔ)架構(gòu)的變化而發(fā)展。過時(shí)或不完整的監(jiān)控范圍會(huì)降低對工具和數(shù)據(jù)的信任。
  • 靈活且強(qiáng)大的警報(bào):警報(bào)功能必須能夠根據(jù)您定義的條件在各種渠道和優(yōu)先級中發(fā)送通知。

考慮到這些屬性,讓我們來看看構(gòu)成監(jiān)控系統(tǒng)的內(nèi)容。

監(jiān)控系統(tǒng)的各個(gè)部分

監(jiān)控系統(tǒng)由幾個(gè)不同的組件和接口組成,它們共同協(xié)作以收集,可視化和報(bào)告部署的運(yùn)行狀況。我們將介紹以下基本的個(gè)別部分。

分布式監(jiān)視代理和數(shù)據(jù)導(dǎo)出程序

雖然可以將大部分監(jiān)控系統(tǒng)部署到專用服務(wù)器或服務(wù)器,但需要從整個(gè)基礎(chǔ)架構(gòu)中的許多不同來源收集數(shù)據(jù)。為此,監(jiān)控代理(一種旨在收集數(shù)據(jù)并將數(shù)據(jù)轉(zhuǎn)發(fā)到集合端點(diǎn)的小型應(yīng)用程序)安裝在整個(gè)網(wǎng)絡(luò)中的每臺(tái)機(jī)器上。這些代理從安裝它們的主機(jī)收集統(tǒng)計(jì)信息和使用度量標(biāo)準(zhǔn),并將它們發(fā)送到中央監(jiān)視軟件。

代理程序在整個(gè)系統(tǒng)中的每個(gè)主機(jī)上作為永遠(yuǎn)在線守護(hù)程序運(yùn)行。它們可能包括一個(gè)基本配置,用于與遠(yuǎn)程數(shù)據(jù)端點(diǎn)安全地進(jìn)行身份驗(yàn)證,定義數(shù)據(jù)頻率或采樣策略,以及為主機(jī)數(shù)據(jù)設(shè)置唯一標(biāo)識符。為了減少對其他服務(wù)的影響,代理必須使用最少的資源,并且能夠在幾乎沒有管理的情況下運(yùn)行。理想情況下,在新節(jié)點(diǎn)上安裝代理并開始向中央監(jiān)控系統(tǒng)發(fā)送指標(biāo)應(yīng)該是微不足道的。

監(jiān)視代理程序通常會(huì)收集通用的主機(jī)級別度量標(biāo)準(zhǔn),但也可以使用代理來監(jiān)視Web或數(shù)據(jù)庫服務(wù)器等軟件。但是,對于大多數(shù)特殊類型的軟件,必須通過修改軟件本身來收集和導(dǎo)出數(shù)據(jù),或者通過創(chuàng)建解析軟件狀態(tài)端點(diǎn)或日志條目的服務(wù)來構(gòu)建自己的代理。許多流行的監(jiān)控解決方案都有可用的庫,可以更輕松地為您的服務(wù)添加自定義檢測。與代理軟件一樣,必須注意確保您的自定義解決方案最小化其占用空間,以避免影響應(yīng)用程序的運(yùn)行狀況或性能。

到目前為止,我們已經(jīng)對基于推送的監(jiān)控架構(gòu)做了一些假設(shè),其中代理將數(shù)據(jù)推送到中心位置。但是,也可以使用基于拉的設(shè)計(jì)。在基于拉的監(jiān)視系統(tǒng)中,各個(gè)主機(jī)負(fù)責(zé)在可訪問的端點(diǎn)處以已知格式收集,聚合和提供度量。監(jiān)視服務(wù)器輪詢每個(gè)主機(jī)上的度量標(biāo)準(zhǔn)端點(diǎn)以收集度量指標(biāo)數(shù)據(jù)。通過端點(diǎn)收集和呈現(xiàn)數(shù)據(jù)的軟件具有許多與代理相同的要求,但通常需要較少的配置,因?yàn)樗恍枰廊绾卧L問其他計(jì)算機(jī)。

度量指標(biāo)入口

在任何監(jiān)控系統(tǒng)中最繁忙的部分之一就是度量指標(biāo)入口組件。由于數(shù)據(jù)不斷生成,因此收集過程需要足夠強(qiáng)大以處理大量活動(dòng),并與存儲(chǔ)層協(xié)調(diào)以正確記錄傳入數(shù)據(jù)。

對于基于推送的系統(tǒng),度量指標(biāo)入口端點(diǎn)是網(wǎng)絡(luò)上的中心位置,其中每個(gè)監(jiān)視代理程序或統(tǒng)計(jì)信息聚合器發(fā)送其收集的數(shù)據(jù)。端點(diǎn)應(yīng)該能夠同時(shí)驗(yàn)證和接收來自大量主機(jī)的數(shù)據(jù)。度量系統(tǒng)的入口端點(diǎn)通常負(fù)載平衡或大規(guī)模分布,以提高可靠性并跟上大量流量。

對于基于拉的系統(tǒng),相應(yīng)的組件是輪詢機(jī)制,它探測并解析在各個(gè)主機(jī)上公開的度量標(biāo)準(zhǔn)端點(diǎn)。這有一些相同的要求,但有些責(zé)任是相反的。例如,如果單個(gè)主機(jī)需要實(shí)現(xiàn)身份驗(yàn)證,則度量收集過程必須能夠提供正確的憑據(jù)以登錄和訪問安全端點(diǎn)。

數(shù)據(jù)管理層

數(shù)據(jù)管理層負(fù)責(zé)組織和記錄來自度量指標(biāo)入口組件的傳入數(shù)據(jù),并響應(yīng)來自管理層的查詢和數(shù)據(jù)請求。度量數(shù)據(jù)通常以稱為時(shí)間序列的格式記錄,該時(shí)間序列表示值隨時(shí)間的變化。時(shí)間序列數(shù)據(jù)庫(專門用于存儲(chǔ)和查詢此類數(shù)據(jù)的數(shù)據(jù)庫)經(jīng)常在監(jiān)視系統(tǒng)中使用。

數(shù)據(jù)管理層的主要職責(zé)是存儲(chǔ)從主機(jī)接收或收集的傳入數(shù)據(jù)。存儲(chǔ)層至少應(yīng)記錄報(bào)告的度量標(biāo)準(zhǔn),觀察到的值,生成值的時(shí)間以及生成它的主機(jī)。

對于較長時(shí)間的持久性,當(dāng)集合超出處理、 內(nèi)存或存儲(chǔ)的本地限制時(shí),存儲(chǔ)層需要提供導(dǎo)出數(shù)據(jù)的方法。因此,存儲(chǔ)層還需要能夠批量導(dǎo)入數(shù)據(jù),以便在必要時(shí)將歷史數(shù)據(jù)重新提取到系統(tǒng)中。

數(shù)據(jù)管理層還需要提供對存儲(chǔ)信息的有組織的訪問。對于使用時(shí)間序列數(shù)據(jù)庫的系統(tǒng),此功能由內(nèi)置查詢語言或API提供。這些可用于交互式查詢和數(shù)據(jù)探索,但主要消費(fèi)者可能是數(shù)據(jù)顯示儀表板和警報(bào)系統(tǒng)。

可視化和儀表板層

建立在數(shù)據(jù)管理層之上的是與之交互的接口,以便了解正在收集的數(shù)據(jù)。由于指標(biāo)是時(shí)間序列數(shù)據(jù),因此數(shù)據(jù)最好表示為x軸上的時(shí)間圖。這樣,您就可以輕松了解值隨時(shí)間的變化情況。可以在不同的時(shí)間尺度上顯示度量標(biāo)準(zhǔn),以了解長時(shí)間內(nèi)的趨勢以及可能當(dāng)前影響您的系統(tǒng)的最新更改。

可視化和數(shù)據(jù)管理層都涉及確保來自各種主機(jī)或應(yīng)用程序堆棧的不同部分的數(shù)據(jù)可以整體覆蓋和查看。幸運(yùn)的是,時(shí)間序列數(shù)據(jù)提供了一致的比例,有助于識別同時(shí)發(fā)生的事件或變化,即使影響分布在不同類型的基礎(chǔ)架構(gòu)中也是如此。能夠選擇以交互方式覆蓋的數(shù)據(jù)允許操作員構(gòu)建對手頭任務(wù)最有用的可視化。

常用的圖表和數(shù)據(jù)通常被組織到已保存的儀表板中。這些在許多情況下都很有用,可以作為永遠(yuǎn)在線顯示器的當(dāng)前健康指標(biāo)的連續(xù)表示,也可以作為故障排除或深入潛入系統(tǒng)特定區(qū)域的重點(diǎn)門戶。例如,在容量規(guī)劃時(shí),具有整個(gè)系統(tǒng)中物理存儲(chǔ)容量詳細(xì)分類的儀表板可能很重要,但可能不需要參考日常管理。輕松構(gòu)建通用和聚焦儀表板有助于使您的數(shù)據(jù)更易于訪問和操作。

警報(bào)和閾值功能

雖然圖形和儀表板是您理解系統(tǒng)中數(shù)據(jù)的首選工具,但它們僅在人工操作員查看頁面的環(huán)境中有用。監(jiān)控系統(tǒng)最重要的職責(zé)之一是減輕團(tuán)隊(duì)成員整天監(jiān)視您的系統(tǒng),以便他們可以開展更有價(jià)值的活動(dòng)。為了使這一點(diǎn)可行,系統(tǒng)必須能夠在必要時(shí)引起您的注意,以便可以使您意識到重要的變化。監(jiān)控系統(tǒng)使用用戶定義的度量標(biāo)準(zhǔn)閾值和警報(bào)系統(tǒng)來完成此任務(wù)。

警報(bào)系統(tǒng)的目標(biāo)是在數(shù)據(jù)發(fā)生重要變化時(shí)可靠地通知操作員,否則將其留下。由于這需要系統(tǒng)知道您認(rèn)為重要事件的內(nèi)容,因此您必須定義警報(bào)標(biāo)準(zhǔn)。警報(bào)定義由通知方法和度量閾值組成,系統(tǒng)根據(jù)傳入數(shù)據(jù)持續(xù)評估。閾值通常定義指定時(shí)間范圍內(nèi)度量標(biāo)準(zhǔn)的最大或最小平均值,而通知方法描述如何發(fā)送警報(bào)。

警報(bào)中最困難的部分之一是找到一個(gè)平衡點(diǎn),使您能夠在不過度警報(bào)的情況下對問題做出響應(yīng)。要實(shí)現(xiàn)這一點(diǎn),您需要了解哪些指標(biāo)是實(shí)際問題的最佳指標(biāo),哪些問題需要立即關(guān)注,以及哪種通知方法最適合不同的方案。為了支持這一點(diǎn),閾值定義語言必須足夠強(qiáng)大,以充分描述您的標(biāo)準(zhǔn)。同樣,通知組件必須提供適合各種嚴(yán)重程度的通信方法。

黑盒和白盒監(jiān)控

現(xiàn)在我們已經(jīng)描述了監(jiān)控系統(tǒng)的各個(gè)部分如何有助于提高部署的可見性,我們可以討論一些可以定義閾值和警報(bào)的方法,以便為您的團(tuán)隊(duì)提供最佳服務(wù)。我們首先討論黑盒和白盒監(jiān)控之間的區(qū)別。

黑盒和白盒監(jiān)控描述了不同的監(jiān)控模型。它們不是相互排斥的,因此系統(tǒng)通常使用各種類型的混合物來利用它們的獨(dú)特優(yōu)勢。

黑盒監(jiān)控僅根據(jù)外部可見因素描述警報(bào)定義或圖表。這種監(jiān)控方式采用外部視角來保持對應(yīng)用程序或服務(wù)的公共行為的關(guān)注。由于不了解底層組件的運(yùn)行狀況,黑盒監(jiān)控從用戶的角度為您提供有關(guān)系統(tǒng)功能的數(shù)據(jù)。雖然此視圖可能看起來有限制,但此信息會(huì)嚴(yán)格映射到主動(dòng)影響客戶的問題,因此它們是警報(bào)觸發(fā)器的良好候選者。

白盒監(jiān)控描述了基于有關(guān)基礎(chǔ)架構(gòu)的內(nèi)部信息的任何監(jiān)控。由于內(nèi)部流程的數(shù)量遠(yuǎn)遠(yuǎn)超過了外部可見行為,因此您可能會(huì)有更高比例的白盒數(shù)據(jù)。由于它可以提供有關(guān)您系統(tǒng)的更全面的信息,因此白盒監(jiān)控有機(jī)會(huì)提供預(yù)測。例如,通過跟蹤資源使用的變化,它可以在您需要擴(kuò)展某些服務(wù)以滿足新需求時(shí)通知您。

黑盒子和白盒子只是將不同類型的視角分類到系統(tǒng)中的方法。可以訪問系統(tǒng)內(nèi)部可見的白盒數(shù)據(jù),有助于調(diào)查問題,評估根本原因,以及在出現(xiàn)問題或正常管理時(shí)查找相關(guān)因素。另一方面,黑盒監(jiān)控可以通過立即顯示用戶影響來幫助快速檢測嚴(yán)重問題。

通過警報(bào)類型來匹配問題嚴(yán)重性

警報(bào)和通知是您的監(jiān)控系統(tǒng)中最重要的部分。如果沒有關(guān)于重要更改的通知,您的團(tuán)隊(duì)將不會(huì)意識到影響您系統(tǒng)的事件,或者需要主動(dòng)監(jiān)控您的儀表板才能及時(shí)了解情況。另一方面,過度激進(jìn)的消息傳遞與高百分比的誤報(bào),非緊急事件或模糊的消息傳遞可能弊大于利。

在本節(jié)中,我們將討論不同級別的通知以及如何最好地使用每個(gè)通知以最大化其有效性。之后,我們將討論選擇警報(bào)的內(nèi)容以及通知應(yīng)該完成的一些標(biāo)準(zhǔn)。

報(bào)警

從最高優(yōu)先級警報(bào)類型開始,報(bào)警是由緊急情況引起對系統(tǒng)的關(guān)鍵問題的注意的通知。此類警報(bào)應(yīng)用于因嚴(yán)重性要求立即解決的情況。尋呼系統(tǒng)需要一種可靠,積極的方式來通知有責(zé)任和有權(quán)解決問題的人。

報(bào)警應(yīng)保留用于系統(tǒng)的關(guān)鍵問題。由于它們代表的問題類型,它們是系統(tǒng)發(fā)送的最重要的警報(bào)。良好的尋呼系統(tǒng)可靠、持久且具有足夠的侵略性,以至于無法合理地忽略它們。為確保響應(yīng),尋呼系統(tǒng)通常包括一個(gè)選項(xiàng),用于在一定時(shí)間內(nèi)未確認(rèn)而通知輔助人員或其他工作組。

因?yàn)閳?bào)警本質(zhì)上具有令人難以置信的破壞性,所以應(yīng)該謹(jǐn)慎使用它們:只有在明確存在操作上不可接受的問題時(shí)才使用它們。通常,這意味著使用黑盒技術(shù)與系統(tǒng)中觀察到的癥狀相關(guān)聯(lián)。雖然可能很難確定后端Web主機(jī)最大化連接的影響,但是比您的域無法訪問的重要性要小得多。

次要通知

低級別嚴(yán)重性是電子郵件通知。這些旨在留下持續(xù)的提醒,即操作員在處于有利位置時(shí)應(yīng)調(diào)查發(fā)生的情況。與報(bào)警不同,通知式警報(bào)表示并不需要立即采取行動(dòng),因此通常由工作人員處理,而不是警告隨叫隨到的員工。如果您的企業(yè)沒有管理員實(shí)時(shí)工作,則通知應(yīng)有可能等到下一個(gè)工作日時(shí)處理。

監(jiān)控幫助團(tuán)隊(duì)生成的電子郵件了解他們下次活動(dòng)時(shí)應(yīng)該關(guān)注的工作。由于通知不應(yīng)用于當(dāng)前影響生產(chǎn)的關(guān)鍵問題,因此它們通常基于白盒指標(biāo),可以預(yù)測或識別需要盡快解決的不斷變化的問題。

其他時(shí)候,通知警報(bào)設(shè)置為監(jiān)視與尋呼警報(bào)相同的行為,但設(shè)置為較低的,不太重要的閾值。例如,您可以在應(yīng)用程序在一段時(shí)間內(nèi)顯示延遲略有增加時(shí)定義通知警報(bào),并在延遲增加到不合理的數(shù)量時(shí)發(fā)送相應(yīng)的報(bào)警。

通常,通知最適合需要響應(yīng)的情況,但不會(huì)對系統(tǒng)的穩(wěn)定性構(gòu)成直接威脅。在這些情況下,您希望提高對問題的認(rèn)識,以便您的團(tuán)隊(duì)可以在影響用戶或轉(zhuǎn)換為更大的問題之前進(jìn)行調(diào)查和緩解。

記錄信息

雖然技術(shù)上不是警報(bào),但有時(shí)您可能希望在以后可以輕松訪問的位置記錄特定的觀察行為,而不會(huì)立即引起任何人的注意。在這些情況下,設(shè)置僅記錄信息的閾值可能很有用。這些可以寫入文件或用于增加監(jiān)視系統(tǒng)中儀表板上的計(jì)數(shù)器。目標(biāo)是為調(diào)查提供易于編譯的信息,以減少操作員必須構(gòu)建的查詢數(shù)量以收集信息。

此策略僅適用于優(yōu)先級非常低且無需自行響應(yīng)的方案。它們最大的效用是關(guān)聯(lián)相關(guān)因素并總結(jié)時(shí)間點(diǎn)數(shù)據(jù),以后可以作為補(bǔ)充來源參考。您可能沒有這種類型的許多觸發(fā)器,但是如果您在每次出現(xiàn)問題時(shí)發(fā)現(xiàn)自己查找相同的數(shù)據(jù),它們可能會(huì)很有用。提供一些相同好處的替代方案是保存的查詢和自定義調(diào)查儀表板。

何時(shí)避免警報(bào)

重要的是要清楚警告應(yīng)該向您的團(tuán)隊(duì)指出什么。每個(gè)警報(bào)都應(yīng)表示發(fā)生了需要手動(dòng)操作人工或輸入決策的問題。由于這一重點(diǎn),當(dāng)您考慮提醒警報(bào)時(shí),請注意可以自動(dòng)進(jìn)行反應(yīng)的任何機(jī)會(huì)。

在以下情況下可以設(shè)計(jì)自動(dòng)修復(fù):

  • 可識別的簽名可以可靠地識別問題
  • 響應(yīng)總是一樣的
  • 響應(yīng)不需要任何人為輸入或決策

有些響應(yīng)比其他響應(yīng)更容易自動(dòng)化,但通常情況下,符合上述條件的任何方案都可以編寫腳本。響應(yīng)仍然可以與警報(bào)閾值相關(guān)聯(lián),但是觸發(fā)器可以啟動(dòng)腳本來修復(fù)以解決問題,而不是向人員發(fā)送消息。每次發(fā)生這種情況時(shí)都要記錄可以提供有關(guān)系統(tǒng)運(yùn)行狀況以及度量標(biāo)準(zhǔn)閾值和自動(dòng)度量的有用信息。

重要的是要記住,自動(dòng)化流程也會(huì)遇到問題。最好為腳本響應(yīng)添加額外的警報(bào),以便在自動(dòng)化失敗時(shí)通知操作員。這樣,不干涉的響應(yīng)將處理大多數(shù)情況,同時(shí)您的團(tuán)隊(duì)將收到需要干預(yù)的事件的通知。

設(shè)計(jì)有效閾值和警報(bào)

現(xiàn)在我們已經(jīng)介紹了可用的不同警報(bào)介質(zhì)以及適合每種情況的一些場景,我們可以討論好警報(bào)的特征。

由具有真實(shí)用戶影響的事件觸發(fā)

如前所述,基于具有真實(shí)用戶影響的方案的警報(bào)是最佳的。這意味著分析不同的故障或性能降級情況,并了解它們?nèi)绾我约昂螘r(shí)可以涉及到用戶與之交互的層。

這需要充分了解您的基礎(chǔ)架構(gòu)冗余,不同組件的關(guān)系以及組織的可用性和性能目標(biāo)。您的目標(biāo)是發(fā)現(xiàn)可以可靠地指示當(dāng)前或即將發(fā)生的用戶影響問題的癥狀指標(biāo)。

具有漸變嚴(yán)重性的閾值

在確定癥狀指標(biāo)后,下一個(gè)挑戰(zhàn)是確定用作閾值的適當(dāng)值。您可能必須使用試驗(yàn)和錯(cuò)誤來發(fā)現(xiàn)某些指標(biāo)的正確閾值。

如果可用,請檢查歷史值以確定過去需要修復(fù)的方案。對于每個(gè)度量標(biāo)準(zhǔn),最好定義一個(gè)“緊急”閾值,該閾值將觸發(fā)一個(gè)報(bào)警。同時(shí)也定義與較低優(yōu)先級消息傳遞相關(guān)聯(lián)的一個(gè)或多個(gè)閾值。定義新警報(bào)后,請?jiān)儐栍嘘P(guān)閾值是否過于激進(jìn)或不夠敏感的反饋,以便您可以對系統(tǒng)進(jìn)行微調(diào),以更好地符合您團(tuán)隊(duì)的期望。

包含適當(dāng)?shù)纳舷挛?/h2>

最大限度地減少響應(yīng)者開始調(diào)查問題所需的時(shí)間,可幫助您更快地從事件中恢復(fù)。為此,嘗試在警報(bào)文本中提供上下文非常有用,這樣操作員可以快速了解情況并開始處理適當(dāng)?shù)暮罄m(xù)步驟。

警報(bào)應(yīng)清楚地指出受影響的組件和系統(tǒng),觸發(fā)的度量標(biāo)準(zhǔn)閾值以及事件開始的時(shí)間。警報(bào)還應(yīng)提供可用于獲取更多信息的鏈接。這些鏈接可能是指向與觸發(fā)指標(biāo)關(guān)聯(lián)的特定儀表板的鏈接,如果生成自動(dòng)故障單,則鏈接到監(jiān)控系統(tǒng)的警報(bào)頁面,其中提供了更詳細(xì)的上下文。

目標(biāo)是為操作員提供足夠的信息來指導(dǎo)他們的初始響應(yīng),并幫助他們專注于手頭的事件。提供有關(guān)事件的每條信息既不是必需的,也不是推薦的,但提供基本的詳細(xì)信息以及下一步的選項(xiàng)可以縮短響應(yīng)的初始發(fā)現(xiàn)階段。

發(fā)送給合適的人

如果警報(bào)不可操作,則警報(bào)無效。通常,警報(bào)是否可操作取決于響應(yīng)人員的知識水平,經(jīng)驗(yàn)和許可。對于特定規(guī)模的組織,在某些情況下,確定適當(dāng)?shù)娜藛T或群組信息是直截了當(dāng)?shù)模谄渌闆r下則是模棱兩可的。為不同的團(tuán)隊(duì)開展隨叫隨到的輪換并設(shè)計(jì)具體的升級計(jì)劃可以消除這些決策中的一些模糊性。

隨叫隨到的輪換應(yīng)包括足夠的能力,以避免倦怠和警覺疲勞。最好是您的警報(bào)系統(tǒng)包括一個(gè)用于安排隨叫隨到的班次的機(jī)制,但如果沒有,您可以根據(jù)您的日程安排制定手動(dòng)旋轉(zhuǎn)警報(bào)聯(lián)系人的程序。您可能有多個(gè)由系統(tǒng)特定部分的所有者組成的待命輪換。

升級計(jì)劃是確保事件發(fā)生在正確人員身上的第二個(gè)工具。如果您的員工每天24小時(shí)都會(huì)覆蓋您的系統(tǒng),最好將監(jiān)控系統(tǒng)生成的警報(bào)發(fā)送給在職員工而不是隨叫隨到的輪換。然后響應(yīng)者可以自己執(zhí)行處理,或者如果他們需要額外的幫助或?qū)I(yè)知識,則可以決定手動(dòng)尋呼呼叫操作員。制定計(jì)劃何時(shí)以及如何升級問題可以最大限度地減少不必要的警報(bào)并保持報(bào)警所代表的緊迫感。

結(jié)論

在本文中,我們討論了監(jiān)控和警報(bào)如何在實(shí)際系??統(tǒng)中工作。我們首先了解監(jiān)控系統(tǒng)的不同部分如何工作以滿足組織對意識和響應(yīng)能力的需求。我們討論了黑盒和白盒監(jiān)控之間的區(qū)別,作為思考不同警報(bào)線索的框架。之后,我們討論了不同類型的警報(bào)以及如何最好地將事件嚴(yán)重性與適當(dāng)?shù)木瘓?bào)媒體相匹配。最后,我們介紹了有效警報(bào)流程的特點(diǎn),以幫助您設(shè)計(jì)一個(gè)可提高團(tuán)隊(duì)響應(yīng)能力的系統(tǒng)。

?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請聯(lián)系作者
平臺(tái)聲明:文章內(nèi)容(如有圖片或視頻亦包括在內(nèi))由作者上傳并發(fā)布,文章內(nèi)容僅代表作者本人觀點(diǎn),簡書系信息發(fā)布平臺(tái),僅提供信息存儲(chǔ)服務(wù)。

推薦閱讀更多精彩內(nèi)容