每個公司大概都有一個“穩定性保障一號位”,在不斷翻車中持續進擊。
當技術手段不足以提供確定性解法的時候,一般就需要祭出“壓實主體責任”這最后的一招了,充分調動每個人在組織中的能動性,以達成目標。而設置“一號位”通常是壓實主體責任的第一環。
在 IT 領域,穩定性保障一直屬于最不具備“確定性解法”的 topic,防不勝防,大家的解法也是五花八門,你有你的張良計,我有我的過墻梯。奈何常在河邊走,哪能不濕鞋。打臉來的太快,這怕是對負責穩定性保障的技術人心態的最好寫照了。
此外,穩定性保障工作,低頻、高危。平時不顯山露水,但是一旦發生大故障,一號位首當其沖,如果功夫沒有做在平時,那就是被架在火上烤,在接下來的穩定性整改運動中,基本可以引咎辭職了。
穩定性 case 的影響可大可小,對應的責任也可大可小,取決于:
- 承載的業務的重要性
- 故障時刻的損失程度
- 輿論的傳播面
- 品牌的影響度
- 法律法規和監管的要求
- 公司管理制度的要求
因此,隨著以上幾個因素的不斷變化,公司在某個階段,對穩定性保障提出更高的要求,對一號位的要求也會有不同。但總體而言,一號位的職責總結如下。
穩定性一號位的職責是什么
1. 承擔責任
也俗稱“背鍋”,穩定性既然是技術領域的重要工作,對業務產生著重大影響,那么結果不符合預期,一號位需要承擔責任,這是完全說得通的,有壓力才有動力。但承擔責任不是目的,核心還是通過一號位的機制,將整個穩定性保障工作體系化的規劃起來。
2. 制定合理的目標并確保目標可被分解和量化,讓所有人參與進來
目標是否合理,體現在兩個方面,一是穩定性目標是否和業務效果緊密掛鉤,IT 系統是否穩定,是由其承載的業務是否正常來決定的,唯有如此,才能真正體現IT系統賦能業務支撐業務的本質價值,避免自嗨式目標、聽不懂的目標;二是系統的穩定性,夠用就好,目標過高,投入產出不成正比,要知道目標過高,每前進一小步,所花費的人力物力時間成本,會呈數量級放大。
目標設置不合理,首先是對自己的業務、IT 現狀認識不全面,沒有深入去思考,其次是盲目攀比,聽聞坊間傳說幾個9,就隨手拍腦袋,比他再高一個點!關于穩定性目標,可以延伸閱讀《服務穩定性保障的五大誤解》。
承擔責任,也是一個技術活,要講究方式方法,不是死扛硬抗,個人英雄主義。制定了目標,要有機制拆解到 IT 系統的各個技術參與方并且清晰的量化,確保參與方都能使上勁。具體可以參考《SLO新解,一種行之有效的故障處理方法》。
3、確定預算
撇開成本談保障工作,屬于無源之水無本之木。穩定性保障一號位,在定好目標之后,接下來就是要確定和鎖定預算。預算不單純指直接負責穩定性保障任務的 headcount,也包括公司對于資源使用率要求、架構升級專項任務的預算、行業先進工具引入的費用預算、業務研發團隊在穩定性工作上的參與度等等。
在一個大的組織,在年度預算開啟前,確定好上面這些工作,是非常有挑戰和考驗穩定性保障一號位的綜合能力。
4、建立技術保障體系
實際上是通過建立工具體系,做好兩個事情:
- 不斷提高穩定性保障的“確定性”:
提高確定性的過程,就是不斷兌現承諾、提升信心的過程,比如穩定性保障團隊是否能在業務和用戶感知之前發現問題,是否能給出故障解決的預期時間,能快速準確的評估故障的影響面,有行之有效的故障止損預案等。
- 不斷降低穩定性保障工作的“門檻”:
要承認,現階段處理故障,對工程師的經驗要求太高了,既要有扎實的 troubleshooting 的能力,有強大的抗壓能力,對各種工具平臺熟練使用,還要對整體系統的架構、細節都非常熟悉,這就決定了這樣富有經驗的工程師總是很稀缺,難以批量培養,甚至于一旦離職或者轉崗,容易出現青黃不接的現象。那么能不能把這些經驗形成方法論,沉淀到工具中,形成套路,降低門檻就顯得至關重要。
當然,隨著微服務和云原生架構的更多采用,帶來敏捷和高效的同時,使得整個IT系統的復雜度成數量級的上升,這與我們所追求的“確定性”、“低門檻”背道而馳。
- 系統越來越復雜,以至于無法清晰的定義什么是真的故障,無法定義,那就更談不上準確、及時的發現故障了,穩定性保障工作,直接輸在了起跑線;
- 數據量越來越大,信息過載的問題變得格外突出,技術團隊在有限的時間里,無法有效、準確的提取關鍵信息,導致貽誤戰機,造成巨大的業務損失;
- 穩定性保障,在整個行業范圍,缺乏有效的方法論沉淀和產品化抽象,導致故障處理的各個環節,高度依賴工程師個體的經驗,不具備復制性,難以持續改進,俗話講,缺乏套路,門檻太高;
所以,如何通過技術手段,結合數據、流程,形成一套行之有效的穩定性保障打法,應對上面的挑戰,所有的一號位共勉。
十年前,我從畢業到百度、小米、滴滴,從保障一個服務、到保障一個業務、再到保障全平臺,scope 在變化,但是職責未變、初心未改。直到今天創立快貓星云,仍然是希望通過打造最好的Flashcat平臺,為整個行業做出力所能及的貢獻。
如果你有觀點和解法,歡迎添加我的微信 laiweivic 探討交流。
關于快貓星云
快貓星云,一家云原生智能運維科技公司,秉承著讓監控分析變簡單的初心和使命,致力于打造先進的云原生監控分析平臺,結合人工智能技術,提升云原生時代數字化服務的穩定性保障能力。
快貓星云團隊是開源項目夜鶯監控的主要貢獻者、項目管理委員會核心成員。夜鶯監控是一款開源云原生監控分析系統,采用 All-In-One 的設計,集數據采集、可視化、監控告警、數據分析于一體,與云原生生態緊密集成,提供開箱即用的企業級監控分析和告警能力,已有眾多企業選擇將 Prometheus + AlertManager + Grafana 的組合方案升級為使用夜鶯監控。
夜鶯監控,由滴滴開發和開源,并于 2022 年 5 月 11 日,捐贈予中國計算機學會開源發展委員會(CCF ODC),為 CCF ODC 成立后接受捐贈的第一個開源項目。
快貓星云產品介紹
- 一分鐘視頻介紹: https://flashcat.cloud/videos/flashcat.mp4
- Flashcat平臺PPT: https://sourl.cn/G5iZCT
- Flashcat官網:https://flashcat.cloud
- 在線體驗demo: http://demo.flashcat.cloud