寫在最前:這篇稿子困擾了我很久,我想了很多,但最終表達出來只有一點點。
許多事情可能都是這樣,你付出了很多,但最終展現給別人的,可能還不到十分之一。
于是許多人會說——“好簡單”。殊不知這三個字代表的,可能只是冰山一角。
能把復雜的事情變簡單,這本身就代表了強大的能力,至少目前的我還做不到。比如,我總想把稿子寫得簡單點,但總會很啰嗦,下筆千言,離題萬里。
再比如咱們今天要說的IT運維。這其中包括了太多的系統,太多的軟硬件協調,也需要太多的人力、物力投入,想要“變簡單”絕對不是一件容易的事情。但是這并不代表著“簡單”不可行,也并不能阻擋許多人苦苦的探索與嘗試,并且取得一些成就。
一、
IT運維是件苦差事。
如果這個世界上有“掙著賣白菜的錢,操著賣白粉的心”大獎評選,我相信IT運維一定能夠入圍。每隔幾個月,我們總能夠收獲這樣的信息——某云平臺癱瘓,因為光纖線纜被“臨時工”挖斷;某某網站數據丟失,因為“臨時工”誤刪核心數據庫;某某某單車APP無法運行,因為高峰期服務器壓力過大……
每當這個時候,IT運維人員都是沖在第一線的,而且經常會24小時工作,不眠不休。如果說,7*24*365是數據中心運維基本要求的話,那么對于那些負責運維的人,情況也大抵如此。
IT運維人員都有兩面,一面是“救火隊長”,另一面就是“背鍋俠”。在我們剛才列舉的幾個事件中,無論是人為問題還是系統問題,最終免不了成為“人”的問題,而這個問題的解決,就依靠IT運維人員來實現。
拋開挖掘機弄斷光纖這種小概率事件;拋開所謂“誤刪”數據庫,順手還“誤刪”了備份文件的主觀動因不說,類似這種人為的故障都是可以避免的,也不是IT運維的常態。更多的時候,系統無故宕機、網絡流量逼近極限、服務器無法訪問等事件才是大家經常遇到的情況,也亟待解決。
海量告警信息處理不及時、沒有可靠的自動化運維手段、缺少直觀的運維大數據可視化工具,這三者可能是IT規模迅速提高、IT環境越來越復雜的當下,運維部門最常遇到的問題,也是最希望解決的問題。原本,IT運維還只是企業管理的服務和保障部門,很難受到重視;但是伴隨著數字化轉型的深入,以及云計算、大數據技術的廣泛應用,當街頭賣早點的小販都在利用微信支付收款的時候,傳統兩地三中心的集中式、重耦合IT運維理念已經無法滿足互聯網用戶敏捷、高效的需求,自動化、智能化的呼聲越來越高。
“那時候運維就是體力活,大家戲稱干運維的都是搬箱子、搬服務器的……運維其實非常簡單,主要是依賴于人工巡檢,比如通過狀態燈看服務器或者硬件狀態,哪個地方壞了換一個”,云智慧CEO殷晉(Andy)說。
二、
相對于印象中那種CEO來說,Andy顯得平易近人得多。在采訪之前,我也曾試圖在網上搜索一些與他相關的信息。不過這些信息大多是2014年或者2016年的,所談論的也多是與APM相關的內容。似乎在此之后,Andy就變得越發低調了。
“每年我都會花很多時間跟很多企業的CIO們聊,了解他們目前的需求和業務情況,并把最有價值的需求整理出來,在我們的產品中予以實現。從2016年開始,這些成果逐漸形成了云智慧業務運維的理論體系和框架,更為驚喜的是,這套體系居然與Gartner目前所倡導的AIOps概念不謀而合,當然人家的系統邏輯更為嚴密。”在采訪中,Andy表現得非常坦誠。
為了清晰表述云智慧業務運維理論框架,Andy通過畫板為我們勾勒出這套理論的形成過程。“廣義的IT包括三個層面,硬件、軟件和數據。當然對于云智慧來說,我們覺得用戶應該在這些層面之上,我們做的所有事情都是來自于用戶和客戶的真實需求。”一邊說著,Andy一邊飛快的畫出了這幅圖。
在底層硬件和IT基礎設施層面,傳統運維遵從ITIL管理體系,使用的是ITOM/ITSM管理工具,總結起來無外乎“監控”兩個字。對于“監”來說,主要是識別服務器、存儲、網絡等基礎設備的運行狀態,進行監視;而“控”則是對已經發生的故障進行處理和修復。
正因為ITOM市場存在的時間最長,所以競爭也最為激烈,堪稱紅海。不僅有很多專業的運維管理軟件廠商,一些服務器、存儲和網絡設備廠商也都有自己的監控系統與解決方案,比如大名鼎鼎的IBM Tivoli,HP Openview等。由于傳統運維主要是“搬箱子”之類簡單、繁瑣的工作,所以更多的企業都向上尋求業務空間,這樣就來到了軟件層。
三、
相對于硬件平臺監控來說,軟件的應用場景更為廣闊。這個層面的主要表現形式是各種應用、系統組件、中間件等等。而針對應用性能的診斷和管理,如今最流行的解決方案就是APM。所謂APM,即Application Performance Management ,包含Web應用(網站)監控、移動(APP)應用監控、API接口健康檢查及監控、應用拓撲關聯分析和業務性能診斷等。
作為在中國市場涉足APM領域最早的公司,云智慧在多年之前就以用戶體驗為核心指標,推出了端到端APM解決方案,通過覆蓋全部技術棧的應用性能指標的采集、分析和統計,為用戶提供更加便捷、更優成本、更高質量的應用系統監測與前瞻性數據分析,持續提升應用產品的開發、運維和運營效率。在Andy看來,“APM服務能夠幫助開發和運維人員深入到系統黑匣子之內診斷和發現問題,極大的提升了運維工作效率,加速了產品迭代周期,讓企業能夠將更多資源投入到更加擅長的業務領域”。
由于APM有較高的技術門檻,在很長一段時間內,像云智慧這樣的APM廠商僅僅有三四家。但是隨著云服務被廣大企業所接受,應用的作用和價值愈發凸顯,越來越多的傳統運維管理廠商和B2B創業者投身APM領域,整個市場已經從藍海轉變為紅海。為了迎接新的挑戰,Andy又在思索著更多的出路。
于是有了業務運維。
四、
前文提到,每到年終歲末,Andy的一項重要工作就是找各大企業的CIO/CTO溝通、交流,以此確定未來的發展策略。這部分用戶在IT用戶劃分中是最高端的,也是從整體層面把控IT發展的人群。隨著IT在企業內部的地位不斷提升,CIO們需要更加貼合業務的數據分析、更加直觀的結果報告與指導性的解決方案,而不是簡單的一個新產品或者一項新技術。
“從硬件到軟件、再到數據,IT層次越高越抽象了,十年前或者幾年前很少有人會從用戶和業務數據的角度考慮IT的事情,而最近幾年大家在這個層面看問題,找方向”,說到這里,Andy有些激動。恰恰是看到了如此強烈的客戶需求,云智慧才能從產品的層面更進一步,從監控寶、透視寶的具體產品中升華出來,以業務數據和IT數據為藍本,為企業客戶提供更有價值的業務運維解決方案。
“現階段的CIO們會更加關心客戶滿意度怎么樣,業務線收入怎么樣,用戶轉化率怎么樣。而IT系統是什么樣子,有沒有問題;如果有問題,原因在哪里;IT部門怎么能夠更快的發現,怎么能夠更快的修復?這是業務運維平臺干的事”。
這也就是云智慧業務運維架構的邏輯。相對于傳統聚焦在一個功能點或者一條產品線的視角,業務運維從業務的全局角度自上而下考慮問題,這也就幫助管理者能夠分辨輕重緩急,酌情處理IT問題——對業務影響嚴重的問題必須第一時間處理,而不影響業務的問題完全可以放一放。
Andy將云智慧的業務運維的IT價值概括為八個字“監控、發現、報警、處置”,相應的云智慧也為此付出了八年的時間。在運維的早期,比如2010年左右,那時候運維工具還僅限于“監控”和“發現”的層面,也就是我們說的基礎設施層面。隨后伴隨著CMDB、伴隨著NPM和APM的落地,發展自動化運維已經成為業界的共識,實現了故障的自動巡檢和應用的自動部署。而如今,擁有大數據分析和機器學習能力的業務運維平臺,正在逐步實現自動化處置。
這很大程度上得益于人工智能技術技術的成熟。在此之前,所有的處置都是依靠人來進行,系統能夠在故障之初發布告警,給運維人員發郵件或者短信,但是這之后就需要人工對故障進行響應、判斷和處理,而人為因素恰恰是造成IT災難的最大隱患。
對于云智慧來說,這是一次里程碑式的的升級。
一方面,業務運維平臺可以進行對海量告警信息進行聚合、分類和預處理,讓故障信息并非是一股腦爆發而是按照對業務的影響程度分級提供給不同的運維人員,同時通過根因分析準確定位故障節點,節省用戶的排查時間。而在另一方面,云智慧在告警信息處理方面積累了高達PB級別的海量數據,結合機器學習和深度學習技術,業務運維可以針對不同的故障給出對應的解決方案,并在下一次事故發生前進行預判。
如今,云智慧的業務運維平臺借助于AI技術正在進行快速迭代,同時Andy秉承著互聯網的開放精神,把業務運維平臺的能力以API接口的方式開放出來,以便吸納更多的合作伙伴。相對于18個月之前解決方案剛剛發布時,如今的業務運維平臺已經實現了商業化與產品化,并正在為包括金融、制造、連鎖快消等許多世界500強規模的客戶提供服務,幫助這些企業在利舊的基礎上實現運維管理的升級。
在Andy看來,目前業務運維市場還是藍海,云智慧也是國內第一家實現產品化的公司。在談到未來的時候,Andy提到了三個關鍵詞:持續迭代、場景落地和廣泛兼容。當然對于云智慧這樣的公司來說,他認為應該專注于技術研發,做好業務運維平臺的核心能力是第一位的。至于滿足更廣闊的數字化市場需求,和合作伙伴攜手共贏才是王道。
“業務運維這個事,我們越搞越有信心”,Andy說。
后記:從最初的搬箱子到現在的自動化,IT運維實現了從“平民到皇帝”的轉變。原本只屬于輔助、后勤、從屬地位的IT運維伴隨著互聯網化、數字化的推進逐漸走到前臺,同時IT價值的爆發也倒逼著管理者必須重視業務運維。對于云智慧來說,從最早的監控寶產品到如今的業務運維平臺,它正在幫助越來越多的客戶擺脫傳統手工運維的束縛,向著智能化的新藍海闊步前行。