說明:下文說的這個產品是一個大的框架下大概念的產品(A),包括很多單獨的子產品/系統(a,b,c,d等)
01 人員單點問題
今天早上,接到現場項目經理的投訴,昨天凌晨硬件故障,修復后,我們的應用起不來,聯系了a產品的負責人,聯系不上。導致前臺停業8個小時。項目經理氣憤的說,昨天晚上他不在,如果在的話,就直接給a產品負責人的老總打電話了。可是關鍵問題在于,就算給老總打了電話,也沒用,因為,a產品負責人是唯一的能搞定這個產品的人,其他人連懂的都沒有,所以,聯系不上這個人,一切就停滯了。
這又一次暴露出了我們A產品的問題,大面積的去推廣,卻沒有強大的團隊支撐,不僅僅a產品,另外相關的幾個產品(b,c,d等)同樣也面臨著無備份的情況。我們都知道設計系統,不能讓系統有單點,因為萬一出了問題,就整個down了。所以,做產品真的很難,產品研發出來,落地怎么落,落地后的運維怎么辦?也就是一線運維人員和二線的研發人員之間有什么關系,如何分工等?這些都是要提前想清楚的。
02 ?落地
A產品落地的時候,因為A產品下的子產品是分屬于不同的產品線的,所以,按照公司正常的落地流程交接給相應的產品線即可。每個產品線提供技術負責人(一般是我們的產品負責人)負責協調、推動落地。在落地初期,主要的問題是大家對我們的產品不熟悉,有那么多的what?what?what?why?why?why?,弄得落地過程不順。為了解決這個問題,我們選取了一個標桿項目,我們幾個主要的總負責人參與到項目中,幫項目一起梳理好什么時間點該干什么,跟他們一起推動計劃執行和問題解決,并形成了《落地部署手冊》,為以后落地的項目提供了標準的行為的指導。
當然,有了這個文檔,不能解決一切問題,有了新的落地項目,他們還是有很多what?what?what?,這個時候,我們就可以先讓他看文檔,然后基于文檔提出問題,針對問題進行解答,落地相對順利了些。
漸漸的,有幾個商務項目成功落地了,本以為,到此為止了,但是新的問題也出現了。
03 運維
有一個項目,上線后,系統出現問題,這就牽扯出來運維的問題。
考慮到,我們A產品人員不足,如果大面積的推廣,靠研發團隊的力量肯定解決不了;另外,還有一個重要的原因是發生了故障后,本地的運維在現場,能第一時間聯系上,而且,現場排查問題更方便快捷,否則,靠遠程解決,能不能連上環境還是個問題,就算連上了,溝通也是最大的問題,通常這邊說了半天了,那邊可能忙于做其他的檢查接不上話,整體問題的了解,故障的重現等都會拖延,所以,當時想的解決辦法是落地后的運維落地了本地。
這個辦法好是好,但是也存在下問題。一方面當地是否有能做此項運維工作的人(工作飽和問題)需要每一個落地項目進行安排,另一個是產品的交接也存在困難,因為本身產品是新產品,也采用了一些新技術和新框架,掌握的人不多,另外,遠程交接,也存在一些問題。
但是,考慮到各個省份基本有PaaS平臺的運維人員,A產品的運維可以考慮兼顧,還是定了運維就在本地。
就是今天發生故障的這個項目,我們已經協商好后續的維護由他們招人完成,但是,他們的人一直沒有招上來,所以這塊出了問題,還只能找產品團隊卻又出現了人員單點的問題。這塊其實以前也提過,A產品的子產品每個都要有備份,但是,招聘也一直沒有進度,也就慢慢的忽略了。
04 故障解決與反思
所以,事情發生后,趕快去找了領導,溝通了在目前人員招聘不上來情況下的人員備份問題,只能從其他一個產品團隊(跟A產品有些關系,也正在交接其中的某些產品)定了一個人,但是這個人的工作也相對飽和,也只能作為備份。
總之,目前的現狀就是這樣,后面要做的,一個是列定時間計劃,確保能在一段時間內達到備份的角色,另一方面催招聘的人抓緊時間招聘,還有一個,不管現場有沒有專職的運維人員,也要確定一個人,負責簡單的起停等操作,至少能解決一部分問題。
今天的事件的處理,我還有兩個感受:一個是b產品的負責人,目前她正在做產品交接,前期交接時也明確了至少到3月31日前,工作的責任在她那,在不影響項目進度的情況下,她可以安排交接的人工作,她指導。但是今天故障發生后,她配合不利,讓新交接的人(交接不到一個周,上周剛學會了部署 )費勁的去查問題,去配東西,這種對生產環境不敬畏的態度,這種個人利益(或者部門利益)大于項目利益,大于公司利益的行為,現場項目經理和我都提出了質疑,請她主力配合,并跟她的領導溝通了這種事情的處理原則--恢復故障,降低影響,她要全力支撐,如需協調,現場項目經理或者我可以給她的領導或者老總打電話。
另外一個是,故障的處理,一定要有時間概念,因為是遠程處理,溝通極其不舒暢,而且解決問題已經有一段時間了,還沒有進展,這個時候,必須要采取更有效的問題溝通方式,今天我實在忍不住了(現場項目經理在群里問情況,沒人回答),我就組織所有的相關人員開了電話會,在電話會中,各方溝通,直接操作,終于在12點半左右解決了問題,截止到那會,系統停業近12個小時,都松了一口氣。
會上大家還明確了后續要做的事情,梳理下現有系統,看是否還有哪方面的風險,并計劃隨后安排相關人員到現場進行梳理和培訓(就是前面說的,至少要有一個人會起停之類的簡單的操作)。
事后的亡羊補牢固然重要,但是最高級的手段是防患于未然,我們為了這個而努力。