說明:下文說的這個(gè)產(chǎn)品是一個(gè)大的框架下大概念的產(chǎn)品(A),包括很多單獨(dú)的子產(chǎn)品/系統(tǒng)(a,b,c,d等)
01 人員單點(diǎn)問題
今天早上,接到現(xiàn)場(chǎng)項(xiàng)目經(jīng)理的投訴,昨天凌晨硬件故障,修復(fù)后,我們的應(yīng)用起不來,聯(lián)系了a產(chǎn)品的負(fù)責(zé)人,聯(lián)系不上。導(dǎo)致前臺(tái)停業(yè)8個(gè)小時(shí)。項(xiàng)目經(jīng)理氣憤的說,昨天晚上他不在,如果在的話,就直接給a產(chǎn)品負(fù)責(zé)人的老總打電話了。可是關(guān)鍵問題在于,就算給老總打了電話,也沒用,因?yàn)椋?b>a產(chǎn)品負(fù)責(zé)人是唯一的能搞定這個(gè)產(chǎn)品的人,其他人連懂的都沒有,所以,聯(lián)系不上這個(gè)人,一切就停滯了。
這又一次暴露出了我們A產(chǎn)品的問題,大面積的去推廣,卻沒有強(qiáng)大的團(tuán)隊(duì)支撐,不僅僅a產(chǎn)品,另外相關(guān)的幾個(gè)產(chǎn)品(b,c,d等)同樣也面臨著無備份的情況。我們都知道設(shè)計(jì)系統(tǒng),不能讓系統(tǒng)有單點(diǎn),因?yàn)槿f一出了問題,就整個(gè)down了。所以,做產(chǎn)品真的很難,產(chǎn)品研發(fā)出來,落地怎么落,落地后的運(yùn)維怎么辦?也就是一線運(yùn)維人員和二線的研發(fā)人員之間有什么關(guān)系,如何分工等?這些都是要提前想清楚的。
02 ?落地
A產(chǎn)品落地的時(shí)候,因?yàn)锳產(chǎn)品下的子產(chǎn)品是分屬于不同的產(chǎn)品線的,所以,按照公司正常的落地流程交接給相應(yīng)的產(chǎn)品線即可。每個(gè)產(chǎn)品線提供技術(shù)負(fù)責(zé)人(一般是我們的產(chǎn)品負(fù)責(zé)人)負(fù)責(zé)協(xié)調(diào)、推動(dòng)落地。在落地初期,主要的問題是大家對(duì)我們的產(chǎn)品不熟悉,有那么多的what?what?what?why?why?why?,弄得落地過程不順。為了解決這個(gè)問題,我們選取了一個(gè)標(biāo)桿項(xiàng)目,我們幾個(gè)主要的總負(fù)責(zé)人參與到項(xiàng)目中,幫項(xiàng)目一起梳理好什么時(shí)間點(diǎn)該干什么,跟他們一起推動(dòng)計(jì)劃執(zhí)行和問題解決,并形成了《落地部署手冊(cè)》,為以后落地的項(xiàng)目提供了標(biāo)準(zhǔn)的行為的指導(dǎo)。
當(dāng)然,有了這個(gè)文檔,不能解決一切問題,有了新的落地項(xiàng)目,他們還是有很多what?what?what?,這個(gè)時(shí)候,我們就可以先讓他看文檔,然后基于文檔提出問題,針對(duì)問題進(jìn)行解答,落地相對(duì)順利了些。
漸漸的,有幾個(gè)商務(wù)項(xiàng)目成功落地了,本以為,到此為止了,但是新的問題也出現(xiàn)了。
03 運(yùn)維
有一個(gè)項(xiàng)目,上線后,系統(tǒng)出現(xiàn)問題,這就牽扯出來運(yùn)維的問題。
考慮到,我們A產(chǎn)品人員不足,如果大面積的推廣,靠研發(fā)團(tuán)隊(duì)的力量肯定解決不了;另外,還有一個(gè)重要的原因是發(fā)生了故障后,本地的運(yùn)維在現(xiàn)場(chǎng),能第一時(shí)間聯(lián)系上,而且,現(xiàn)場(chǎng)排查問題更方便快捷,否則,靠遠(yuǎn)程解決,能不能連上環(huán)境還是個(gè)問題,就算連上了,溝通也是最大的問題,通常這邊說了半天了,那邊可能忙于做其他的檢查接不上話,整體問題的了解,故障的重現(xiàn)等都會(huì)拖延,所以,當(dāng)時(shí)想的解決辦法是落地后的運(yùn)維落地了本地。
這個(gè)辦法好是好,但是也存在下問題。一方面當(dāng)?shù)厥欠裼心茏龃隧?xiàng)運(yùn)維工作的人(工作飽和問題)需要每一個(gè)落地項(xiàng)目進(jìn)行安排,另一個(gè)是產(chǎn)品的交接也存在困難,因?yàn)楸旧懋a(chǎn)品是新產(chǎn)品,也采用了一些新技術(shù)和新框架,掌握的人不多,另外,遠(yuǎn)程交接,也存在一些問題。
但是,考慮到各個(gè)省份基本有PaaS平臺(tái)的運(yùn)維人員,A產(chǎn)品的運(yùn)維可以考慮兼顧,還是定了運(yùn)維就在本地。
就是今天發(fā)生故障的這個(gè)項(xiàng)目,我們已經(jīng)協(xié)商好后續(xù)的維護(hù)由他們招人完成,但是,他們的人一直沒有招上來,所以這塊出了問題,還只能找產(chǎn)品團(tuán)隊(duì)卻又出現(xiàn)了人員單點(diǎn)的問題。這塊其實(shí)以前也提過,A產(chǎn)品的子產(chǎn)品每個(gè)都要有備份,但是,招聘也一直沒有進(jìn)度,也就慢慢的忽略了。
04 故障解決與反思
所以,事情發(fā)生后,趕快去找了領(lǐng)導(dǎo),溝通了在目前人員招聘不上來情況下的人員備份問題,只能從其他一個(gè)產(chǎn)品團(tuán)隊(duì)(跟A產(chǎn)品有些關(guān)系,也正在交接其中的某些產(chǎn)品)定了一個(gè)人,但是這個(gè)人的工作也相對(duì)飽和,也只能作為備份。
總之,目前的現(xiàn)狀就是這樣,后面要做的,一個(gè)是列定時(shí)間計(jì)劃,確保能在一段時(shí)間內(nèi)達(dá)到備份的角色,另一方面催招聘的人抓緊時(shí)間招聘,還有一個(gè),不管現(xiàn)場(chǎng)有沒有專職的運(yùn)維人員,也要確定一個(gè)人,負(fù)責(zé)簡(jiǎn)單的起停等操作,至少能解決一部分問題。
今天的事件的處理,我還有兩個(gè)感受:一個(gè)是b產(chǎn)品的負(fù)責(zé)人,目前她正在做產(chǎn)品交接,前期交接時(shí)也明確了至少到3月31日前,工作的責(zé)任在她那,在不影響項(xiàng)目進(jìn)度的情況下,她可以安排交接的人工作,她指導(dǎo)。但是今天故障發(fā)生后,她配合不利,讓新交接的人(交接不到一個(gè)周,上周剛學(xué)會(huì)了部署 )費(fèi)勁的去查問題,去配東西,這種對(duì)生產(chǎn)環(huán)境不敬畏的態(tài)度,這種個(gè)人利益(或者部門利益)大于項(xiàng)目利益,大于公司利益的行為,現(xiàn)場(chǎng)項(xiàng)目經(jīng)理和我都提出了質(zhì)疑,請(qǐng)她主力配合,并跟她的領(lǐng)導(dǎo)溝通了這種事情的處理原則--恢復(fù)故障,降低影響,她要全力支撐,如需協(xié)調(diào),現(xiàn)場(chǎng)項(xiàng)目經(jīng)理或者我可以給她的領(lǐng)導(dǎo)或者老總打電話。
另外一個(gè)是,故障的處理,一定要有時(shí)間概念,因?yàn)槭沁h(yuǎn)程處理,溝通極其不舒暢,而且解決問題已經(jīng)有一段時(shí)間了,還沒有進(jìn)展,這個(gè)時(shí)候,必須要采取更有效的問題溝通方式,今天我實(shí)在忍不住了(現(xiàn)場(chǎng)項(xiàng)目經(jīng)理在群里問情況,沒人回答),我就組織所有的相關(guān)人員開了電話會(huì),在電話會(huì)中,各方溝通,直接操作,終于在12點(diǎn)半左右解決了問題,截止到那會(huì),系統(tǒng)停業(yè)近12個(gè)小時(shí),都松了一口氣。
會(huì)上大家還明確了后續(xù)要做的事情,梳理下現(xiàn)有系統(tǒng),看是否還有哪方面的風(fēng)險(xiǎn),并計(jì)劃隨后安排相關(guān)人員到現(xiàn)場(chǎng)進(jìn)行梳理和培訓(xùn)(就是前面說的,至少要有一個(gè)人會(huì)起停之類的簡(jiǎn)單的操作)。
事后的亡羊補(bǔ)牢固然重要,但是最高級(jí)的手段是防患于未然,我們?yōu)榱诉@個(gè)而努力。