2015年5月末攜程、支付寶事件分析
攜程
5月28日中午11時9分開始,不少用戶發現在線旅游網站攜程無法打開,其APP也無法使用。到28日21點30分,攜程部分網頁已可以打開,但仍不能預訂。直到28日23點29分才完全恢復正常。
受此影響,28日攜程股價盤前暴跌11.67%,報72美元。如果以攜程一季度凈營業收入23億元計算,攜程癱瘓每小時損失或達106.5萬美元。
事發后,在微博、微信等社交媒體迅速、廣泛傳播,新浪科技專題滾動直播事件處理進展,多家網站報道該事件。短時間內,公眾對事件原因眾說紛紜,包括外部攻擊、內部員工誤操作、離職員工惡意攻擊等等,甚至有傳言攜程全線酒店數據庫遭到了物理刪除。
攜程在5月29日表示,經攜程技術排查,確認此次事件是由于員工錯誤操作,刪除了生產服務器上的執行代碼導致,并保證數據和數據庫并未受到此次事件的影響,用戶訂單數據也完整無損。
從攜程的正式表態看,故障原因是代碼被誤刪除,進而導致系統大面積故障。那么,從事件中所執行的操作看,是敏感的刪除操作;從事件引發的后果看,被刪除的代碼應是極為敏感、重要的代碼;從事件發生的時間看,這一敏感操作發生在上午11點左右的正常營運時間;從事件發生的環境看,是生產環境而不是測試、開發環境;從事件持續的時間看,數據恢復、內部調試的時間長達12小時。
這就暴露出攜程存在嚴重的內部管理漏洞:
第一,內部人員在業務運營時間、在生產環境,執行重要、敏感的操作,表明攜程缺少對重要生產變更風險的基本控制,而且,如果是內部人員在未授權的情況下開展這些操作,更說明攜程在訪問權限特別是高級、敏感權限的控制方面存在極為嚴重的漏洞;
第二,作為NASDAQ上市公司,需要遵守美國SOX法案的有關要求,攜程應有較為完備的數據備份措施,但是在有備份的情況下,通常數據恢復應在1到3個小時內完成,攜程的實際處置時間為12小時,這就暴露出攜程對于信息系統突發事件的應對能力存在較大的缺陷,其備份數據恢復測試、突發事件的應急預案與應急演練方面很可能都存在漏洞;
第三,由于未見到有關攜程啟動災備措施的報道,有理由懷疑攜程缺少信息系統的災難備份,作為一家規模較大、客戶眾多、對服務響應時間要求較高的互聯網公司,應建立自己的災難備份系統。
同時,此次事件也對高輿論壓力下的信息系統災難事件恢復有所借鑒。由于社交媒體、網絡媒體的高度發達,作為公眾公司的攜程對于此次故障的處理全程處于聚光燈下,基本做到了與媒體的及時溝通以緩釋輿論壓力。
官方回應
攜程方面向環球網科技表示,經攜程技術排查,確認此次事件是由于員工錯誤操作,刪除了生產服務器上的執行代碼導致。
從11:09到23:29,為什么恢復時間那么長?攜程方面向環球網科技表示,一般來說,類似攜程這樣的大型網站承載著繁多業務,其后臺是一個由SOA(面向服務)架構組成的龐大服務器集群群,看似簡單的一個頁面背后由上千個應用子系統以及上千個Web Service組成,而每個應用子系統和每個Web Service之間都存在著相互調用的依賴關系。
發生事件后,攜程的技術人員除了需要恢復生產服務器上的執行代碼以外,還需要做的是恢復并確保每個應用子系統以及每個Web Service的功能正常,同時確保應用子系統與Web Service間的調用關系得以正常執行。
這種驗證性的操作需要攜程的工程師及運維人員通力合作,盡快恢復生產代碼并通過反復地、持續性地調試以確保應用子系統與Web Service功能的正常運行。
攜程再次保證,數據和數據庫并未受到此次事件的影響,用戶訂單數據也完整無損,請用戶放心并繼續使用攜程網站及App。
如何杜絕此類事件的再次發生?攜程表示,攜程在系統上做了改進,規范并杜絕技術人員錯誤刪除生產服務器上代碼的操作。
其他回應
一位不愿透露姓名的知情人士向記者透露,以攜程積累的技術實力,即便全網被攻擊,要恢復數據最多也只需要一個小時。但已經過去若干小時,攜程數據仍沒有恢復。這些數據涉及兩個層面,一個是應用層面,也就是鏈接跳轉和頁面調度,一個是數據層面,如訂單生成等,目前來看,主要問題出在應用層面,這可以說是攜程發展16年來遇到的最大危機,攜程懷疑有內鬼搞破壞,可能還要報案。當然,如果是內部人員“不小心”永久刪除了一個重要數據文件,導致恢復的內容無法匹配,也反映出攜程內部管理出現嚴重漏洞。
獵豹移動安全專家李鐵軍接受記者采訪時表示,攜程服務中斷極有可能是內部管理失控導致,通常黑客從外部攻擊很難做到讓數據大量丟失,且備份遠不至于拖延太久。通常黑客入侵往往只是悄無聲息地拿走核心數據,一般不會進行破壞性操作。攜程這次事故綜合各方面信息來看,像內部人員所為(有可能已經造成數據損失)。以往攜程方面也曾經被披露過一些安全漏洞,這些漏洞幾乎不影響該公司的正常業務,受到威脅的往往只是用戶。
業內人士表示,擁有大數據的互聯網公司應對天災人禍有一套嚴格的防范措施。災備系統。同時,三份之一的安全問題是人為操作導致,人為安全問題需要制度、流程、技術手段方面的防控。
支付寶
螞蟻金服集團旗下的浙江網上銀行在5月27日正式獲批開業,同日,阿里集團下重要的產品——支付寶發生了大約2.5小時的中斷。支付寶官方給出的解釋是通信光纜被施工人員挖斷,造成網絡中斷。中國電信對事件的表態與支付寶的解釋一致。
對此次事件,批評者認為支付寶還缺少金融級的信息系統災難恢復能力,原因顯而易見,支付寶沒有做到迅速切換至備份網絡通信線路。但是支付寶對此不置可否,況且,還進一步釋放消息稱此事件表現出阿里云計算架構的優勢。
有賴于阿里集團一貫出色的公關能力,此事件的相關深入分析并不多見。但是,當前,支付寶的影響力已經不容忽視,其風險已經能夠對整個社會秩序產生較大的影響,對其應按照或參照更加嚴格的金融業標準進行監管以控制風險。