作者/來源: 新浪、CSDN發布于: 2015-08-27 20:36:51點擊數: 463

7月22日首屆阿里云分享日×云棲大會北京峰會召開,吸引了海內外2000余名開發者、創業者及生態伙伴參與。
阿里云CTO章文嵩在分享日指出,隨著DT時代的到臨,高性能數據分析需求開始顯現,云上將形成包括高性能計算在內的技術生態。
章文嵩透露,阿里巴巴內部早期上線了33個GPU線上應用,進行著1億+張級別的圖片訓練,同時配備了2P?FLOPS的GPU計算集群,結果在一周之內就被幾乎全部占用,這是阿里云此前沒預料到的。而當下在圖片識別領域就出現了諸如face++?deepglint?senstime?linkface?cogtu等眾多初創公司,因此章文嵩判斷,基于深度學習的圖像,語音技術應用即將爆發。這些技術的爆發帶來一個非常迫切的問題:高性能數據分析。
GPU高性能計算背后的新需求
為了更好闡述這一觀點,章文嵩從多方面進行了剖析:
內部:去年阿里集團內部共上線了33個GPU應用,對應的圖片訓練已經到1億+張。在阿里云上線2P?FLOPS的GPU計算集群(未來規模還將翻番)之后,一周之內就被所有業務部門一搶而光。已經涵蓋人臉識別、標簽識別、質量控制、商品分類、風格預測、拍照購、OCR、語音識別、圖象搜索、反黃等多個方面,為業務創造了巨大價值。
外部,基于深度學習、圖形圖象識別、語音技術的大規模爆發,業內迅速涌現出如Face++、格靈深瞳、Linkface、知圖科技等10+創業公司。
在他看來,神經網絡在80年代后期出現過一個低點。2000年前后,從淺層學習到深度學習的演變,將神經網絡提高了幾個數量級,對計算需求更高。尤其是近幾年,2012年谷歌大腦用16000個CPU實現深度學習,為整個業界帶來很好的啟示。在互聯網這富饒的土壤上,語音和圖像的技術與應用的成熟,深度學習技術與業務的緊密結合,使得技術的投入和發展進入了良性循環。“我們可以看到,數據和計算成為爆發的基石。比如深度學習模型對數據依賴性非常高。過去解決問題是從模型算法著手,現在更多是獲得高質量數據。數據已然決定了整個模型的訓練效果,高質量的數據當然需要多多益善。這就帶來了一個巨大挑戰:獲取、保存海量數據,并要大幅降低存儲成本。要知道,即使是銀行,14天后數據就會清除。另一方面,商業領域計算能力從未過剩。一張圖片的特征提取要170G次浮點計算;120萬張圖片進行一次網絡訓練,需要318P次浮點運算;一個CPU要算上22天的計算量拿GPU來做,大概是18個小時。”
具體來看:
-數據能力。包括數據獲取、數據存儲、數據傳輸、數據加工和數據使用,正如原油、汽油和石油只是提煉品一樣,挖掘和提煉能力越高,產出就越高。DT發展的必然階段,就是從數據分析到高性能數據分析。要實現這一點,需要更高效能、更強大的計算能力。
-計算能力。比如谷歌大腦用了1000臺服務器,每臺6核,耗電是600KW,500萬美金的成本投入。而斯坦福大學人工智能實驗室重新做了一遍,只需要3臺GPU服務器,耗電只有4KW,3.3萬美元的投入。技術演進將帶來巨大變革。在參數模型中,包含GPU,眾核處理器充當內存,關鍵計算用Hybrid?CPU—FPGA,在加上極致的軟件性能優化,效能提升迅猛。“我們在一種模型上的優化,最多可以提升60%,而美國一家技術創業公司同樣的優化,只能提升20%。”通過軟硬一體的優化,使得物理機+加速器的能力能直接對外部輸出,將是云上IaaS的第二種形態。這樣的方式下,云上超算能力不會成為瓶頸。
-構建技術生態。企業不僅需要計算,還有更多配套服務。比如數據、信息的高速獲取和分發需要極速CDN,數據和信息存儲需要對象存儲,互聯網應用落地需要云服務器、負載均衡、云數據庫,大數據分析和高性能數據分析需要大數據處理如ODPS和高性能計算,GPU集群對外輸出(今年9月份天池大數據計算,會讓參賽選手使用GPU集群)。
章文嵩總結道:“我們相信數據能力+計算能力+技術生態,可以實現用技術拓展商業邊界的目標。阿里巴巴聯合更多合作伙伴,開放出更多如同人臉識別、深度學習等人工智能新技術,和社會分享,幫助企業實現彎道超車。”