未來的技術發展趨勢:新一代的網絡、傳感器、機器人、人工智能、合成生物學、基因組學、數字醫學、納米技術……人類生活的這個世界正在經歷一場徹底的變革;世界上最大的問題等于最大的商機;要想成為一個億萬富翁的最好的辦法就是解決一個10億人共同面對的問題;
那新一輪技術迭代將以“集群”形式涌現,在未來 2-5 年里,以人工智能、大數據應用、云計算及基因技術等為代表的新“技術+商業”窗口將逐漸打開。無論大公司還是創業者,在分水嶺技術迭代周期里,冒進和遲緩都是危險的,甚至冒進要更危險一些。合理做法是選擇與自己公司和所處行業耦合高的新技術方向,先保持合理投入;在獲得“技術+產品”融合突破后,可以提速;在獲得“技術+產品+商業模式”進一步融合后,可以全力沖刺。
那用戶數據挖掘將成為產品核心能力。隨著挖掘工具的普及和全行業數據化程度提升,這一趨勢講從大公司向獨角獸甚至創業公司擴展。誰在這一波分水嶺周期里更好完成用戶數據沉淀和挖掘,在未來的競爭中,就可以取得更高效的需求匹配能力和服務品質。
未來 2-5 年,全球和中國創投將進入一個整體守穩,但隨時可能“引爆火山”的不確定階段。燒錢投概念的時代短期內不會復現,投資者會更冷靜的聚焦在離未來更近的領域,包括大數據、VR / AR、人工智能和互聯網金融等方向。
那我們就看看人工智能領域投資人一般關注AI三個指標:大數據、應用場景、有效的智能算法;大數據應該是大規模、結構化并且被標注好的;而應用場景則要有決策整合,要么能達到更快的效率或者更好的決策質量。投資盡量避免投入無法形成自由大量的高質量額數據公司,從而避免數據孤島效應。深度并不是投資人關注的重點,投資人要看到的是有用的算法;應用場景在商業上的點要夠細,能用一兩個簡單的指標來去衡量。
其實人才才是人工智能目前發展最大的瓶頸,這里所指的人才有兩類,一類是那些能真正理解并運用人工智能工具的工程師;另一類則是有創新意識和商業頭腦的人才,能有效地將人工智能技術進行更廣泛應用。人工智能的研究和應用是交叉性、綜合性極強的過程,鑒于專業門檻,真正懂技術又懂產業的人才還較為匱乏。目前人工智能處于技術工具階段,離平臺和產品化還很遠,部分企業在初創階段并毫無營收的情況下居然估值10億人民幣,非理性會導致后期沒有投資機構愿意接盤。”
如果人工智能是一種會學習的機器,那未來需要著重提高的,就是讓機器在學習時的抽象或歸納能力向人類看齊。機器目前并無法深入理解文字深層的意義。目前AI研究的一個重大挑戰是人類和機器的協作。將機器的計算能力和人類地判斷能力及價值觀相結合才有戲!
我們希望看到更多關于機器多任務學習的研究出現,還有比如 (多表征學、遷移學習)其實也是機器學習研究人員研究了很長一段時間的課題。關于多圖表達,現有的技術手段還停留在創新研發階段,還有很多空白領域有待研究。人工監督下的機器學習已經很好的投入實際應用,無人工監督的機器學期據我所知還沒有投入實際應用需要更多的科研努力,半人工剛好介于兩者之間。
比如大算法:深度學習和增強學習的發展,深度學習用來感知、處理信號,增強學習則做于決策。二者相輔相成。強化學習不僅僅能夠學習人的行為,還能夠更好的使用延遲反饋功能。而之后人們能否發明一種新的學習方法,能把大數據的模型在用于小數據身上,遷移學習是把深度學習和強化學習疊加在一起。監督對抗學習和語義分割,將是視覺智能未來發展的關鍵。
在算法和底層技術架構并不是AI時代核心競爭力,因為這些都會被Commodity復制抄襲化。而數據和對垂直行業問題的理解才是最高商業價值!那些為AI算法和底層技術付過高溢價的投資,都會在不久后付出代價;
在算法層面,我們有比較強烈的看法。我們其實并不關心深度不深度,我們只關心有用的算法。所謂有用的算法就是提高決策質量,提高決策速度。在商業上的點一定要夠細,細到可以用一兩個很簡單的指標去衡量。第一個對很多數據公司的建議是,你提供數據這種賣不了太多錢,你要提供別人基于你這個平臺能夠做什么。
目前人工智能最難以突破的是模式識別;機器獲得智能的方式和人類不同,它不是靠邏輯推理而是靠大數據和智能算法;未來的社會屬于那些具有創意的人才,包括計算機科學家而不屬于掌握某種技能做重復性工作的人;學術界將機器智能分為傳統人工智能的方法(模仿人的模式)和現代其它方法智能(比如數據驅動、知識發現、機器學習)機器智能最重要的是能夠解決人腦能夠解決的問題,而不在于是否需要采用和人一樣的方法;
因此我們根據經驗法則,神經網絡越深,越難以訓練。對循環神經網絡而言,序列越長,神經網絡隨著時間維度越深。這造成了梯度的消失,也就是隨著反向傳輸,循環神經網絡學到的目標的梯度信號會消失。即使 RNN 是專門用來幫助防止梯度消失的,比如 LSTM,這仍然是個根本性的問題。經網絡(ANN)十分擅于感覺處理、序列學習和強化學習,但由于缺少外部存儲器,ANN 表示變量和數據結構以及長時間存儲數據的能力十分有限。
可微分神經計算機(DNC)的機器學習模型,該模型含有一個能夠對外部存儲矩陣進行讀寫的神經網絡,這個外部存儲矩陣好比傳統計算機的隨機存取存儲器。
就像傳統計算機一樣,DNC?能使用外存對復雜的數據結構進行表征及操縱,但同時又像神經網絡一樣,能夠從數據中學會這樣做。使用監督學習訓練后,我們展示了?DNC?能夠成功回答人工合成的問題,這些問題都是設計來模仿用自然語言進行推理和推斷的。
我們展示了?DNC?能夠學會找到特定的點之間距離最短的路線、從隨機生成的圖當中推斷缺少的連接等任務,之后再將這種能力泛化,用于交通線路圖、家譜等特定的圖。使用強化學習訓練后,DNC?能夠完成移動拼圖的益智游戲,其中符號序列會給出不停變化的游戲目標。綜上,我們的成果展示了?DNC?擁有解決復雜、結構化任務的能力,這些任務是沒有外部可讀寫的存儲器的神經網絡難以勝任的。
那目前“深度學習”概念熱度轉折點已經到了,兩年后將很少人再提深度學習術語:1)廣泛意義上的“深度學習”(多層和/或多學習系統的組合)本身就是機器學習的必然,將來幾乎每個人工智能機器學習系統都可以廣泛說是“深度學習”;2)再提深度學習所能創造的效益有限,投資概念的將跟上最后一班車;3)開源將使得深度學習不再高深莫測,但會使強者更強,弱者相對更弱;4)開源也預示著新的技術和術語在蘊釀積累,等待爆發點;5)世界科技巨頭有分化,有的巨頭其實很少提“深度學習”概念,卻在另起爐灶;6)比傳統深度學習快幾萬倍的芯片硬件將走入市場。
我們也看到大部分成功的機器學習提取系統在運行時都可以訪問一個大型文件集。在這項研究中,我們探索了獲取并結合外部證據來提升多個訓練數據稀少的域中的提取精確度。這個過程需要發布搜索查詢,從新的來源中提取數據,并對提取的值進行調和,這一過程一直重復到收集到足夠的證據為止。
我們還可以使用一個強化學習框架,在這個框架中我們的模型會基于情境信息學習去選擇最優的行動。我們還應用了一個 Q-network,訓練它來優化一個獎勵函數,這個獎勵函數反映了提取精確度的同時還會懲罰額外的工作。
你會發現我們原來統計的學習方法,更多的可能叫回歸算法、決策樹、SVM,我們以前大部分是這套。現在比較流行的深度學習是過去兩三年才真正成熟進入到主流的視野當中,這些做人臉的都是在過去兩三年起來的,以前都沒有他們的生意可做的,大部分都是在學校科研角度。還有一個是叫Buzz規則,深度學習之前那是規則系統,更土了。
所以大部分做人工智能的公司都存在這兩個大的問題:數據不是你的,應用場景不是你的。你強的是有這種原來所積累的處理的能力,那些算法能力,調優能力。數據不是你的就意味著你是無源之水,很多事情干不了,業務不屬于你的,付錢這一段,這個時間決策點是別人的,你要求著人家,像絕大多數的公司起點都是很困難的。
所以目前大數據的命門是在數據準備階段(包含數據采集,數據獲取,數據質量等苦活臟話)這個命門不破,所謂的數據可視化,數據模型,數據應用都是瞎扯淡!其實信息提取重大進展,MIT利用強化學習從外部網絡抓取數據:比如沃森的知識庫并不是由工程師提前編碼設定的—它是通過讀取維基百科和其他幾個百科全書網站)全部自然語言文件)獲得知識;它有一個優秀的貝葉斯推理系統,能將所有索引信息集合起來;
那感知(視覺、語音、語言)+決策(識別、推薦、預測)+反饋(生成、機器人、自動化)=人工智能。
所以在人工智能團隊中,很多團隊最多一兩年就能復制其他團隊的代碼,但是要獲得其他團隊的數據是極其困難的。所以數據相比軟件對大多數業務是更好建立的屏障。如果只是簡單地下載和應用AI開源軟件是沒什么用的,你需要根據實際的業務場景和數據定制人工智能。這也就是現在出現了對那些能勝任這項工作的稀缺人才的爭奪戰的原因;所以說機器學習深似海,算法實戰要躬行。減少開銷提效率,訓練測試不能停。透過黑箱窺本質,代碼解構句句盯。
我們在實戰過程中還發現人工智能最大的問題是沒有常識,因此不能被信任。人們已經花了幾十年嘗試解決這個問題,可能我們的方法用錯了。現在所有的重點都在深度學習,但深度學習不能獲取常識。深度學習只是收集許許多多數據,基本做的是統計的工作。
比如,你給人工智能展示一朵花,它認識,并知道這代表美好。但如果一朵花出現在一個馬戲團的人腦袋上,這很可能是一朵假花,這個人可能是個小丑,這是常識,卻是人工智能不知道的事情。因此機器人在工廠里可能沒問題,只是做些標準化的動作,最壞的情況不過弄壞一臺機器,但如果把它放在擁擠的商場中,它可能會傷到兒童。