李飛飛TED演講:如何教計算機理解圖片?

廣問AI新聞社訊? ? ?計算機視覺專家李飛飛在TED演講介紹了她的團隊為了"教"計算機理解圖片,所建立的一千五百萬照片的數據庫,這是計算機科學領域最前沿的、具有革命性潛力的科技。


廣問AI資訊:李飛飛:我們怎么教計算機理解圖片_騰訊視頻

我們擁有自動駕駛功能的原型車,卻沒有敏銳的視覺,真正區分出地上擺著紙袋還是石頭。我們已經造出了超高清的相機,但我們仍然無法把這些畫面傳遞給盲人。我們的無人機可以飛躍廣闊的土地,卻沒有足夠的視覺技術去幫我們追蹤熱帶雨林的變化。安全攝像頭到處都是,但當有孩子在泳池里溺水時它們無法向我們報警。足以證明,我們最智能的機器依然有視覺上的缺陷。

照相機獲得照片是通過采集到的光線轉換成二維數字矩陣來存儲——也就是“像素”,但這些仍然是死板的數字。它們自身并不攜帶任何意義。就像聽到“和”“聽”完全不同,“拍照”和“看”也完全不同。通過“看”,我們實際上是“理解”了這個畫面。事實上,大自然經過了5億4千萬年的努力才完成了這個工作,而這努力中更多的部分是用在進化我們的大腦內用于視覺處理的器官,而不是眼睛本身。所以“視覺”從眼睛采集信息開始,但大腦才是它真正呈現意義的地方。

我們的研究領域叫做"計算機視覺與機器學習"。這是AI(人工智能)領域的一個分支。最終,我們希望能教會機器像我們一樣看見事物:識別物品、辨別不同的人、推斷物體的立體形狀、理解事物的關聯、人的情緒、動作和意圖。像你我一樣,只凝視一個畫面一眼就能理清整個故事中的人物、地點、事件。

實現這一目標的第一步是教計算機看到“對象”(物品),這是建造視覺世界的基石。通過與普林斯頓大學的Kai Li教授合作,我們在2007年發起了ImageNet(圖片網絡)計劃。我們運用了互聯網,這個由人類創造的最大的圖片寶庫。我們下載了接近10億張圖片并利用眾包技術(利用互聯網分配工作、發現創意或解決技術問題),像“亞馬遜土耳其機器人”這樣的平臺來幫我們標記這些圖片。在2009年,ImageNet項目誕生了——一個含有1500萬張照片的數據庫,涵蓋了22000種物品。這些物品是根據日常英語單詞進行分類組織的。無論是在質量上還是數量上,這都是一個規模空前的數據庫。

現在,我們有了用來培育計算機大腦的數據庫,我們回歸“算法”本身。因為ImageNet的橫空出世,它提供的信息財富完美地適用于一些特定類別的機器學習算法,稱作“卷積神經網絡”。在一個我們用來訓練“對象識別模型”的典型神經網絡里,有著2400萬個節點,1億4千萬個參數,和150億個聯結。這是一個龐大的模型。借助ImageNet提供的巨大規模數據支持,通過大量最先進的CPU和GPU,來訓練這些堆積如山的模型,“卷積神經網絡”以難以想象的方式蓬勃發展起來。它成為了一個成功體系,在對象識別領域,產生了激動人心的新成果。

為了教計算機看懂圖片并生成句子,“大數據”和“機器學習算法”的結合需要更進一步。現在,計算機需要從圖片和人類創造的自然語言句子中同時進行學習。就像我們的大腦,把視覺現象和語言融合在一起,,創造了第一個“計算機視覺模型”,可以把一部分視覺信息,像視覺片段,與語句中的文字、短語聯系起來,生成類似人類語言的句子。

一點一點地,我們正在賦予機器以視力。首先,我們教它們去“看”。然后,它們反過來也幫助我們,讓我們看得更清楚。這是第一次,人類的眼睛不再獨自地思考和探索我們的世界。我們將不止是“使用”機器的智力,我們還要以一種從未想象過的方式,與它們“合作”。

總而言之,李飛飛所追求的是:賦予計算機視覺智能,從而創造出更美好的未來。

最后編輯于
?著作權歸作者所有,轉載或內容合作請聯系作者
平臺聲明:文章內容(如有圖片或視頻亦包括在內)由作者上傳并發布,文章內容僅代表作者本人觀點,簡書系信息發布平臺,僅提供信息存儲服務。

推薦閱讀更多精彩內容