李飛飛在谷歌 Cloud Next 17上發表主旨演講。她在會上發布了谷歌云面向機器學習和人工智能的一系列新API 以及收購機器學習競賽平臺 Kaggle 的消息。主旨演講中,她提到了自己加入谷歌云的初衷,強調了“AI 民主化”概念。
CDA字幕組對該視頻進行了漢化,附有中文字幕的視頻如下:
李飛飛-谷歌在AI領域的強勢舉措
https://v.qq.com/x/page/v0510vj23k4.html
針對不方便打開視頻的小伙伴,CDA字幕組也貼心的整理了 文字版本 ,如下:
大家早上好,我是李飛飛。我是谷歌云、AI/ML 的首席科學家。用谷歌的話來說,我仍然是一個 Noogler (Noogler: New Googler 的縮寫,意為谷歌新員工)。很榮幸能站在這個舞臺上,與你們分享一些我關于 AI 、機器學習以及谷歌云的想法。
世界正以驚人的速度變化著,有人說我們正處于第四次工業革命。而這在很大一程度上是由驚人的計算機技術所推動的。作為一名在機器學習和計算機視覺方面,從業接近20年的 AI 技術人員,我見證了這一領域從一個崇高的學術追求,成為這一改變的最大驅動力。這一變化發生在許多維度上,需要調動你的想象力才能窺其全貌。
我們舉個熟悉的例子: 自動駕駛汽車。
它的魅力顯而易見,借助傳感器和算法,自動駕駛汽車能夠降低事故風險。讓我們在通勤的路上能夠有更多的時間工作、社交以及休息。這對于一個司機來說是非常棒的,但如果成千上萬的人都有呢?通過協調這些車輛,能夠減少交通擁堵,并且停車過程也將被大大簡化。如果成百上千萬的人都有呢?城市將被重塑,基礎設施的使用將發生根本性的轉變。
AI 的參與度
不同規模的區別在于其 參與(Participations) 。隨著技術觸及的人群越多,它的影響就會越深遠。這也就是為什么AI的下一步,必須是 民主化(Democratization) 。降低進入門檻,讓更多的開發者、使用者以及企業能夠接觸到。談到AI的民主化、觸及更多的人。
谷歌云平臺已經為客戶提供了大量的應用,每天為超過十億的用戶提供服務,這是大量的參與。可以想象將該平臺的影響力與AI的力量相結合,讓更多人有機會接觸AI。然后我們可以見證生命質量的大幅度提高,比歷史上任何一個時期都要高。從金融到教育、從制造業到醫療、從零售業到農業等等。這就是為什么通過谷歌云傳播AI/ML,讓我感到興奮不已。這意味著我終于可以分享,作為一名 AI 研究者我在斯坦福多年的技術和見解。
我也是在這里開始與李佳博士在 AI 領域的合作。她在多年前是我的第一名博士生。我也很高興她和我一起加入谷歌。她目前擔任 AI 機器學習和谷歌云的研發主管,她也是在計算機 AI 領域的"狠角色"。
我們身邊不缺少 AI 解決現實問題的例子, 例如我們剛剛看的演示。通過谷歌Home和eBay網店交流等等。這些成就讓人印象深刻,但這僅僅是整個行業轉變的起點,AI 解決了越來越多的問題。我們用來開發 AI 解決方案的工具,這些工具功能越來越成熟,但在使用上越來越容易。這將給世界帶來巨變,這一變化發生的速度遠比人們想象的快。
讓我們看幾個例子。
零售業
從 AI 誕生之日起就開始影響零售業。例如, 機器學習的算法已經開始發生作用,在購物中給用戶提供相關信息。
但是還有很多方面有待解決。比如,供應鏈的路線和庫存最優化;或者預測隨著時間發展的需求變化;以及運用無人機導航和自動駕駛汽車,運送用戶訂購的商品;用于預防損失和安全的智能分析,理解用戶行為以及感知庫存,從而優化貨架空間利用和擺放。
媒體和文化
另一個例子是媒體和文化,它們也已經受到AI的影響。你家里有青少年嗎?想不想知道,Snapchat 應用中讓他們著迷的貓耳朵和彩虹濾鏡是用的什么技術?這是一個很聰明的計算機視覺技術。
機器學習已經讓谷歌照片實現圖像標簽的自動化,以及生成 YouTube 的推薦列表。 媒體會更多地利用這些技術,AR 和 VR 技術將依賴計算機視覺進行動態追蹤、環境監測以及游戲。
越來越多的新聞內容可以自動生成,讓記者聚焦于大新聞和深度故事。AI也可以在幫助我們設計和個性化我們自己的內容。比如音樂、視頻和藝術作品方面。
金融業
在金融服務業,機器學習已經在大量地、智能地起作用。 為信用卡申請者預測信用卡風險,甚至預測現有顧客拖欠還款。類似先進的應用也出現在工作中。保險賠償將會由智能代理來進行評估。隨著對話機器人接管客服中心,銀行業會更加虛擬化,甚至由個人銀行管理財務。正如之前匯豐銀行(HSBC)所說,這些智能代理可以增加我們的感知,標識一些犯罪行為。比如洗錢或欺詐等。
醫療
最后還有醫療,這是AI最關鍵的應用場景之一。這真正提升了人們的生活。近幾年該領域出現了許多出色的AI成果。
幾個月前我在谷歌大腦的同事展示了通過使用深度學習算法。 計算機能夠探測出糖尿病性視網膜病變, 這種疾病可能導致超過4億人失明。想象一下,這種洞察力可以擴展整個醫療行業。大量視覺診斷類的工作將會很快被自動化。這能夠幫助醫生并減少開銷,將服務擴展到沒有條件接受治療的人群。
機器還可以做一些文書的工作。 比如幫助記錄醫生訪問、管理一些慢性病,帶來更多可靠且迅速的服務,進而促進在家庭建立全面的智能醫院。通過智能傳感器追蹤醫療行為,保證患者安全,確保衛生操作,增加手術方案。
面對AI和機器學習帶來的機遇,希望你們和我一樣感到興奮。但是這依然是一個高門檻的領域,它需要大量專業知識和資源,很少的公司有能力承受。
AI 民主化
這就是為什么云是 AI 的理想平臺,這也是為什么我們在云 AI/ML 上大量投資。這會在接下來的幾年里,提供強大的、易用的工具。讓每位云的用戶進入該領域的機會。
換句話說谷歌云正在將 AI 民主化,這主要需要四步:
· 計算的民主化
· 算法民主化
· 數據民主化
· 人才和專業知識的民主化
讓我們一一討論一下當中深意。
首先也是最重要的,AI要求巨大的計算量。 如今,深度學習算法能夠輕易處理數千萬個參數和數十億的連接。訓練和使用這樣的模型需要計算資源。當然,這也是云要提供的主要功能。我們提供了測試版的云 ML 引擎。
ML 引擎
今天我在這里宣布它的主要功能。云 ML 引擎是一個平臺,能夠利用所有的計算能力并透明地提供傳遞給你。簡單來說,你以任何一種你喜歡的方式建立機器學習模型。你自己所在環境熟悉的工具,比如 TensorFlow 庫。機器學習引擎讓你能夠專注于解決方案的創造性,將基礎結構部分留給我們。需要訓練模型時,將這些上傳到云里。 機器學習引擎可以更快、更大規模的處理。 最后將結果從你的設備部署到移動設備,從而把訓練結果用于解決現實問題。
盡管有了大量的計算能力,AI 依舊是計算機科學中最復雜的領域。 這對于許多企業 用戶來說,仍然是一個很大的障礙。對那些還沒準備好建立自己模型的開發者來說,應用 AI 最簡便的方式就是通過使用谷歌提供的 API。使用訓練好的機器學習模型去解決常見的問題。API 就像一個開關,可以立即激活任何設備上的智能的部分,使其理解語言、圖像或者翻譯文字,難懂的自然語言。
但谷歌 AI 技術的深度和廣度遠遠不止如此。我們在谷歌有許多研究小組,進行大量的 AI 研究,涉及 AI 和機器學習的眾多領域。這些研究者均在頂尖 AI 期刊和會議上,發表多篇學術論文。我們的團隊常常獲得最佳論文,并且是 AI 比賽中的常勝將軍。因此這些研究的成果很快會轉化為能夠提供給用戶的產品和服務。
**Vision API **
很高興向大家介紹這方面的一些最新產品,Vision API 目前正在穩定開發中。它具有一些新的性能, 首先是 API 元數據的擴展。 以便從谷歌知識圖譜的百萬千萬的實體中,識別網上的圖像。如今在整個谷歌圖片搜索中,我們均使用相同的元數據。
其次增強了光學字符識別(OCR)功能, 能夠從有大量文本文件的圖片中提取文字。比如法律文件或其他復雜的文書。
但像素不僅僅是圖片。 實際上視頻才是互聯網數據中最流行的形式之一。 僅 Youtube 每分鐘就有數百小時的視頻被上傳。了解視頻的豐富內容一直是多年來巨大的技術挑戰。實際上我們許多的計算機視覺研究員,一直將視頻視為數字宇宙的"暗物質”。
今天非常高興地宣布一個全新的由機器智能驅動的 API,
Vision API
。下面請我的同事 Sara Robinson 來更詳細地演示這個API,有請 Sara。
【Sara Robinson 展示】
下面我通過一個例子演示
Vision API
。我們先來看一個谷歌 Home 的超級碗廣告。
前幾秒我們可以看到開始是山地景觀,然后是房子,城市街道然后是狗、車庫。這個視頻里面發生了很多場景變化,如果我們要手動把視頻內容進行分類,我們需要看完整個視頻,并記下每個場景發生的事情。幸運的是 Vision API 可以幫我們完成。
首先在一個相對高的層面,告訴我們這個視頻的內容。其次在粒度的層面,還告訴我們視頻每個場景中的標簽。
如果我們向下翻,我們可以看到它標識出一只狗。并準確指出狗出現在視頻的哪個位置,也識別出視頻的結尾處的生日蛋糕。再往下可以看到它不僅僅知道這是狗,還能分辨狗的品種。如果我們看到其余部分可以看到,也成功地識別出了視頻開始時的山路。
這就是該 API 針對一個視頻能做什么。你也可以讓它分析多個視頻,讓我們看看公司如何使用 Vision API 。媒體工作人員可能要處理大量的視頻數據。他們要做的一件事就是創建特定類型內容的精彩集錦,或者在大型視頻庫中搜索特定實體。
讓我們用 Vision API 搜索大型視頻庫,給出我們從中獲取的這些元數據。在這里有很多視頻,我們假設這家媒體有幾個小時的體育視頻。但他們只想找到棒球的相關內容,因此讓我們視頻庫中來搜索棒球視頻。這不僅告訴我們哪些視頻含棒球內容,還告訴我們視頻中棒球出現的時間。
我最喜歡的例子是這個,這個視頻中棒球只出現了一會兒,但它能夠分辨并剪輯出來。而如果我們手動操作的話,必須觀看整個視頻來尋找特定的場景。如果我們點擊這個場景,我們可以看到這個視頻是關于,芝加哥小熊隊在去年贏得了世界職業棒球大賽。
下面我們再來搜索一下。我住在東海岸,現在很冷。去年下了很多雨,如果現在能在海灘上會很舒服。雖然機器學習并不能把我們帶到那里,但它能做的其他的事,即在視頻庫中的找出所有海灘剪輯。
下面讓我們搜索海灘視頻,然后可以點擊所有含沙灘的視頻片段。所以正如這個演示 ,Vision API 可以輕松地識別大型視頻內容庫。 幾個月前這還幾乎是不可能的事情,過去要花費幾個小時的任務,現在 Vision API 只需要幾秒鐘。我很開心今天能夠讓每個人都用到。
所以作為計算機視覺研究員,我非常激動。我已經關注視頻分析領域數十年,現在我們終于開始理解數字宇宙的"暗物質"。也讓我們的用戶能夠,從嵌入在視頻里的大量信息中提取價值。
AI 民主化的第三個要素是數據。 正如我們通過畢生接觸世界獲得人類智慧,AI 需要大量的數據來發展自己的洞察力。
但這些數據集是最艱巨的一個問題,在這方面我深有體會。我帶領團隊構建了 ImageNet 數據庫。ImageNet 為機器視覺社區提供了1500萬個帶標簽的圖片。很多人都很熟悉 ImageNet 出現后的情況。在2012年 ,這是深度學習革命最重要的推動力。至今仍是深度學習算法中,使用最多的訓練數據集和基準之一。雖然 ImageNet 的成果很驚人,但是構建 ImageNet 艱巨而漫長的過程,充分顯示了當中的困難。
我們需要一個更加有效和可擴展的方式,將數據民主地提供給數據科學家、機器學習開發人員以及領域專家,最終到提供到商業中。
**收購 Kaggle **
這也是為什么我如此激動地宣布谷歌云收購了 Kaggle。
這兩位聯合創始人 Anthony Goldblum 和 Ben Handler 多年的努力下,Kaggle 團隊建立起了含有 85 萬多名數據科學家的強大社區。并且舉辦各種競賽并且不斷開放新的數據集。
通過與谷歌云平臺的結合,社區能夠直接訪問最先進的機器學習環境并提供直接的途徑營銷他們的模型。與 Kaggle 一起我們正在創建世界上最大的機器學習人才中心。實際上 Kaggle 已經與谷歌云一起舉辦了最大的視頻理解大賽, 名為"YouTube 8 百萬視頻理解挑戰"。
說到人才和專家,谷歌致力于幫助我們的合作伙伴和用戶,在他們所需的級別開發更多的機器學習和 AI 技術。我們一直在研究方面進行大量投資,谷歌每年都會為全球 250 多個學術研究項目提供大筆資助,支持幾十位博士生并擁有數千名實習生。
我們認為, AI 專業知識將成為未來數年內越來越重要的資源。 并在采取步驟,尋找、教育和強化這個領域的未來領袖。在谷歌云與這些努力的同時,我們也致力于用專業知識向客戶提供正確的結果。先進的解決方案實驗室,能夠讓擁有遠大目標的客戶與谷歌直接合作,一同解決復雜的AI問題。
以保險公司 USAA 為例,他們的許多工程師精通數據科學,甚至有機器學習背景。但他們需要幫助建立真正的專業知識基礎。為此 USAA 開發團隊來到谷歌先進的解決方案實驗室。他們直接從我們的機器學習工程師和專家那里學習。這個團隊現在在努力工作,使用他們的新技能。另外也有其他的團隊 在以相同的方式接受培訓。
因此我認為最有意義的技術,是把寶貴的資源轉化為可以讓所有人受益的東西。
印刷技術幫助人們識字,讓識字不再是特權,讓書籍成為負擔得起的并填滿全球各地的家庭和圖書館。電網將電力傳送到整個社區,使熱和亮從奢侈品變為日常生活必備用品。工業革命的大規模生產意味著,過去昂貴的手工藝品如今能夠豐富成百上千萬人的生活。當然互聯網也使得一切內容,從報紙到大學的課程都變得容易分享。從而可以在一夜間被全球觀眾獲得,而且往往是免費的。
這些例子的共同之處是,從獨占轉變為無處不在。我相信 AI 可以帶來這種轉變,以我們前所未見、無法想象的規模。在全球范圍內幫助將少數人的特權奢侈品,傳播給我們其他人。
這是為什么我要邀請觀眾中每個人都參與其中。我們在谷歌云正在開發這些工具,但使用權在你們。