第13章 卷積神經網絡
校對: @飛龍
?盡管 IBM 的深藍超級計算機在1996年擊敗了國際象棋世界冠軍 Garry Kasparvo,直到近幾年計算機都不能可靠地完成一些看起來較為復雜的任務,比如判別照片中是否有狗以及識別語音。為什么這些任務對于人類而言如此簡單?答案在于感知主要發生在我們意識領域之外,在我們大腦中的專門視覺,聽覺和其他感官模塊內。當感官信息達到我們的意識時,它已經被裝飾了高級特征;例如,當你看著一只可愛的小狗的照片時,你不能選擇不看這只小狗,或不注意它的可愛。你也不能解釋你如何認出這是一只可愛的小狗,這對你來說很明顯。因此,我們不能相信我們的主觀經驗:感知并不是微不足道的,理解它我們必須看看感官模塊是如何工作的。
?卷積神經網絡(CNN)是從大腦視覺皮層的研究中出現的,自 20 世紀 80 年代以來它們一直用于圖像識別。在過去的幾年里,由于計算能力的增加,可用訓練數據的數量以及第 11 章介紹的訓練深度網絡的技巧,CNN 致力于在某些復雜的視覺任務中做出超出人類的表現。他們使圖像搜索服務,自動駕駛汽車,視頻自動分類系統等變得強大。此外,CNN 并不局限于視覺感知:它們在其他任務中也很成功,如語音識別或自然語言處理(NLP); 然而,我們現在將專注于視覺應用。
?在本章中,我們將介紹 CNN 的來源,構建它們模塊的外觀以及如何使用 TensorFlow 實現它們。然后我們將介紹一些最好的 CNN 架構。