卷積神經網絡工作原理研究 - 語義和特征

關于Filter的意義

本章節參照了zhihu.com的內容。所以我完整引用,不進行任何修改。版權歸原作者所有

Paste_Image.png

你眼睛真實看到的圖像其實是上圖的下半部分。而后經過大腦的層層映射后才出現了你腦中所“看見”的圖像。CNN的卷積層部分可以理解成是學習你的“眼球結構”。

Paste_Image.png

同一個filter內部的權重是相同的,因為它用一個“抓取方式”去偵測特征。比如說“邊緣偵測”。 你也注意到了,我們的眼睛不只觀看一次,等到掃描完該特征后,另一個filter可以改變“抓取方式”去偵測另一個特征。所權重在同一個filter內是共享的理解是該filter對整個圖片進行了某個特征的掃描。

Paste_Image.png

提取若干個特征后,就可以靠這些特征來判斷圖片是什么了。

大家應該知道大名鼎鼎的傅里葉變換,即一個波形,可以有不同的正弦函數和余弦函數進行疊加完成,卷積神經網絡也是一樣,可以認為一張圖片是由各種不同特征的圖片疊加而成的,所以它的作用是用來提取特定的特征,舉個例子,比如給定一張圖片,然后我只想提取它的輪廓,于是就需要卷積神經網絡。


語義信息和高層神經元

版權信息:本節出于以下文章
瞎談CNN:通過優化求解輸入圖像

對于CNN,有個很基礎的認識:低層的部分學習紋理等簡單信息,高層部分學習語義信息。在《Intriguing properties of neural networks》中的另一個發現是,CNN中表示高層學習到的語義信息的,并不是某一個神經元,而是高層神經元構成的空間。這個看上去有些顯然的結論的一種佐證方式又是對輸入圖像進行優化:

公式

其中是神經元激活值對應的向量,v是一個隨機向量。另外這和前邊的優化有些許不同,x的取值范圍限定在已有的圖片集里。其實就是在某個高層響應的空間里,沿著某個方向挑選了一些該方向上值最大的圖片。最后的結論是,無論是沿著某個隨機方向找到的圖片,還是以某一個神經元響應最大找到的圖片,都能看出一些語義上的共性,比如下圖:

配圖

黑線以上是最大化某個神經元響應的樣本,共性挺明顯,黑線以下是最大化某層特征空間中某個方向響應的樣本,共性也挺明顯。

最后編輯于
?著作權歸作者所有,轉載或內容合作請聯系作者
平臺聲明:文章內容(如有圖片或視頻亦包括在內)由作者上傳并發布,文章內容僅代表作者本人觀點,簡書系信息發布平臺,僅提供信息存儲服務。

推薦閱讀更多精彩內容