與 《Knowing When to Look: Adaptive Attention via A Visual Sentinel for Image Captioning》cvpr2017 是同一個作者,本文也可看做是這個工作的擴展。
Motivation:
- 在深度學習時代,典型的image caption模型采樣LSTM,問題是過分依賴language model, 使得caption經常與圖像內容關聯不夠;而在深度學習之前,典型做法是更依賴圖像內容,而對language model關注不過,例如采用一系列視覺檢測器檢測圖像內容,然后基于模板或者其他方式生成caption。作者認為應該減少對語言模型的依賴,更多地結合圖像內容。
-
基本想法:采用物體檢測器檢測圖像中的物體(visual words),然后在每個word的生成時刻,自主決定選取text word(數據集中的詞匯) 還是 visual word(檢測到的詞匯)。
Method
- 采用bottom up attention (即region feature),學習兩組word probability, 一個是text words, 一個是visual words的。
- text words概率與bottom up attention模型基本一致;visual words概率采用當前hidden state與region features的相關性學習region 權重(即attention),每個region對應一個word。
- 同時,借鑒了Adaptive attention的做法,學習了一個sentiment gate(哨兵),決定當前時刻應該采用text 還是 visual word(權重),用其對visual words的概率進行縮放。最終選取某個單詞是取所有words概率的max.
- 如果選取了visual word, 那么還需要對詞語進行變換使其適合當前文本上下文,比如單復數、形態等。作者考慮兩種變換:單復數(如dog跟dogs)、類別的fine-grained標簽(如dog可以細分為puppy等)。兩種變換分別學習兩個分類器實現,單復數用二分類器,fine-grained用多分類做。
損失函數:
分為兩部分,如果當前詞語的target是textual word,則用前半部分,若是visual word則是后半部分損失函數,要求一是region (或者說visual word)選取正確,二是詞語的單復數與細類別形態分類正確。
相關工作
本文與CVPR2016 paper 《Incorporating Copying Mechanism in Image Captioning
for Learning Novel Objects》特別相似,這個文章目的是處理image caption中的集外詞問題,即測試時候圖像中的一個物體在數據集的圖像與文本中都沒有出現過。
cvpr2016這個文章是用多分類方法直接識別出圖像中的物體,然后設計了個Copying Mechanism,即決定當前時刻采用LSTM還是識別的詞語作為輸出。
cvpr2018與cvpr2016比較,分類換成了檢測,spatial attention換成了region attention??傮w還是非常相似的,但解決的問題不太一樣,一個是處理集外詞(OOV word),一個是使得用詞更加準確具體,與圖像關聯加深。
總結
總的來看,這個文章有點像是 Copying Mechanism,Bottom-up attention和 Adaptive attention的結合,其用詞不同與過去的泛泛而談的詞語,更加準確具體,比如(dog v.s. puppy),實現了其所宣稱的與圖像內容關聯更緊密的目標。