《Neural Baby Talk》 CVPR2018

Neural Baby Talk, cvpr2018

與 《Knowing When to Look: Adaptive Attention via A Visual Sentinel for Image Captioning》cvpr2017 是同一個作者,本文也可看做是這個工作的擴展。

Motivation:

  • 在深度學習時代,典型的image caption模型采樣LSTM,問題是過分依賴language model, 使得caption經常與圖像內容關聯不夠;而在深度學習之前,典型做法是更依賴圖像內容,而對language model關注不過,例如采用一系列視覺檢測器檢測圖像內容,然后基于模板或者其他方式生成caption。作者認為應該減少對語言模型的依賴,更多地結合圖像內容。
  • 基本想法:采用物體檢測器檢測圖像中的物體(visual words),然后在每個word的生成時刻,自主決定選取text word(數據集中的詞匯) 還是 visual word(檢測到的詞匯)。


Method

  • 采用bottom up attention (即region feature),學習兩組word probability, 一個是text words, 一個是visual words的。
  • text words概率與bottom up attention模型基本一致;visual words概率采用當前hidden state與region features的相關性學習region 權重(即attention),每個region對應一個word。
  • 同時,借鑒了Adaptive attention的做法,學習了一個sentiment gate(哨兵),決定當前時刻應該采用text 還是 visual word(權重),用其對visual words的概率進行縮放。最終選取某個單詞是取所有words概率的max.
  • 如果選取了visual word, 那么還需要對詞語進行變換使其適合當前文本上下文,比如單復數、形態等。作者考慮兩種變換:單復數(如dog跟dogs)、類別的fine-grained標簽(如dog可以細分為puppy等)。兩種變換分別學習兩個分類器實現,單復數用二分類器,fine-grained用多分類做。

損失函數:
分為兩部分,如果當前詞語的target是textual word,則用前半部分,若是visual word則是后半部分損失函數,要求一是region (或者說visual word)選取正確,二是詞語的單復數與細類別形態分類正確。


image.png

相關工作

本文與CVPR2016 paper 《Incorporating Copying Mechanism in Image Captioning
for Learning Novel Objects》特別相似,這個文章目的是處理image caption中的集外詞問題,即測試時候圖像中的一個物體在數據集的圖像與文本中都沒有出現過。
cvpr2016這個文章是用多分類方法直接識別出圖像中的物體,然后設計了個Copying Mechanism,即決定當前時刻采用LSTM還是識別的詞語作為輸出。
cvpr2018與cvpr2016比較,分類換成了檢測,spatial attention換成了region attention??傮w還是非常相似的,但解決的問題不太一樣,一個是處理集外詞(OOV word),一個是使得用詞更加準確具體,與圖像關聯加深。

Copying Mechanism

總結

總的來看,這個文章有點像是 Copying Mechanism,Bottom-up attention和 Adaptive attention的結合,其用詞不同與過去的泛泛而談的詞語,更加準確具體,比如(dog v.s. puppy),實現了其所宣稱的與圖像內容關聯更緊密的目標。

?著作權歸作者所有,轉載或內容合作請聯系作者
平臺聲明:文章內容(如有圖片或視頻亦包括在內)由作者上傳并發布,文章內容僅代表作者本人觀點,簡書系信息發布平臺,僅提供信息存儲服務。
  • 序言:七十年代末,一起剝皮案震驚了整個濱河市,隨后出現的幾起案子,更是在濱河造成了極大的恐慌,老刑警劉巖,帶你破解...
    沈念sama閱讀 230,247評論 6 543
  • 序言:濱河連續發生了三起死亡事件,死亡現場離奇詭異,居然都是意外死亡,警方通過查閱死者的電腦和手機,發現死者居然都...
    沈念sama閱讀 99,520評論 3 429
  • 文/潘曉璐 我一進店門,熙熙樓的掌柜王于貴愁眉苦臉地迎上來,“玉大人,你說我怎么就攤上這事?!?“怎么了?”我有些...
    開封第一講書人閱讀 178,362評論 0 383
  • 文/不壞的土叔 我叫張陵,是天一觀的道長。 經常有香客問我,道長,這世上最難降的妖魔是什么? 我笑而不...
    開封第一講書人閱讀 63,805評論 1 317
  • 正文 為了忘掉前任,我火速辦了婚禮,結果婚禮上,老公的妹妹穿的比我還像新娘。我一直安慰自己,他們只是感情好,可當我...
    茶點故事閱讀 72,541評論 6 412
  • 文/花漫 我一把揭開白布。 她就那樣靜靜地躺著,像睡著了一般。 火紅的嫁衣襯著肌膚如雪。 梳的紋絲不亂的頭發上,一...
    開封第一講書人閱讀 55,896評論 1 328
  • 那天,我揣著相機與錄音,去河邊找鬼。 笑死,一個胖子當著我的面吹牛,可吹牛的內容都是我干的。 我是一名探鬼主播,決...
    沈念sama閱讀 43,887評論 3 447
  • 文/蒼蘭香墨 我猛地睜開眼,長吁一口氣:“原來是場噩夢啊……” “哼!你這毒婦竟也來了?” 一聲冷哼從身側響起,我...
    開封第一講書人閱讀 43,062評論 0 290
  • 序言:老撾萬榮一對情侶失蹤,失蹤者是張志新(化名)和其女友劉穎,沒想到半個月后,有當地人在樹林里發現了一具尸體,經...
    沈念sama閱讀 49,608評論 1 336
  • 正文 獨居荒郊野嶺守林人離奇死亡,尸身上長有42處帶血的膿包…… 初始之章·張勛 以下內容為張勛視角 年9月15日...
    茶點故事閱讀 41,356評論 3 358
  • 正文 我和宋清朗相戀三年,在試婚紗的時候發現自己被綠了。 大學時的朋友給我發了我未婚夫和他白月光在一起吃飯的照片。...
    茶點故事閱讀 43,555評論 1 374
  • 序言:一個原本活蹦亂跳的男人離奇死亡,死狀恐怖,靈堂內的尸體忽然破棺而出,到底是詐尸還是另有隱情,我是刑警寧澤,帶...
    沈念sama閱讀 39,077評論 5 364
  • 正文 年R本政府宣布,位于F島的核電站,受9級特大地震影響,放射性物質發生泄漏。R本人自食惡果不足惜,卻給世界環境...
    茶點故事閱讀 44,769評論 3 349
  • 文/蒙蒙 一、第九天 我趴在偏房一處隱蔽的房頂上張望。 院中可真熱鬧,春花似錦、人聲如沸。這莊子的主人今日做“春日...
    開封第一講書人閱讀 35,175評論 0 28
  • 文/蒼蘭香墨 我抬頭看了看天上的太陽。三九已至,卻和暖如春,著一層夾襖步出監牢的瞬間,已是汗流浹背。 一陣腳步聲響...
    開封第一講書人閱讀 36,489評論 1 295
  • 我被黑心中介騙來泰國打工, 沒想到剛下飛機就差點兒被人妖公主榨干…… 1. 我叫王不留,地道東北人。 一個月前我還...
    沈念sama閱讀 52,289評論 3 400
  • 正文 我出身青樓,卻偏偏與公主長得像,于是被迫代替她去往敵國和親。 傳聞我的和親對象是個殘疾皇子,可洞房花燭夜當晚...
    茶點故事閱讀 48,516評論 2 379

推薦閱讀更多精彩內容