【視覺跟蹤Visual Tracking】 DL分支:MDNet—Learning Multi-Domain Convolutional Neural Networks for Visual Tracking

一、Visual Tracking領域

最近因為團隊業務需要,涉及實時視頻流中Object Tracking技術,所以讀了一些Paper和前人寫的一些綜述性質的文章。

VOT領域目前要有三大技術分支:
1、圖像特征+分類器的傳統方法:如HOG+SVM等
2、CF(Correlation Filter):如DCF、KCF、SRDCF等
3、基于DL的End2End模型:如MDNet、TCNN等

MileStone:
1、~2013:傳統特征+分類
2、2013~2015:CF類模型出現
3、2015~:CNN 的end2end模型出現

目前DL類模型在效果上顯著超過CF類,但性能到目前為止還是落后于CF類“幾個世紀”。因此,目前效果和性能兼具的實用性Tracking模型還是CF類,如SRDCF。傳統方法無論在效果or性能上在VOT競賽中已經被遠遠落下。

二、MDNet

MDNet是在2015年VOT競賽的冠軍,這篇文章其實2015年底就出來了。MDNet是Korea的POSTECH這個團隊做的,與TCNN和CNN-SVM同一出處。

2015年底的時候,Visual Tracking領域繼Object Detection之后,陸續將CNN引入,但是大部分算法只是用在大量數據上訓練好的(pretrain)的一些網絡如VGG作為特征提取器,結果證明確實用了CNN深度特征對跟蹤結果是有較大的改進的。那么其實自己設計一個網絡來做跟蹤是大家都能夠想到的思路,Korea的POSTECH這個團隊就做了MDNet。

為什么直到2015年CNN才在目前跟蹤Tracking領域看到呢?
1、很難收集海量的訓練數據;
2、CF類的模型在效果和性能上,都取得了不錯的效果
3、在ImageNet上預訓練的深度特征方法,效果有提升但不明顯

三、MDNet Motivation

1、Prerain問題。在大規模數據上預訓練CNN做深度特征提取,顯然不如直接在視頻跟蹤數據上直接訓練跟蹤模型的CNN更合理。對于跟蹤目標,它們的類型雖然可能不同,但應該存在某些共性包括邊緣梯度等,是需要網絡去學習的。
2、Multi-Domain問題。直接用跟蹤數據來訓練CNN是比較困難的,統一個Object,在一個視頻幀序列中是目標,在另外一個序列中可能就是北京。另外,每個序列中目標的差異很大,還有一些額外的挑戰如background clutter、occlusions、illumination variations等。
3、網絡大小問題。在Detection、Classification、Segmentation中的CNN網絡都很大,因為Label的規模都很大。然而在Tracking中,Label只有兩類:目標 or 背景。模型太大會導致在數據在空間上太稀疏,也會導致計算耗時。

四、Multi-Domain NetWork(MDNet)

1、Network Architecture

MDNet網絡結構

輸入層:RGB3通道107??107大小的Bounding Box(目標框/候選框)
卷積層:VGG-M模型改造了Filter大小,保證conv-3輸出3??3的feature map
全連接層:fc4/fc5是兩個512的FC層分別含有Relu和Dropout
Domain-specific Layers:fc6是最終的二分類層,一共K個,對應K個Domain(其實就是K個標注的視頻),每次訓練的時候只有對應該視頻的fc6被使用,前面的層都是共享的。

2、Learning Algorithm

CNN采用SGD優化,為了學到不同視頻中目標的共性,采用Domain-specific的訓練方式:假設用K個視頻來做訓練,一共做N次循環,在第k個迭代,只用來自kmodK的視頻幀序列的正負樣本進行訓練,同時fc6中只有對應該視頻的branch才會被使用。
整個過程重復,直到網絡收斂或者預設的總迭代數達到。通過這個Offline的學習過程,domain-independent 信息在前面幾個共享層中將被有效的學習和建模。

五、Online Tracking And Learning using MDNet

將Offline 學習到的multi-domain模型,用于Tracking時,fc6層的K個分支,會用一個新的唯一的全連接層fc6替換掉。之后online fine-tune fc4~6 三個全連接層。

1、Tracking Control 和 Network Online Update

Tracking 策略比較簡單,主要兩個環節:選擇候選目標框集合+判斷每個目標框是目標的概率。最終最大概率的候選框即為預測的目標框。
Network Online update是相對略復雜的,分為Long-term 和 Short-term 更新,主要是為了從robustness 和 adaptiveness兩個角度權衡。

2、Bounding Box Regresssion

因為CNN深度特征的高度抽象性,以及模型篩選Positive樣本框中使用了Data augmentation 策略,導致最終預測最大概率的目標框不能準確的包含target。為了提升accuracy,借鑒在detection中的bbox regression 分支,將conv3的feature基礎上,通過linear regression對候選框做一個微調。做regression的基礎是候選框的打分>0.5。
Bbox regression僅在第一幀做一次訓練,一個原因是太耗時,另外一個是過度的調整也存在風險。

3、Tracking 和 Update的過程描述

Online Tracking Algorithm

核心環節包含:
1)訓練 Bbox regression model
按照高斯分布采樣10000個回歸樣本框,計算樣本框和ground truth的IoU,僅保留IoU>0.6的樣本,并從中隨機1000個作為最終樣本。計算樣本對應的conv3 特征,將512個3*3 feature map拉伸和拼接成一個向量,訓練線性回歸模型。

2)生成Positive 和Negative 樣本框
【Offline multi-domain模型的樣本】
每一幀生成50正樣本,200負樣本,要求正樣本IoU>=0.7,負樣本IoU<=0.5。
從全部序列包含的幀集合中隨機8幀,構成一個mini-batch,其中包含400(850)個正樣本,然后從中隨機32個作為mini-batch中最終的正樣本;將包含的1024(應該是8200?)個負樣本,送到CNN中并選擇打分最高的96個(Hard Negative Mining策略)作為mini-batch最終的負樣本。

【Online Learning模型的樣本】
每一幀生成50正樣本,200負樣本,要求正樣本IoU>=0.7,負樣本IoU<=0.3。正樣本最大集合500,負樣本最大集合5000。其他Hard Negative Mining 策略同Offine模型。

3)生成候選框
為每一幀生成候選目標框,按照Gaussian分布采樣出256個候選框。候選框用(x,y,s)表示。高斯分布mean是前一幀目標框的位置,covariance是diagonal matrix diag(0.09r^2, 0.09r^2, 0.25),其中r是前一幀目標框寬和高的均值。初始目標的scale乘以1.05^s作為每個候選框的scale(不是通過采樣得到?)

4)其他訓練細節
A)multi-domain 用K個序列訓練,迭代100K次,conv層的lr=0.0001,fc層lr=0.001。
B)Online Learning的第一幀,fc層迭代30次,fc4-5的lr=0.0001,fc6的lr=0.001。在后續的幀中,每次update模型時訓練迭代10次,lr是第一幀的3倍。
C)Momentum 和 weight decay分別是0.9和0.0005

六、實驗結論

1、OTB50和OTB100

image.png

2、VOT2014

image.png

3、結論

總結一下MDNet效果好的原因:
用了CNN特征,并且是專門為了tracking設計的網絡,用tracking的數據集做了訓練
有做在線的微調fine-tune,這一點雖然使得速度慢,但是對結果很重要
Candidates的采樣同時也考慮到了尺度,使得對尺度變化的視頻也相對魯棒
Hard negative mining和bounding box regression這兩個策略的使用,使得結果更加精確

最后編輯于
?著作權歸作者所有,轉載或內容合作請聯系作者
平臺聲明:文章內容(如有圖片或視頻亦包括在內)由作者上傳并發布,文章內容僅代表作者本人觀點,簡書系信息發布平臺,僅提供信息存儲服務。
  • 序言:七十年代末,一起剝皮案震驚了整個濱河市,隨后出現的幾起案子,更是在濱河造成了極大的恐慌,老刑警劉巖,帶你破解...
    沈念sama閱讀 229,908評論 6 541
  • 序言:濱河連續發生了三起死亡事件,死亡現場離奇詭異,居然都是意外死亡,警方通過查閱死者的電腦和手機,發現死者居然都...
    沈念sama閱讀 99,324評論 3 429
  • 文/潘曉璐 我一進店門,熙熙樓的掌柜王于貴愁眉苦臉地迎上來,“玉大人,你說我怎么就攤上這事。” “怎么了?”我有些...
    開封第一講書人閱讀 178,018評論 0 383
  • 文/不壞的土叔 我叫張陵,是天一觀的道長。 經常有香客問我,道長,這世上最難降的妖魔是什么? 我笑而不...
    開封第一講書人閱讀 63,675評論 1 317
  • 正文 為了忘掉前任,我火速辦了婚禮,結果婚禮上,老公的妹妹穿的比我還像新娘。我一直安慰自己,他們只是感情好,可當我...
    茶點故事閱讀 72,417評論 6 412
  • 文/花漫 我一把揭開白布。 她就那樣靜靜地躺著,像睡著了一般。 火紅的嫁衣襯著肌膚如雪。 梳的紋絲不亂的頭發上,一...
    開封第一講書人閱讀 55,783評論 1 329
  • 那天,我揣著相機與錄音,去河邊找鬼。 笑死,一個胖子當著我的面吹牛,可吹牛的內容都是我干的。 我是一名探鬼主播,決...
    沈念sama閱讀 43,779評論 3 446
  • 文/蒼蘭香墨 我猛地睜開眼,長吁一口氣:“原來是場噩夢啊……” “哼!你這毒婦竟也來了?” 一聲冷哼從身側響起,我...
    開封第一講書人閱讀 42,960評論 0 290
  • 序言:老撾萬榮一對情侶失蹤,失蹤者是張志新(化名)和其女友劉穎,沒想到半個月后,有當地人在樹林里發現了一具尸體,經...
    沈念sama閱讀 49,522評論 1 335
  • 正文 獨居荒郊野嶺守林人離奇死亡,尸身上長有42處帶血的膿包…… 初始之章·張勛 以下內容為張勛視角 年9月15日...
    茶點故事閱讀 41,267評論 3 358
  • 正文 我和宋清朗相戀三年,在試婚紗的時候發現自己被綠了。 大學時的朋友給我發了我未婚夫和他白月光在一起吃飯的照片。...
    茶點故事閱讀 43,471評論 1 374
  • 序言:一個原本活蹦亂跳的男人離奇死亡,死狀恐怖,靈堂內的尸體忽然破棺而出,到底是詐尸還是另有隱情,我是刑警寧澤,帶...
    沈念sama閱讀 39,009評論 5 363
  • 正文 年R本政府宣布,位于F島的核電站,受9級特大地震影響,放射性物質發生泄漏。R本人自食惡果不足惜,卻給世界環境...
    茶點故事閱讀 44,698評論 3 348
  • 文/蒙蒙 一、第九天 我趴在偏房一處隱蔽的房頂上張望。 院中可真熱鬧,春花似錦、人聲如沸。這莊子的主人今日做“春日...
    開封第一講書人閱讀 35,099評論 0 28
  • 文/蒼蘭香墨 我抬頭看了看天上的太陽。三九已至,卻和暖如春,著一層夾襖步出監牢的瞬間,已是汗流浹背。 一陣腳步聲響...
    開封第一講書人閱讀 36,386評論 1 294
  • 我被黑心中介騙來泰國打工, 沒想到剛下飛機就差點兒被人妖公主榨干…… 1. 我叫王不留,地道東北人。 一個月前我還...
    沈念sama閱讀 52,204評論 3 398
  • 正文 我出身青樓,卻偏偏與公主長得像,于是被迫代替她去往敵國和親。 傳聞我的和親對象是個殘疾皇子,可洞房花燭夜當晚...
    茶點故事閱讀 48,436評論 2 378

推薦閱讀更多精彩內容