該文章是首篇,在行為識別領域中,用壓縮視頻進行深度網絡訓練的論文。文中闡述了將壓縮視頻用于行為識別理由;作者嘗試的過程及實驗結果。
視頻壓縮感知重構時利用到了幀間的差異。幀間的差異與運動向量以及幀間殘差有關,將運動向量及殘差作為網絡的輸入,減少網絡建模時序運動信息的難度;同時壓縮的視頻減少了冗余信息,易于訓練。
摘要:
由于視頻的size大及時序信息的冗余,深度的視頻學習任務訓練要比圖像的表示學習要難得多。作者提出直接在壓縮視頻上訓練深度網絡。
理由:
1.經過壓縮的視頻,具有高信息密度,更容易訓練
2.經過壓縮的視頻,也提供了濾除噪聲影響的運動信息
實驗效果:
1. 訓練速度上的優勢:比Res3D快4.6倍;比ResNet-152快2.7倍
2. 精度:UCF101,HMDB-51,Charades
Introduction:
1.作者主要分析在視頻行為中,深度技術效果與傳統技術相比優勢不大的主要原因:
????A.視頻信息密度低
????B.只有多張RGB圖像,難以學習到時序結構
2.將壓縮視頻用于深度網絡(可行性分析):
視頻壓縮感知重構時利用到了幀間的差異。幀間的差異與運動向量以及幀間殘差有關。
????A.壓縮視頻:二階信息----》特征信號突出
????B.提供運動信息,同時包括空間信息
????C.壓縮視頻,利用幀間差異儲存數據,----》原始圖像加上差異得到當前圖像,數據量少于,直接將一張張圖像保存
????D.高效
Video Compression:
壓縮視頻:主要將視頻分為 I-frames (intracoded frames), P-frames (predictive frames) 和 B-frames (bi-directional frames)(有時為0)。
I-frames:原始圖像。P-frames:則以先前幀為參考,只編碼與先前幀的差異(changes)。這差異的一部分,可認為是運動向量,即是原始圖像塊(source)到t時刻的目標圖像塊(target)的運動,記為
。差異的另一部分:上述通過運動向量得到之后的預測圖像與原始圖像的殘差,
P幀的重建則為:
P-frames:描述運動信息,與光流類似;殘差:粗略描述運動邊界
Modeling Compressed Representations :
嘗試1:直接將I-frames,P-frames,殘差分離輸入,最后再融合,Failed
作者認為:單獨的P幀或者殘差并不能包含全部的運動信息。破壞了P幀與I幀的依賴關系
?Q1:如何利用網絡表達這種依賴關系。
嘗試2:由于P幀依賴于I幀,每一幀的重構依賴于前一幀。類似于RNN或者LSTM的結構,下一個神經元的輸入依賴于前一個神經元的輸出。作者嘗試了RNN結構,初步實驗表明該方法無效。
作者初步分析:隨著P幀的增多,幀間依賴關系增強;
Q2:能否用LSTM網絡?LSTM網絡,短時記憶,會不會偏離于原始圖像----》影響理解
嘗試3:1.需表達I幀與P幀的依賴關系;2.解除P幀間的依賴關系。
作者采用回溯的方法,由當前幀回溯到I幀,計算運動向量(即為累積的運動向量),殘差(累積殘差)。
給定t幀的某個位置的像素點i,
表示該像素點在前一幀的參考位置,則i在前k幀的位置表示為(k<t):
則運動向量及殘差:
網絡結構:
整體網絡架構:文中采用類似于雙流的方法。在用上圖中的網絡之外,還結合TSN網絡(Temporal Segments Networks)
網絡輸入:
Q:網絡具體結構?每個輸入單獨構建網絡,之后再融合?
網絡結構:
I幀網絡:ResNet152(I幀儲存大部分信息)
P幀,殘差網絡:ResNet18(只需學習從I幀到p幀的更新信息)
實驗效果:
1.速度:
2.精度:
A.各網絡效果
B.與其他模型對比