Compressed Video Action Recognition論文筆記

該文章是首篇,在行為識別領域中,用壓縮視頻進行深度網絡訓練的論文。文中闡述了將壓縮視頻用于行為識別理由;作者嘗試的過程及實驗結果。

視頻壓縮感知重構時利用到了幀間的差異。幀間的差異與運動向量以及幀間殘差有關,將運動向量及殘差作為網絡的輸入,減少網絡建模時序運動信息的難度;同時壓縮的視頻減少了冗余信息,易于訓練。

摘要:

由于視頻的size大及時序信息的冗余,深度的視頻學習任務訓練要比圖像的表示學習要難得多。作者提出直接在壓縮視頻上訓練深度網絡。

理由:

1.經過壓縮的視頻,具有高信息密度,更容易訓練

2.經過壓縮的視頻,也提供了濾除噪聲影響的運動信息

實驗效果:

1. 訓練速度上的優勢:比Res3D快4.6倍;比ResNet-152快2.7倍

2. 精度:UCF101,HMDB-51,Charades


Introduction:

1.作者主要分析在視頻行為中,深度技術效果與傳統技術相比優勢不大的主要原因:

????A.視頻信息密度低

????B.只有多張RGB圖像,難以學習到時序結構

2.將壓縮視頻用于深度網絡(可行性分析):

視頻壓縮感知重構時利用到了幀間的差異。幀間的差異與運動向量以及幀間殘差有關。

????A.壓縮視頻:二階信息----》特征信號突出

????B.提供運動信息,同時包括空間信息

????C.壓縮視頻,利用幀間差異儲存數據,----》原始圖像加上差異得到當前圖像,數據量少于,直接將一張張圖像保存

????D.高效


Video Compression:

壓縮視頻:主要將視頻分為 I-frames (intracoded frames), P-frames (predictive frames) 和 B-frames (bi-directional frames)(有時為0)。

I-frames:原始圖像。P-frames:則以先前幀為參考,只編碼與先前幀的差異(changes)。這差異的一部分,可認為是運動向量,即是原始圖像塊(source)到t時刻的目標圖像塊(target)的運動,記為

。差異的另一部分:上述通過運動向量得到之后的預測圖像與原始圖像的殘差,

P幀的重建則為:

P-frames:描述運動信息,與光流類似;殘差:粗略描述運動邊界



Modeling Compressed Representations :

嘗試1:直接將I-frames,P-frames,殘差分離輸入,最后再融合,Failed

作者認為:單獨的P幀或者殘差并不能包含全部的運動信息。破壞了P幀與I幀的依賴關系

?Q1:如何利用網絡表達這種依賴關系。

嘗試2:由于P幀依賴于I幀,每一幀的重構依賴于前一幀。類似于RNN或者LSTM的結構,下一個神經元的輸入依賴于前一個神經元的輸出。作者嘗試了RNN結構,初步實驗表明該方法無效。

作者初步分析:隨著P幀的增多,幀間依賴關系增強;

Q2:能否用LSTM網絡?LSTM網絡,短時記憶,會不會偏離于原始圖像----》影響理解


嘗試3:1.需表達I幀與P幀的依賴關系;2.解除P幀間的依賴關系。

作者采用回溯的方法,由當前幀回溯到I幀,計算運動向量(即為累積的運動向量),殘差(累積殘差)。


給定t幀的某個位置的像素點i,

表示該像素點在前一幀的參考位置,則i在前k幀的位置表示為(k<t):

則運動向量及殘差:




網絡結構:



整體網絡架構:文中采用類似于雙流的方法。在用上圖中的網絡之外,還結合TSN網絡(Temporal Segments Networks)

網絡輸入:


Q:網絡具體結構?每個輸入單獨構建網絡,之后再融合?

網絡結構:

I幀網絡:ResNet152(I幀儲存大部分信息)

P幀,殘差網絡:ResNet18(只需學習從I幀到p幀的更新信息)



實驗效果:

1.速度:


2.精度:

A.各網絡效果


B.與其他模型對比



?著作權歸作者所有,轉載或內容合作請聯系作者
平臺聲明:文章內容(如有圖片或視頻亦包括在內)由作者上傳并發布,文章內容僅代表作者本人觀點,簡書系信息發布平臺,僅提供信息存儲服務。

推薦閱讀更多精彩內容

  • [TOC] 音視頻&流媒體 是什么促使我要寫這一篇音視頻入門文章?那是因為和一妹子打賭碼率的概念,結果輸了;對一個...
    AllenWu閱讀 4,884評論 1 24
  • ### YUV顏色空間 視頻是由一幀一幀的數據連接而成,而一幀視頻數據其實就是一張圖片。 yuv是一種圖片儲存格式...
    天使君閱讀 3,364評論 0 4
  • 好記性不如爛鍵盤,持續整理了一下視頻里面一些基礎的概念。 文件格式 封裝格式 視頻編解碼方式H.26X 系列MPE...
    vedon_fu閱讀 2,237評論 0 3
  • http://blog.csdn.net/huangblog/article/details/8739876 /*...
    JosephDHF閱讀 3,049評論 0 8
  • 為什么要進行編碼 因為未經過編碼(壓縮)的視頻,具有極大的數據量,不利于存儲,傳輸,實時應用. 視頻編碼的原理 空...
    癡人會說夢閱讀 3,314評論 6 3