野花香日本大全免费观看,18禁超污无遮挡无码免费网站国产,国产成人无码网站m3u8

作者團隊：商湯，中科大，港中文
來源：arXiv:2010.04159v2
代碼：https://github.com/fundamentalvision/Deformable-DETR

title

摘要

這篇文章主要針對的是DETR收斂速度較慢以及空間分辨率因計算資源受限問題，提出使用deformable cnn的方式以臨近區域采樣計算attention取代transformer中全局的self-attention，提升了收斂速度并獲得超于DETR的檢測性能，尤其是小目標上。

簡介

DETR是第一個完全端到端的目標檢測器。

DETR存在的問題：

需要較長的訓練周期才能收斂；
在小目標上的檢測性能較差。主要是因為小目標需要大分辨率，而大分辨率帶來DETR難以接受的計算復雜度。

（個人感悟：其實DETR文章中的Figure7可以發現，queries具有一定的位置識別功能，也就是說類似于yolo中統計獲得anchors尺寸，detr訓練過程中實現了目標可能存在位置的統計與分配，顯然收斂時間更長，另外全局的attention遍歷消耗較大，而detr中需要兩次該計算（一次encoder中的self-attention，一次decoder中的cross-attention））

deformable convolution可以有效地利用稀疏局部位置。dcn一方面能通過改變感受野平衡不同尺寸的目標，且僅計算局部位置信息能提升計算速度，但其缺少刻畫元素之間關系的能力。

于是本文將dcn 和 transformer結合，提出了deformable DETR，能夠獲得較快的收斂速度以及更好的檢測性能。其核心是使用deformable attention 模塊取代transformers attention 模塊，如圖1所示，對于關鍵點的特征使用期鄰近較小集合內的元素進行相關性刻畫。

deformable detr

除此之外，本文還提出了兩種提升檢測性能的策略：迭代標定框細化策略和兩階段deformable DETR。

Transformers 和DETR回顧

transformers中的多頭注意力機制，每個head單獨刻畫queries與keys之間的注意力加權，然后通過權重線性加權獲得最終的輸出，計算如下：

Eq.1

其中

W_m'x_k

是對key元素的編碼，

A_{mqk}

是第k個key元素的權重，總共有

|\Omega_k|

個key值，所以

A_{mqk}

是歸一化的權重向量，正比于

exp\{\frac{z_q^TU_m^TV_mx_k}{\sqrt{C_v}}\}

z_q

即query的特征向量。為了區分不同的位置，

z_q, x_k

一般是內容特征和位置編碼的聚合。

Transformers具有兩個顯著的問題。1.較長的收斂周期。考慮一個最基本的問題，假設keys初始化時是獨立同分布的，那么每個key的attention權重應該為 $1/N_k$ , $N_k$ 為key的個數，而針對于圖像則是featmap中像素點的個數，于是讓attention學習出具有顯著性的特征向量就需要大量的訓練迭代。

另一方面，query和key的數量嚴重影響了多頭注意力模塊的計算和存儲。公式1中的計算復雜度為 $O(N_qC^2+N_k^2+N_qN_kC)$ ，對于圖像而言， $N_q, N_k$ 可以認為是圖像像素點，于是多頭注意力機制的計算復雜度近似于feature map尺寸的平方。

DETR是建立在transformer 編解碼結構上的一個框架，他首先利用匈牙利算法獲得預測與gt的最佳匹配，然后再匹配基礎上進行loss約束。

給定一張backbone提取的特征圖， DETR利用標準的transformer的編解碼器將其轉換為若干queries的特征集合，然后在該特征基礎上使用一個3層的前饋網絡和一個線性層分別進行box的回歸和類別的估計。

對于DETR而言，其encoder中self-attention的計算復雜度為 $O(H^2W^2C)$ , 其decoder中cross-attention的計算復雜度為 $O(HWC^2+NHWC)$ ， self-attention的計算復雜度為 $N^2C+2NC^2$ , 顯然復雜度主要來源于encoder的輸入和輸出的特征圖尺寸。

方法

deformable attention module

一個公式就能看懂：

Eq.2

對比公式1就可以發現，這里主要不同在于k的取值有原先的整個集合

\Omega_k

具體為K個近鄰點，而每個近鄰點的位置通過

\delta p_{mqk}

學習獲得，另外

A_{mqk}

也是由數據直接網絡生成并進行softmax生成。

deformAttn和self-attention的不同點：

self attention是全局特征作為key值，而deformAttn是在每個query附近自主學習K個key值
self attention中的權重是key和queries對的關系刻畫，比如內積等，而deformAttn則是直接由線性層獲得。

deformAttn位置選擇和deformable cnn的不同點：deformable cnn是在正常的cnn kernel點上分別預測偏移量，而deformAttn則是在當前一個點上直接預測多個偏移量。

多尺度的deformable attention模塊。

直接看公式：

Eq.3

其中

l

表示不同的尺度層，

\phi_l(\cdot)

表示將對應位置映射到第

l

層，可以發現和公式2相比，不同點在于公式2中從單層生成了K個點，而公式3是每層產生K個點，生成LK個采樣位置，然后進行聚合。另外

W_m

還是每層共享的。

Deformable Transformer Encoder

通過可形變注意力模塊，作者直接將其替換transformer注意力模塊，每個encoder的輸入輸出都是相同分辨率的多尺度特征圖，這里分辨率是指相同尺度下不同encoder的輸入。多尺度的特征圖直接來自ResNet的最后3個stage，而沒有使用FPN，因為多尺度可形變注意力模塊本身能夠融合交換不同scale的信息
對于query像素位置，除了position信息外，還融合了該query所在的level，即 $\{e_l\}_{l=1}^L$

可行變transformer解碼器

在解碼器中除了self-attention還有cross-attention。因為deformable attention作用在卷積層上，因此這里只有cross-attention可以被替代，而self-attention則保持不變。對于每一個object query，由線性層和sigmoid學習出其對應的參考點的2d歸一化坐標，然后即可以使用deformable attention操作。

另外deformable DETR又把DETR拉回了相對坐標回歸的路子，預測box時回歸的是相對于參考點的距離，能夠加快收斂。

Deformable DETR的其他改進和變種

Iterative Bounding Box Refinement 針對于多個decoder，每個decoder的輸入是前一層的decoder的輸出
兩階段deformable DETR： DETR中的queries是隨機初始化的，而兩階段方式則是由Deformable DETR的變種生成初始的候選queries。在第一階段，移除Deformable DETR中的decoder模塊，僅使用encoder模塊，每個像素位置都作為queries，直接預測box，然后選擇score最大的box作為候選位置。其實第一階段就有點類似于無錨框單階段檢測思路。

實驗

執行細節

多頭注意力機制M=8，不同的scale K=4. 不同level的特征的encoder共享參數。adam優化器2x1e-4訓練50個epoch， queries的個數從100增加到300. Focal Loss權重變為2.

DETR的比較

comparision of DDETR with DETR

DC5表示對resnet網絡最后一層stride以及空洞卷積保持分辨率的修改。DC5+表示已當前的訓練設置相同設置DETR模型訓練結果。
可以發現Deformable DETR的最大貢獻點在于訓練周期的大幅縮短以及對小目標精度的提升。

這應該來自于兩點：1. 可形變卷積提到全局attention，減少了運算量；2.多尺度融合能夠處理不同分辨率的目標；

另外還可以發現兩個變種模型，性能提升都比較明顯，表明先驗知識其實有利于模型的精度，這應該是顯然的，因為學習這種比較發散的統計規律精度還是沒有專門給的先驗好。

MS inputs：表示多尺度輸入，即不同的尺度的feature map獨立的輸入到encoder中，相當于每個尺度的feature map都經過detr有該尺度本身的預測。
MS attention：多尺度的deformable attention，相當于不同尺度的feature map具有一定的融合輸入到encoder中。
K：表示每層feature map中deformable cnn采樣的點的個數。

這里有點困惑的是實驗沒有對比 MSinputs +FPN而不使用MS attention的參照組，第一行和最后一行只能說明FPN不能進一步提升，沒說單獨使用FPN和單獨使用MS attention的對比。

和SOTA方法的對比

image.png

總結

本工作是對DETR的一種改進。重要的點包括：使用deformable cnn的思想實現local attention替代了全局的attention，這個模塊感覺對于檢測任務或者分割任務是比較有用的，但對于圖像分類這種任務估計作用不是很大。另外就是multi-scale特征在encoder中通過deformable attention進行了融合，避免了FPN結構。當然本文還提出了一些更進一步的變種，比如迭代策略和兩階段策略。這兩種策略的本質都是引入了更好的先驗知識，所以性能能進一步的提升。

Deformable DETR的最實際的作用是大大縮短了網絡的訓練周期。讓個人煉丹也能跑動。

三个男躁一个女,国精产品一区一手机的秘密,麦子交换系列最经典十句话,欧美国产综合欧美视频

閱讀筆記-Deformable DETR: Deformable transformers for end-to-end object detection

閱讀筆記-Deformable DETR: Deformable transformers for end-to-end object detection

摘要

簡介

相關工作

Transformers 和DETR回顧