這篇文章整體沒什么好說的，只是將Deformable DETR應(yīng)用到了LiDAR 3D檢測任務(wù)上，所以我們這里看一下其細(xì)節(jié)部分就行。

1. 方法

下圖是Li3DeTr 的整體結(jié)構(gòu)，首先網(wǎng)絡(luò)的輸入是由LiDAR得到的點(diǎn)云數(shù)據(jù)，點(diǎn)云首先經(jīng)過SparseConv 或者 PointPillars 網(wǎng)絡(luò)將點(diǎn)云數(shù)據(jù)轉(zhuǎn)到BEV上，然后經(jīng)過FPN生成多尺度的BEV特征，這里（SparseConv/PointPillars + FPN）稱為backbone部分，然后經(jīng)過由多層encoder layer組成的encoder部分，encoder部分和deformable DETR中的定義相同，每個(gè)feature map上的pixel作為query，來自多l(xiāng)evel的特征圖由deformable 形式選擇的點(diǎn)作為value進(jìn)行融合，融合后的特征稱為LiDAR Global Features, 接著將global features 送入到decoder中進(jìn)行解碼，這里和deformable detr的操作也類似，即一組可學(xué)習(xí)參數(shù)稱為queries，先經(jīng)過MHSA交互，再送入cross attention中與global feature交互，cross attention中同樣采用的deformable attention的形式降低計(jì)算量，注意cross attention中deformable使用的ref_pts 由queries經(jīng)過單層線性層映射得到。decoder 由多層decoder layer構(gòu)成，最終輸出進(jìn)行set2set_prediction的監(jiān)督約束。

image.png

ok，接下來看下細(xì)節(jié)：

encoder 完全采用的deformable detr的detr結(jié)構(gòu)
decoder layer的每一層ref_pts, 由輸入query經(jīng)FC生成， $r_i = \phi_{ref}(q_i)$
decoder layer 中attention的計(jì)算方式 $F_i^{CAttn} = \sum_{j=1}^4F_j(R_{ji}(r_i))w_{ij}$ , 其中 $F_j$ 表示第j層的global feat，總共4個(gè)level， $R_{ji}(r_i)$ 表示將第i個(gè)ref_pts 映射到第j個(gè)level尺度上的位置， $w_{ij}$ 是由 $q_i$ 經(jīng)過FC層生成的，可以發(fā)現(xiàn)和deformable attention相比，這里沒有生成offset，而是每個(gè)level的feat上只取對應(yīng)ref_pts位置的雙線性插值特征進(jìn)行加權(quán)和。最后query的更新方式為 $q_i = q_i + F_i^{CAttn} + PE(c_i)$ 這里 $PE(c_i)$ 是對ref_pts的位置編碼，有點(diǎn)奇怪的是這里是在skip-connection的基礎(chǔ)上又加上了位置編碼，然后再進(jìn)行LayerNorm？
decoder layer的每一層bbox_embed 預(yù)測的是相對于前一層layer的ref_pts的delta增量，包括 $\delta p_i \in R^3, (l_i, w_i, h_i), sin \theta_i, cos \theta_i, v_{xi}, v_{y_i}$ .

2. 實(shí)驗(yàn)

消融實(shí)驗(yàn)

object category
文章對比的transformer方法是Object-DGCNN，因?yàn)樽髡哒J(rèn)為該模型是和本文方法類似的standalone transformer 模型，對比更公平。作者認(rèn)為該方法由于使用多尺度的deformable attention能夠充分利用lidar的更長距離特征，因此對于大目標(biāo)提升更明顯，比如vehicle、trailer，truck等，即使是數(shù)目較少的bicycle類本文方法相對于Obj-DGCNN也提升了6.9個(gè)點(diǎn)，作者認(rèn)為是cross attention中l(wèi)ocal和global特征的抽取。

image.png
object distance
本文對30m外的目標(biāo)的指標(biāo)mAP提升最明顯，作者認(rèn)為是本文的attention 建模了long-range的交互，即使遠(yuǎn)處的點(diǎn)云較稀疏。

image.png
object size
基于transformer的目標(biāo)在大目標(biāo)上的提升會(huì)更高一些。

image.png
attention blocks
這個(gè)地方?jīng)]有搞懂為什么本文的cross attention和deformable detr差距不大但指標(biāo)帶來這么大變化，需要看下代碼。
number of queries
900個(gè)query效果最好，這個(gè)可能得依賴具體的任務(wù)場景

3. 結(jié)論

本質(zhì)就是DeformableDETR在LiDAR數(shù)據(jù)上的應(yīng)用。

三个男躁一个女,国精产品一区一手机的秘密,麦子交换系列最经典十句话,欧美国产综合欧美视频

閱讀筆記- Li3DeTr: A LiDAR based 3D Detection Transformer

閱讀筆記- Li3DeTr: A LiDAR based 3D Detection Transformer

這篇文章整體沒什么好說的，只是將Deformable DETR應(yīng)用到了LiDAR 3D檢測任務(wù)上，所以我們這里看一下其細(xì)節(jié)部分就行。

1. 方法

2. 實(shí)驗(yàn)

3. 結(jié)論

推薦閱讀更多精彩內(nèi)容

三个男躁一个女,国精产品一区一手机的秘密,麦子交换系列最经典十句话,欧美 国产 综合 欧美 视频

閱讀筆記- Li3DeTr: A LiDAR based 3D Detection Transformer

這篇文章整體沒什么好說的，只是將Deformable DETR應(yīng)用到了LiDAR 3D檢測任務(wù)上，所以我們這里看一下其細(xì)節(jié)部分就行。

1. 方法

2. 實(shí)驗(yàn)

3. 結(jié)論

推薦閱讀更多精彩內(nèi)容

三个男躁一个女,国精产品一区一手机的秘密,麦子交换系列最经典十句话,欧美国产综合欧美视频