這篇文章整體沒什么好說的,只是將Deformable DETR應(yīng)用到了LiDAR 3D檢測任務(wù)上,所以我們這里看一下其細(xì)節(jié)部分就行。
1. 方法
下圖是Li3DeTr 的整體結(jié)構(gòu), 首先網(wǎng)絡(luò)的輸入是由LiDAR得到的點(diǎn)云數(shù)據(jù),點(diǎn)云首先經(jīng)過SparseConv 或者 PointPillars 網(wǎng)絡(luò)將點(diǎn)云數(shù)據(jù)轉(zhuǎn)到BEV上,然后經(jīng)過FPN生成多尺度的BEV特征,這里 (SparseConv/PointPillars + FPN)稱為backbone部分,然后經(jīng)過由多層encoder layer組成的encoder部分,encoder部分和deformable DETR中的定義相同,每個(gè)feature map上的pixel作為query,來自多l(xiāng)evel的特征圖由deformable 形式選擇的點(diǎn)作為value進(jìn)行融合,融合后的特征稱為LiDAR Global Features, 接著將global features 送入到decoder中進(jìn)行解碼,這里和deformable detr的操作也類似,即一組可學(xué)習(xí)參數(shù)稱為queries,先經(jīng)過MHSA交互,再送入cross attention中與global feature交互,cross attention中同樣采用的deformable attention的形式降低計(jì)算量,注意cross attention中deformable使用的ref_pts 由queries經(jīng)過單層線性層映射得到。decoder 由多層decoder layer構(gòu)成,最終輸出進(jìn)行set2set_prediction的監(jiān)督約束。
ok,接下來看下細(xì)節(jié):
- encoder 完全采用的deformable detr的detr結(jié)構(gòu)
- decoder layer的每一層ref_pts, 由輸入query經(jīng)FC生成,
- decoder layer 中attention的計(jì)算方式
, 其中
表示第j層的global feat,總共4個(gè)level,
表示將第i個(gè)ref_pts 映射到第j個(gè)level尺度上的位置,
是由
經(jīng)過FC層生成的,可以發(fā)現(xiàn)和deformable attention相比,這里沒有生成offset,而是每個(gè)level的feat上只取對應(yīng)ref_pts位置的雙線性插值特征進(jìn)行加權(quán)和。最后query的更新方式為
這里
是對ref_pts的位置編碼,有點(diǎn)奇怪的是這里是在skip-connection的基礎(chǔ)上又加上了位置編碼,然后再進(jìn)行LayerNorm?
- decoder layer的每一層bbox_embed 預(yù)測的是相對于前一層layer的ref_pts的delta增量,包括
.
2. 實(shí)驗(yàn)
消融實(shí)驗(yàn)
-
object category
文章對比的transformer方法是Object-DGCNN,因?yàn)樽髡哒J(rèn)為該模型是和本文方法類似的standalone transformer 模型,對比更公平。作者認(rèn)為該方法由于使用多尺度的deformable attention能夠充分利用lidar的更長距離特征,因此對于大目標(biāo)提升更明顯,比如vehicle、trailer,truck等,即使是數(shù)目較少的bicycle類本文方法相對于Obj-DGCNN也提升了6.9個(gè)點(diǎn),作者認(rèn)為是cross attention中l(wèi)ocal和global特征的抽取。
image.png -
object distance
本文對30m外的目標(biāo)的指標(biāo)mAP提升最明顯,作者認(rèn)為是本文的attention 建模了long-range的交互,即使遠(yuǎn)處的點(diǎn)云較稀疏。
image.png -
object size
基于transformer的目標(biāo)在大目標(biāo)上的提升會(huì)更高一些。
image.png - attention blocks
這個(gè)地方?jīng)]有搞懂為什么本文的cross attention和deformable detr差距不大但指標(biāo)帶來這么大變化,需要看下代碼。 - number of queries
900個(gè)query效果最好,這個(gè)可能得依賴具體的任務(wù)場景
3. 結(jié)論
本質(zhì)就是DeformableDETR在LiDAR數(shù)據(jù)上的應(yīng)用。