閱讀筆記- Li3DeTr: A LiDAR based 3D Detection Transformer


這篇文章整體沒什么好說的,只是將Deformable DETR應(yīng)用到了LiDAR 3D檢測任務(wù)上,所以我們這里看一下其細(xì)節(jié)部分就行。

1. 方法

下圖是Li3DeTr 的整體結(jié)構(gòu), 首先網(wǎng)絡(luò)的輸入是由LiDAR得到的點(diǎn)云數(shù)據(jù),點(diǎn)云首先經(jīng)過SparseConv 或者 PointPillars 網(wǎng)絡(luò)將點(diǎn)云數(shù)據(jù)轉(zhuǎn)到BEV上,然后經(jīng)過FPN生成多尺度的BEV特征,這里 (SparseConv/PointPillars + FPN)稱為backbone部分,然后經(jīng)過由多層encoder layer組成的encoder部分,encoder部分和deformable DETR中的定義相同,每個(gè)feature map上的pixel作為query,來自多l(xiāng)evel的特征圖由deformable 形式選擇的點(diǎn)作為value進(jìn)行融合,融合后的特征稱為LiDAR Global Features, 接著將global features 送入到decoder中進(jìn)行解碼,這里和deformable detr的操作也類似,即一組可學(xué)習(xí)參數(shù)稱為queries,先經(jīng)過MHSA交互,再送入cross attention中與global feature交互,cross attention中同樣采用的deformable attention的形式降低計(jì)算量,注意cross attention中deformable使用的ref_pts 由queries經(jīng)過單層線性層映射得到。decoder 由多層decoder layer構(gòu)成,最終輸出進(jìn)行set2set_prediction的監(jiān)督約束。


image.png

ok,接下來看下細(xì)節(jié):

  • encoder 完全采用的deformable detr的detr結(jié)構(gòu)
  • decoder layer的每一層ref_pts, 由輸入query經(jīng)FC生成, r_i = \phi_{ref}(q_i)
  • decoder layer 中attention的計(jì)算方式 F_i^{CAttn} = \sum_{j=1}^4F_j(R_{ji}(r_i))w_{ij}, 其中F_j表示第j層的global feat,總共4個(gè)level, R_{ji}(r_i)表示將第i個(gè)ref_pts 映射到第j個(gè)level尺度上的位置,w_{ij}是由q_i經(jīng)過FC層生成的,可以發(fā)現(xiàn)和deformable attention相比,這里沒有生成offset,而是每個(gè)level的feat上只取對應(yīng)ref_pts位置的雙線性插值特征進(jìn)行加權(quán)和。最后query的更新方式為q_i = q_i + F_i^{CAttn} + PE(c_i) 這里PE(c_i) 是對ref_pts的位置編碼,有點(diǎn)奇怪的是這里是在skip-connection的基礎(chǔ)上又加上了位置編碼,然后再進(jìn)行LayerNorm?
  • decoder layer的每一層bbox_embed 預(yù)測的是相對于前一層layer的ref_pts的delta增量,包括\delta p_i \in R^3, (l_i, w_i, h_i), sin \theta_i, cos \theta_i, v_{xi}, v_{y_i}.

2. 實(shí)驗(yàn)

消融實(shí)驗(yàn)

  • object category
    文章對比的transformer方法是Object-DGCNN,因?yàn)樽髡哒J(rèn)為該模型是和本文方法類似的standalone transformer 模型,對比更公平。作者認(rèn)為該方法由于使用多尺度的deformable attention能夠充分利用lidar的更長距離特征,因此對于大目標(biāo)提升更明顯,比如vehicle、trailer,truck等,即使是數(shù)目較少的bicycle類本文方法相對于Obj-DGCNN也提升了6.9個(gè)點(diǎn),作者認(rèn)為是cross attention中l(wèi)ocal和global特征的抽取。


    image.png
  • object distance
    本文對30m外的目標(biāo)的指標(biāo)mAP提升最明顯,作者認(rèn)為是本文的attention 建模了long-range的交互,即使遠(yuǎn)處的點(diǎn)云較稀疏。


    image.png
  • object size
    基于transformer的目標(biāo)在大目標(biāo)上的提升會(huì)更高一些。


    image.png
  • attention blocks
    這個(gè)地方?jīng)]有搞懂為什么本文的cross attention和deformable detr差距不大但指標(biāo)帶來這么大變化,需要看下代碼。
  • number of queries
    900個(gè)query效果最好,這個(gè)可能得依賴具體的任務(wù)場景

3. 結(jié)論

本質(zhì)就是DeformableDETR在LiDAR數(shù)據(jù)上的應(yīng)用。

?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請聯(lián)系作者
平臺聲明:文章內(nèi)容(如有圖片或視頻亦包括在內(nèi))由作者上傳并發(fā)布,文章內(nèi)容僅代表作者本人觀點(diǎn),簡書系信息發(fā)布平臺,僅提供信息存儲服務(wù)。

推薦閱讀更多精彩內(nèi)容