作為數據增強的復制粘貼

https://arxiv.org/pdf/2012.07177.pdf

Simple Copy-Paste is a Strong Data Augmentation Method for Instance Segmentation

Golnaz Ghiasi,?Yin Cui,?Aravind Srinivas,?Rui Qian,?Tsung-Yi Lin,?Ekin D. Cubuk,?Quoc V. Le,?Barret Zoph

在計算機視覺中,建立數據高效且能處理稀有對象類別的實例分割模型是一個重要的挑戰。利用數據擴充是解決這一挑戰的一個有希望的方向。在這里,我們對復制粘貼增強([13,12])進行了系統的研究,例如我們將對象隨機粘貼到圖像上的分割。以往對復制粘貼的研究依賴于對周圍的視覺環境進行建模來粘貼對象。然而,我們發現隨機粘貼對象的簡單機制已經足夠好了,可以在強基線的基礎上提供可靠的增益。此外,我們還證明了復制粘貼與半監督方法是相加的,半監督方法通過偽標記(如自訓練)利用額外的數據。在COCO實例分割方面,我們實現了49.1的mask-AP和57.3的box-AP,比現有技術提高了+0.6的mask-AP和+1.5的box-AP。我們進一步證明了復制粘貼可以顯著改進LVIS基準。我們的基準模型在稀有類別上比LVIS 2020挑戰賽優勝項目高出3.6%

圖1.COCO基準上的數據效率:將復制粘貼增強與強大的Aug(大規模抖動)相結合,使我們能夠訓練多達2個的模型× 比標準的Aug(標準規模抖動)更高效。增強非常有效,在低數據區(數據的10%)提供+10ap的增益,而在高數據區仍然有效,增益為+5ap。結果是在640的圖像大小上訓練的掩模RCNN效率net-B7 FPN×640


1.引言

實例分割[22,10]是計算機視覺中的一項重要任務,有許多實際應用。基于最先進的卷積網絡[11,56,66]的實例分割模型通常需要大量的數據。同時,注釋大型數據集(例如分段[40,21])通常是昂貴和耗時的。例如,COCO的每1000個實例面具花費了22個工時[40]。因此,迫切需要開發新的方法來提高現有實例分割模型的數據效率。

在這里,我們關注數據擴充[49],作為一種顯著提高實例分割模型數據效率的簡單方法。盡管許多增強方法(如縮放抖動和隨機調整大小)已被廣泛使用[26,25,20],但它們在本質上更具通用性,并沒有專門設計用于實例分割。在類別和形狀方面更能感知對象的增強過程可能對實例分割有用。復制粘貼增強[13,12,15]非常適合這種需要。通過將不同尺度的物體粘貼到新的背景圖像上,復制粘貼有可能免費創建具有挑戰性和新穎性的訓練數據。

復制粘貼增強背后的關鍵思想是將對象從一個圖像粘貼到另一個圖像。這可以導致新的訓練數據的組合數量,具有多種可能性:(1)選擇復制實例的源圖像對和粘貼實例的目標圖像對(2) 選擇要從源圖像復制的對象實例(3) 選擇將復制的實例粘貼到目標圖像上的位置。當使用這種數據增強方法時,有大量的選擇,這使得我們可以對如何最有效地使用這種技術進行大量的探索。先前的工作[12,15]通過對周圍的視覺環境建模,采用了一些方法來決定將附加對象粘貼到何處。相比之下,我們發現一種簡單的隨機選取對象并將其粘貼到目標圖像上的隨機位置的策略可以顯著提高多個設置的基線。具體地說,它在主干結構、規模抖動程度、訓練計劃和圖像大小的變化方面提供了廣泛的設置。

結合大規模的抖動,我們展示了復制粘貼增強在COCO上顯著提高了數據效率(圖1)。特別是,我們看到數據效率提高了2× 對常用的標準尺度抖動數據進行增強。我們還觀察到,當只使用10%的COCO訓練數據時,在低數據區獲得+10盒AP。

然后,我們證明了復制粘貼增強策略通過自我訓練提供了額外的收益[44,72],其中我們從地面真實數據中提取實例,并將它們粘貼到帶有偽標簽的未標記數據上。利用高效的net-B7[55]主干網和NAS-FPN[17]體系結構,我們在COCO測試設備上實現了57.3box-AP和49.1mask-AP,無需增加測試時間。這一結果超過了以前最先進的實例分割模型,如spinnet[11](46.3 mask AP)和ResNeXt-101-64x4d,并增加了測試時間[43](48.5 mask AP)。性能也超過了EfficientDet-D7x-1536[56](55.1 box AP)和YOLOv4-P7-1536[60](55.8 box AP)的最新邊界盒檢測結果,盡管使用了1280而不是1536的較小圖像大小。

最后,我們證明了復制粘貼增強可以為LVIS基準中通常使用的兩階段培訓過程帶來更好的特性[21]。利用copypesset,我們分別對6.1和3.7掩模AP在稀有和常見類別上進行了改進。

復制粘貼增強策略易于插入任何實例分割庫,能夠有效地利用未標記圖像,不產生訓練或推理開銷。例如,我們用Mask-RCNN進行的實驗表明,在訓練過程中可以將復制粘貼放入訓練中,并且在不發生任何變化的情況下,可以很容易地提高結果,例如48個周期的+1.0ap。

相關工作

數據增強。

與主干架構[35、50、52、27、55]和檢測/分割框架[19、18、46、38、26、39]的工作量相比,計算機視覺界對數據增強[49]的關注相對較少。隨機作物[36、35、50、52]、顏色抖動[52]、自動/隨機增強[6,7]等數據增強在圖像分類[27,55]、自我監督學習[28、24、5]和ImageNet[47]基準上的半監督學習[63]等方面發揮了重要作用。這些增強在本質上更為通用,主要用于編碼對數據變換的不變性,這一原理非常適合圖像分類[47]。

混合圖像增強。

與編碼數據變換不變性的增強相比,存在一類增強,將不同圖像中包含的信息與對ground真相標簽進行適當更改的信息混合在一起。一個典型的例子是混合數據增強[65]方法,它為輸入像素和輸出標簽的凸組合創建新的數據點。已經有了混合的適應性,例如CutMix[64],它粘貼圖像的矩形作物,而不是混合所有像素。混合和剪切混合在目標檢測中也有應用[68]。約洛夫4[1]中所采用的馬賽克數據增強方法與CutMix有關,因為一種新的復合圖像是多個單獨圖像的矩形網格及其地面真實。雖然混合、CutMix和馬賽克在組合多個圖像或其裁剪版本以創建新的培訓數據方面很有用,但它們仍然不知道對象,而且還沒有專門為實例分割任務設計。

復制粘貼增強。

復制粘貼增強。

以對象感知的方式組合來自多個圖像的信息的一種簡單方法是從一個圖像復制對象實例并將它們粘貼到另一個圖像上。復制粘貼類似于mixup和CutMix,但僅復制與對象對應的精確像素,而不是對象邊界框中的所有像素。與上下文復制粘貼[12]和InstaBoost[15]相比,我們工作中的一個關鍵區別是,我們不需要對周圍的可視上下文建模來放置復制的對象實例。一個簡單的隨機布局策略可以很好地工作,并在強基線模型上產生可靠的改進。Instaboost[15]與之前的復制粘貼[12]不同,它沒有粘貼其他圖像的實例,而是jiterr了圖像上已經存在的實例。Cut-Paste-and-Learn[13]提出提取對象實例,將它們混合粘貼在不同的背景上,并在原始數據集之外的增強圖像上進行訓練。我們的工作使用了相同的方法,但有一些不同:(1)我們不使用幾何變換(例如旋轉),并且發現粘貼實例的高斯模糊是不利的(2) 我們在將一幅圖像中包含的對象粘貼到已填充實例的另一幅圖像的上下文中研究復制粘貼,其中[13]在具有一組對象實例和背景場景的上下文中研究復制粘貼以提高性能(3) 在半監督學習環境下,我們結合自我訓練來研究復制粘貼的效果(4) 我們在廣泛使用的COCO和LVIS數據集上對Copy-Paste進行了基準測試和深入研究,而Cut-Paste和Learn使用的是GMU數據集[16]。本文的一個重要貢獻是展示了復制粘貼在COCO和LVIS實例分割模型中的應用。

實例分割。

實例分割[22,23]是一個具有挑戰性的計算機視覺問題,它試圖檢測對象實例并分割每個實例對應的像素。Mask RCNN[26]是一個廣泛使用的框架,大多數最先進的方法[66,11,43]都采用了這種方法。COCO數據集是廣泛使用的衡量進展的基準。我們報告了COCO基準的最新結果,超過SpineNet[11]2.8 AP,超過探測器[43]0.6 AP

長尾視覺識別。

最近,計算機視覺界開始關注自然圖像中物體類別的長尾特性[58,21],其中許多不同的物體類別幾乎沒有標記圖像。在訓練深度網絡時處理長尾數據的現代方法主要分為兩組:數據重采樣[41,21,61]和丟失重加權[30,8,3,53,37,45]。其他更復雜的學習方法(如元學習[62,29,32]、因果推理[57]、貝葉斯方法[34]等)也用于處理長尾數據。最近的工作[9,3,33,70,37]指出了兩階段訓練策略的有效性,將特征學習和再平衡階段分開,因為帶再平衡策略的端到端訓練可能不利于特征學習。Oksuz等人[42]對目標檢測中的數據不平衡進行了更全面的總結。我們的工作表明,簡單的復制粘貼數據增強在LVIS基準的單階段和兩階段訓練中都有顯著的效果,特別是對于稀有對象類別。

3. 方法

我們使用復制粘貼生成新數據的方法非常簡單。我們隨機選取兩幅圖像,對每幅圖像應用隨機尺度抖動和隨機水平翻轉。然后,我們從其中一幅圖像中隨機選擇一個對象子集,并將它們粘貼到另一幅圖像上。最后,我們相應地調整地面真值注釋:移除完全遮擋的物體,更新部分遮擋物體的遮罩和邊界框。

與[15,12]不同的是,我們沒有對周圍環境進行建模,因此,生成的圖像在對象的共現或對象的相關比例方面可能與真實圖像非常不同。例如,長頸鹿和足球運動員的規模非常不同,可以出現在彼此旁邊(見圖2)。

圖2?我們使用一個簡單的復制粘貼方法來創建新的圖像來訓練實例分割模型。 我們對兩幅隨機訓練圖像進行隨機尺度抖動,然后從一幅圖像中隨機選取一個子集粘貼到另一幅圖像上。

混合粘貼的對象。

為了將新對象合成一幅圖像,我們計算了二值掩模(α) 使用地面真值注釋對粘貼對象進行分類,并將新圖像計算為I1× α + 十二× (1? α) 其中I1是粘貼的圖像,I2是主圖像。為了平滑粘貼對象的邊緣,我們對其應用高斯濾波器α 類似于[13]中的“混合”。但與文獻[13]不同的是,我們還發現,簡單的不混合作曲也有類似的表現。

大規模抖動。

我們在整個文本中使用了兩種不同類型的增強方法和復制粘貼:標準規模抖動(SSJ)和大規模抖動(LSJ)。這些方法隨機調整圖像大小和裁剪圖像。這兩種方法的圖示如圖3所示。在我們的實驗中,我們觀察到,大規模抖動產生的性能比標準規模抖動在大多數以前的工作中使用顯著改善。

圖3.本文中使用的兩種尺度抖動增強方法的符號和可視化。 標準比例抖動(SSJ)調整圖像大小并進行裁剪,調整范圍為原始圖像大小的0.8到1.25。 大規模抖動(LSJ)中的調整大小范圍是原始圖像大小的0.1到2.0。 如果使圖像小于其原始大小,則用灰色像素值填充圖像。兩種縮放抖動方法也使用水平翻轉。

自我訓練復制粘貼。

除了研究有監督數據上的復制粘貼,我們還將其作為一種合并其他未標記圖像的方法進行了實驗。我們的自訓練復制粘貼過程如下:(1)對標記數據進行復制粘貼增強,訓練有監督的模型;(2)對未標記數據生成偽標記;(3)將地面真值實例粘貼到偽標記和有監督的標記圖像中,并在此新數據上訓練模型。

實驗

實驗裝置

建筑。

我們使用帶有EfficientNet[55]或ResNet[27]的Mask R-CNN[26]作為主干架構。我們還采用特征金字塔網絡[38]進行多尺度特征融合。我們使用從P2到P6的金字塔級別,錨定大小為8× 每像素2 l和3個錨。我們最強的模型使用Cascade R-CNN[2],EfficientNet-B7作為主干,NAS-FPN[17]作為從P3到P7的特征金字塔。錨定尺寸為4× 我們每像素有9個錨。我們的NAS-FPN模型使用5個重復,我們用ResNet瓶頸塊替換卷積層[27]。

訓練參數。

所有模型都使用同步批量歸一化[31,20]進行訓練,批量大小為256,權重衰減為4e-5。我們使用0.32的學習率和階躍學習率衰減[25]。在訓練開始時,學習率在前1000個步驟中從0.0032線性增加到0.32。我們將學習率衰減為訓練步驟總數的0.9、0.95和0.975個分數。我們從一個ImageNet檢查點初始化我們最大模型的主干,該檢查點通過自我訓練[63]預先訓練,以加快訓練速度。除非另有說明,所有其他結果均來自隨機初始化的模型。此外,除非另有說明,否則我們使用大規模抖動增強來訓練模型。在我們的實驗中,對于所有不同的擴充和數據集大小,我們允許每個模型進行訓練,直到收斂(即驗證集性能不再提高)。例如,使用大規模抖動和復制粘貼增強從頭開始訓練模型需要576個歷元,而僅使用標準規模抖動的訓練需要96個歷元。對于自訓練實驗,我們將批大小加倍到512,同時我們保持所有其他超參數不變,除了我們的最大模型由于內存限制而保留256的批大小。

數據集。

我們使用COCO數據集[40],它有118k個訓練圖像。對于自訓練實驗,我們使用未標記的COCO數據集(120k圖像)和Objects365數據集[48](610k圖像)作為未標記圖像。對于遷移學習實驗,我們在COCO數據集上預先訓練模型,然后在Pascal VOC數據集上進行微調[14]。對于語義分割,我們在PASCAL VOC 2012分割數據集的訓練集(1.5k圖像)上訓練我們的模型。在檢測方面,我們對PASCAL VOC 2007和PASCAL VOC 2012的trainval集進行了訓練,還對LVIS v1.0(100k訓練圖像)上的拷貝粘貼進行了基準測試,并對LVIS v1.0 val(20k圖像)上的結果進行了報告。LVIS有1203個類來模擬自然圖像中類的長尾分布。

4.2. 復制粘貼對訓練配置非常健壯

在本節中,我們將展示復制粘貼是一種強大的數據擴充方法,它在各種訓練迭代、模型和訓練超參數中都是健壯的。

圖4?復制粘貼提供了對訓練配置魯棒的增益。 我們在1024上訓練R-CNN(ResNet-50fpn)×1024個圖像大小,用于不同的時代數。 左圖:在初始化主干和不初始化主干的情況下復制粘貼。 右圖:復制粘貼標準和大規模抖動。在所有配置中,使用復制粘貼進行培訓是很有幫助的。

對主干初始化的健壯性。

訓練掩碼R-CNN的通常做法是用ImageNet預先訓練的檢查點初始化主干。然而,He等人[25]和Zoph等人[72]表明,通過隨機初始化訓練的模型在較長時間的訓練中具有相似或更好的性能。ImageNet預訓練中的訓練模型具有強大的數據增強功能(即RandAugment[7]),在COCO上顯示最多1個AP會影響性能。圖4(左)演示了復制粘貼在兩種設置中都是相加的,我們使用復制粘貼增強和隨機初始化獲得了最佳結果。

對培訓計劃的魯棒性。

在文獻中,面罩R-CNN的典型訓練計劃只有24(2)×)? 或36個時代(3×) [25, 26, 15]. 然而,最新的研究結果表明,長時間的訓練有助于在COCO上訓練目標檢測模型[72,56,11]。圖4顯示,對于典型的培訓計劃2,我們可以從復制粘貼中獲得收益× 或3× 隨著訓練時間的增加,收益也在增加。這表明,copyplaste是一種非常實用的數據擴充,因為我們不需要更長的培訓時間來看到它的好處。

復制粘貼是對大規模抖動增強的補充。

隨機尺度抖動(Random scale jittering)是一種強大的數據增強技術,在計算機視覺模型訓練中得到了廣泛的應用。文獻中尺度抖動的標準范圍是0.8到1.25[39,25,6,15]。然而,使用范圍為0.1到2.0[56,11]的更大范圍抖動和更長時間的訓練來增強數據可以顯著提高性能(見圖4,右圖)。圖5演示了復制粘貼對標準和大規模抖動增強都是附加的,我們在標準規模抖動的基礎上得到了更高的提升。另一方面,如圖5所示,當與大規模抖動一起使用時,mixup[65,68]數據增強沒有幫助。

圖5?復制粘貼是對大規模抖動增強的補充。 在標準規模抖動(左圖)和大規模抖動(右圖)的基礎上,對混合和復制粘貼數據進行了改進。 所有結果均來自于訓練掩模R-CNN效率ETB7 FPN上的圖像大小為640×640

復制粘貼可以跨主干體系結構和圖像大小工作。

最后,我們用ResNet50和ResNet-101[27]的標準主干架構以及EfficientNet-B7[55]的最新架構演示了復制粘貼幫助模型。我們用這些主干訓練模型,圖像大小為640×640, 1024×1024或1280×1280.表1顯示,對于所有模型,我們都比使用大規模抖動訓練的強基線得到了顯著的改進。在6個具有不同主干和圖像大小的模型中,復制粘貼在大規模抖動的基礎上平均提高了1.3盒AP和0.8掩模AP。

表1?. 復制粘貼在各種不同的模型體系結構、模型大小和圖像分辨率上都能很好地工作。

4.3復制粘貼有助于提高數據效率

在本節中,我們將展示復制粘貼在各種數據集大小上的幫助,并有助于提高數據效率。圖5顯示,拷貝粘貼的增加總是有助于椰子的所有部分。拷貝粘貼在低數據區(COCO的10%)最有幫助,在SSJ上產生6.9盒AP改進,在LSJ上產生4.8盒AP改進。另一方面,混音只在低數據區有用。復制粘貼也大大有助于提高數據效率:在75%的COCO上使用復制粘貼和LSJ訓練的模型與在100%的COCO上使用LSJ訓練的模型具有相似的AP。

4.4. 復制粘貼和自我訓練是相加的

在本節中,我們將演示類似于[63,72]的標準自訓練方法和復制粘貼可以結合在一起,以利用未標記的數據。復制粘貼和自我訓練分別比48.5箱AP的基線值增加1.5箱AP(見表2)。

表2?復制粘貼和自我訓練是利用額外的未標記數據的加法。 通過自我訓練和拷貝粘貼相結合,使2.9盒AP和2.3掩模AP有了顯著的提高。

為了將自學習和復制粘貼相結合,我們首先使用一個經過復制粘貼訓練的有監督的教師模型來生成未標記數據的偽標簽。接下來我們從COCO中提取地面真值對象,并將它們粘貼到偽標記圖像和COCO圖像中。最后,我們在所有這些圖像上訓練學生模型。通過這種設置,我們實現了51.4箱AP,比基線提高了2.9 AP。

要粘貼的數據。

在我們的自我訓練設置中,一半來自有監督的COCO數據(120k圖像),另一半來自偽標記數據(110k圖像來自未標記的COCO,610k圖像來自Objects365)。表3給出了在訓練圖像的不同部分粘貼COCO實例的結果。與粘貼到COCO相比,粘貼到偽標記數據會產生更大的改進。由于偽標記集中的圖像數量較大,因此使用變化較大的圖像作為背景有助于復制粘貼。當我們在COCO和偽標記圖像上粘貼COCO實例時,我們獲得了超過自訓練的最大增益(+1.4 box AP和+1.0 mask AP)。

表3.將地面真值COCO對象粘貼到COCO和偽標記數據中,與單獨粘貼兩者相比,可以獲得更高的收益。

要從中復制的數據。

我們還探索了另一種使用復制粘貼的方法,通過將未標記數據集中的偽標記對象直接粘貼到COCO標記數據集中來合并額外的數據。不幸的是,與粘貼COCO地面真實物體相比,這個設置沒有顯示出額外的AP改進。

4.5. 復制粘貼提高可可國家的最新水平

接下來我們研究復制粘貼是否可以改進COCO上最先進的實例分割方法。表4顯示了在一個強大的54.8盒AP COCO模型上應用復制粘貼的結果。此表旨在作為最先進性能的參考。3為了進行嚴格的比較,我們注意到模型需要使用相同的代碼庫、訓練數據和訓練設置進行評估,如學習率計劃、權重衰減、數據預處理和增強、參數和失敗控制,體系結構正則化[59]、訓練和推理速度等。該表的目標是顯示復制粘貼增強的好處及其自我訓練的附加增益。我們的基線模型是一個級聯掩碼RCNN,具有高效的ET-B7主干和NAS-FPN。我們觀察到使用拷貝粘貼時+1.2盒AP和+0.5掩模AP的改善。結合使用未標記COCO和未標記Objects365[48]進行偽標記的自我訓練,我們看到2.5 box AP和2.2 mask AP的進一步改進,在COCO test dev上獲得了57.3 box AP和49.1 mask AP的強大性能,而沒有增加測試時間和模型集成。

4.6. 復制粘貼為PASCAL檢測和分割生成更好的表示

前面我們已經演示了簡單的拷貝粘貼增強在實例分割上提供的改進的性能。在這一節中,我們研究了用COCO上的拷貝粘貼訓練的預先訓練的實例分割模型的遷移學習性能。我們在pascalvoc2007數據集上進行遷移學習實驗。表5顯示了在PASCAL檢測中,學習的復制粘貼模型與基線模型相比是如何傳遞的。表6給出了PASCAL語義切分的遷移學習結果。在PASCAL檢測和PASCAL語義切分兩方面,我們發現用拷貝粘貼轉移訓練的模型比基線模型更適合微調。

4.7. 復制粘貼在LVIS上提供了強大的收益

我們對LVIS數據集的Copy-Paste進行基準測試,以了解它在具有1203個類的長尾分布的數據集上的性能。LVIS基準通常使用兩種不同的訓練范式:(1)單階段,直接在LVIS數據集上訓練檢測器;(2)兩階段,第一階段的模型通過類重新平衡損失進行微調,以幫助處理類不平衡。

復制粘貼改善單階段LVIS訓練。

單階段訓練模式與COCO上的copyplaste設置非常相似。除了標準的培訓設置外,還使用了一些方法來處理LVIS上的班級不平衡問題。一種常用的方法是從[21]中重復因子抽樣(RFS),t=0.001。該方法通過對含有稀有類的圖像進行過采樣來解決LVIS上的大類不平衡問題。表8顯示了在強單階段LVIS基線上應用復制粘貼的結果。我們使用EfficientNet-B7 FPN和640×640輸入大小,使用256批大小隨機初始化180k步,從頭開始訓練模型。正如[21]所建議的,我們將每幅圖像的檢測次數增加到300次,并將分數閾值降低到0。我們觀察到,復制粘貼增強在AP、APc和APf上優于RFS,但在APr(稀有類的AP)上性能較差。最好的整體效果來自于結合RFS和拷貝粘貼增強,實現了+2.4ap和+8.7apr的提升。復制粘貼改善兩階段LVIS訓練。

兩階段訓練被廣泛采用來解決數據不平衡問題,并在LVIS上獲得良好的性能[37,45,54]。我們的目的是研究復制粘貼在這兩個階段的設置效果。我們的兩階段訓練如下:首先我們用標準的訓練技術訓練目標檢測器(即與我們的單階段訓練相同),然后我們使用類平衡損失對第一階段訓練的模型進行微調[8]。類的權重由(1)計算? β)/(1? β n) ,其中n是類的實例數β = 0.999. 4在第二階段微調中,我們用3× 計劃并僅使用分類損失更新Mask R-CNN中的最終分類層。從表9中的mask AP結果中,我們可以看到使用Copy-Paste訓練的模型對于低炮類學習更好的特性(APr為+2.3,APc為+2.6)。有趣的是,我們發現RFS在單階段訓練中是非常有用的,而且在兩階段訓練中,RFS與Copy-Paste是相加的。這一發現的一個可能解釋是,使用RFS學習的特征比使用原始LVIS數據集學習的特征更差。我們留下了一個更詳細的調查之間的權衡RFS和數據增強在兩個階段的培訓,為今后的工作。

與最新技術的比較。

此外,我們將我們的兩階段模型與表7中LVIS5的最新方法進行了比較。令人驚訝的是,我們最小的模型ResNet50 FPN,經過復制粘貼訓練,其性能優于ResNeXt-101-32的強基線cRT[33]×8d主干。

使用復制粘貼訓練的EfficientNetB7 NAS-FPN模型(不含級聯6)在整體掩模AP和無測試時間增加的盒AP上與LVIS challenge 2020優勝者的結果相當。此外,它實現了32.1面具4月為罕見的類別超過了3.6面具4月的LVIS挑戰獲勝條目。

5.結論

數據增強是許多視覺系統的核心。本文對復制粘貼數據增強方法進行了深入的研究,發現該方法具有很強的魯棒性和有效性。Copy-Paste在多個實驗設置中表現良好,并且在COCO和LVIS實例分割基準上提供了強大基線之上的顯著改進。復制粘貼增強策略簡單,易于插入任何實例分割代碼庫,且不增加訓練成本和推理時間。我們還表明,復制粘貼是有用的,納入額外的未標記的圖像在訓練過程中,是加上成功的自我訓練技術。我們希望,令人信服的經驗證據,其好處,使復制粘貼增強的標準增強程序時,訓練實例分割模型。

A.復制粘貼法

在本節中,我們將介紹復制粘貼方法的燒蝕。我們采用掩模R-CNN高效ETB7 FPN結構,圖像尺寸為640×我們的實驗需要640美元。

粘貼對象的子集。

在我們的方法中,我們將對象的隨機子集從一個圖像粘貼到另一個圖像上。表10顯示,雖然我們只將一個隨機對象或一幅圖像的所有對象粘貼到另一幅圖像中得到了改進,但通過粘貼對象的隨機子集,我們得到了最好的改進。這表明粘貼對象子集所引入的隨機性是有幫助的。

混合。

在我們的實驗中,我們使用alpha混合平滑粘貼對象的邊緣(見第3節)。表10表明,這不是一個重要的步驟,我們在沒有任何混合的情況下得到相同的結果,而[13]發現混合對于強大的性能至關重要。

縮放抖動。

在這項工作中,我們展示了通過結合大規模抖動和復制粘貼,我們比標準規模抖動的基線得到了顯著的改進(圖1)。在復制粘貼方法中,我們對粘貼的圖像(粘貼對象從中復制的圖像)和主圖像應用獨立的隨機比例抖動。在表11中,我們研究了主圖像和粘貼圖像上大尺度抖動的重要性。從表11可以看出,大尺度抖動帶來的大部分改進來自于對主圖像的應用,而增加粘貼圖像的尺度抖動范圍只得到了輕微的改進(0.3框AP和0.2掩模AP)

B.復制粘貼提供了更困難的椰子類增益

圖6顯示了在COCO數據集上應用復制粘貼獲得的每個類別的相對AP增益。CopyPaste提高了除吹風機以外所有課程的AP。在圖6中,類是基于每個類別的基線AP進行排序的。可以看到,大多數改進最大的類都在左側(較低的基線AP),這表明復制粘貼對最難的類幫助最大。

?著作權歸作者所有,轉載或內容合作請聯系作者
平臺聲明:文章內容(如有圖片或視頻亦包括在內)由作者上傳并發布,文章內容僅代表作者本人觀點,簡書系信息發布平臺,僅提供信息存儲服務。
  • 序言:七十年代末,一起剝皮案震驚了整個濱河市,隨后出現的幾起案子,更是在濱河造成了極大的恐慌,老刑警劉巖,帶你破解...
    沈念sama閱讀 228,606評論 6 533
  • 序言:濱河連續發生了三起死亡事件,死亡現場離奇詭異,居然都是意外死亡,警方通過查閱死者的電腦和手機,發現死者居然都...
    沈念sama閱讀 98,582評論 3 418
  • 文/潘曉璐 我一進店門,熙熙樓的掌柜王于貴愁眉苦臉地迎上來,“玉大人,你說我怎么就攤上這事。” “怎么了?”我有些...
    開封第一講書人閱讀 176,540評論 0 376
  • 文/不壞的土叔 我叫張陵,是天一觀的道長。 經常有香客問我,道長,這世上最難降的妖魔是什么? 我笑而不...
    開封第一講書人閱讀 63,028評論 1 314
  • 正文 為了忘掉前任,我火速辦了婚禮,結果婚禮上,老公的妹妹穿的比我還像新娘。我一直安慰自己,他們只是感情好,可當我...
    茶點故事閱讀 71,801評論 6 410
  • 文/花漫 我一把揭開白布。 她就那樣靜靜地躺著,像睡著了一般。 火紅的嫁衣襯著肌膚如雪。 梳的紋絲不亂的頭發上,一...
    開封第一講書人閱讀 55,223評論 1 324
  • 那天,我揣著相機與錄音,去河邊找鬼。 笑死,一個胖子當著我的面吹牛,可吹牛的內容都是我干的。 我是一名探鬼主播,決...
    沈念sama閱讀 43,294評論 3 442
  • 文/蒼蘭香墨 我猛地睜開眼,長吁一口氣:“原來是場噩夢啊……” “哼!你這毒婦竟也來了?” 一聲冷哼從身側響起,我...
    開封第一講書人閱讀 42,442評論 0 289
  • 序言:老撾萬榮一對情侶失蹤,失蹤者是張志新(化名)和其女友劉穎,沒想到半個月后,有當地人在樹林里發現了一具尸體,經...
    沈念sama閱讀 48,976評論 1 335
  • 正文 獨居荒郊野嶺守林人離奇死亡,尸身上長有42處帶血的膿包…… 初始之章·張勛 以下內容為張勛視角 年9月15日...
    茶點故事閱讀 40,800評論 3 354
  • 正文 我和宋清朗相戀三年,在試婚紗的時候發現自己被綠了。 大學時的朋友給我發了我未婚夫和他白月光在一起吃飯的照片。...
    茶點故事閱讀 42,996評論 1 369
  • 序言:一個原本活蹦亂跳的男人離奇死亡,死狀恐怖,靈堂內的尸體忽然破棺而出,到底是詐尸還是另有隱情,我是刑警寧澤,帶...
    沈念sama閱讀 38,543評論 5 360
  • 正文 年R本政府宣布,位于F島的核電站,受9級特大地震影響,放射性物質發生泄漏。R本人自食惡果不足惜,卻給世界環境...
    茶點故事閱讀 44,233評論 3 347
  • 文/蒙蒙 一、第九天 我趴在偏房一處隱蔽的房頂上張望。 院中可真熱鬧,春花似錦、人聲如沸。這莊子的主人今日做“春日...
    開封第一講書人閱讀 34,662評論 0 26
  • 文/蒼蘭香墨 我抬頭看了看天上的太陽。三九已至,卻和暖如春,著一層夾襖步出監牢的瞬間,已是汗流浹背。 一陣腳步聲響...
    開封第一講書人閱讀 35,926評論 1 286
  • 我被黑心中介騙來泰國打工, 沒想到剛下飛機就差點兒被人妖公主榨干…… 1. 我叫王不留,地道東北人。 一個月前我還...
    沈念sama閱讀 51,702評論 3 392
  • 正文 我出身青樓,卻偏偏與公主長得像,于是被迫代替她去往敵國和親。 傳聞我的和親對象是個殘疾皇子,可洞房花燭夜當晚...
    茶點故事閱讀 47,991評論 2 374

推薦閱讀更多精彩內容