愛可可老師7月到9月的推薦(不包括MLPs和Vision Transformers,這兩類單獨一個專題)
Effective gene expression prediction from sequence by integrating long-range interactions
Z Avsec, V Agarwal, D Visentin, JR Ledsam...
[DeepMind]
基于長程交互整合的序列基因表達有效預測。非編碼DNA如何決定不同類型細胞的基因表達是一個尚未解決的主要問題,人類遺傳學的關鍵下游應用取決于改進的解決方案。本文通過使用一種稱為Enformer的深度學習架構,整合基因組中的長程交互(長達100kb)信息,大幅提高DNA序列基因表達預測精度。這一改進產生了對通過大規模平行報告測定的自然遺傳變體和飽和突變基因表達的更準確的變體效應預測。此外,Enformer學會了直接從DNA序列中預測增強子-促進子的交互,與直接將實驗數據作為輸入的方法相比具有競爭力。預計這些進展將使人類疾病關聯的精細測繪更加有效,并提供一個框架來解釋順式調控進化。
Exploring the Limits of Large Scale Pre-training
大規模預訓練局限性探索
S Abnar, M Dehghani, B Neyshabur, H Sedghi
[Google Research]
Do Self-Supervised and Supervised Methods Learn Similar Visual Representations?
T G Grigg, D Busbridge, J Ramapuram, R Webb
[Apple]
自監督和監督方法學到的視覺表示是否類似?盡管最近一些視覺自監督深度學習的技術取得了成功,但對最終學到的表示的研究仍然有限。通過利用最近在比較神經表示方面的進展,本文在這個方向上進行了探索,在一個共同的架構中,對簡單的圖像數據的約束性SSL算法(SimCLR)和監督進行比較。發現這兩種方法通過不同的方式學習相似的中間表示,并且表示在最后幾層迅速發散。對這種分歧進行了研究,發現它是由這些層對不同的學習目標的強烈反應造成的。SimCLR的目標隱含了中間層的監督目標,但反過來卻不是這樣。SimCLR學習了增強不變性,與監督學習形成了鮮明的對比,監督學習則強烈地投射到類的單純性。這表明,不是解決SimCLR目標的最終表示結構的相似性促進了強大的經驗性能。相反,是中間表示的相似性,即沿途碰巧學到的類信息特征。本文工作特別強調了學習的中間表示的重要性,并提出了輔助任務設計的重要問題。
Stochastic Contrastive Learning
J Ramapuram, D BusBridge, X Suau, R Webb
[Apple]
隨機對比學習。雖然最先進的對比學習(Self-Supervised Learning,SSL)模型產生的結果與有監督的同類模型相比具有競爭力,但它們缺乏推斷潛變量的能力。相比之下,規定的潛變量(LV)模型能歸因于不確定性,誘發特定任務的壓縮,并在總體上允許更多的可解釋性表示。本文在大規模對比性SSL模型中引入了LV近似值。證明了這一補充可以提高下游性能(在CIFAR10和ImageNet上使用ResNet50的測試top-1微調性能分別達到96.42%和77.49),并產生高度壓縮的表示(減少588倍),對可解釋性、分類和回歸的下游任務很有用。
Localizing Objects with Self-Supervised Transformers and no Labels
O Siméoni, G Puy, H V. Vo, S Roburin, S Gidaris, A Bursuc, P Pérez, R Marlet, J Ponce
[Valeo.ai & Inria and DIENS]
自監督Transformer免標簽目標定位。在沒有監督的情況下對圖像集合中的物體進行定位,有助于避免昂貴的標注。本文為該問題提出一種簡單方法,利用以自監督方式預訓練的視覺Transformer的激活特征。所提出的方法LOST,不需要任何外部的候選目標,也不需要對圖像集進行任何探索;只對一張圖像進行操作。然而,在PASCAL VOC 2012上,所提出方法比最先進的目標發現方法多出了8個CorLoc點。在被發現的物體上訓練一個與類別無關的檢測器可以將結果再提高7分。在無監督目標發現任務上顯示了很好的結果。LOST發現的框具有很高的精度,可以作為偽真值來訓練一個類別診斷檢測器,從而進一步提高物體發現的性能。LOST框也可以用來訓練一個無監督目標檢測器,與弱監督的同類檢測器相比,在幾個類別中產生了有競爭力的結果。
CrossCLR: Cross-modal Contrastive Learning For Multi-modal Video Representations
M Zolfaghari, Y Zhu, P Gehler, T Brox
[University of Freiburg & Amazon]
CrossCLR:多模態視頻表示跨模態對比學習。對比學習能通過從負樣本集中對比出正配對來靈活定義強大的損失。最近,這一原則也被用于學習視頻和文本的跨模態嵌入,但沒有充分挖掘其潛力。特別是,之前的損失沒有考慮到模態內部的相似性,導致了低效的嵌入,因為同一內容被映射到嵌入空間的多個點。通過CrossCLR,提出一種對比性損失,解決了該問題。根據輸入嵌入定義了高度相關的樣本集,并將它們從負樣本中排除,以避免出現假陰性問題。這些原則能夠持續改善所學到嵌入的質量。用CrossCLR學習的聯合嵌入在Youcook2和LSMDC數據集的視頻文本檢索和Youcook2數據集的視頻字幕方面的技術水平有了很大提高。還通過為其他模式對學習改進的聯合嵌入來證明這一概念的通用性。
PP-LCNet: A Lightweight CPU Convolutional Neural Network
PP-LCNet:輕量CPU卷積神經網絡
A Comprehensive Survey and Performance Analysis of Activation Functions in Deep Learning
S R Dubey, S K Singh, B B Chaudhuri
[Indian Institute of Information Technology & Indian Statistical Institute]
深度學習激活函數全面綜述與性能分析。近年來,神經網絡在解決眾多問題方面有了巨大的發展。各種類型的神經網絡已被引入以處理不同類型的問題。然而,所有神經網絡的主要目標都是利用層的層次結構將非線性可分的輸入數據轉化為更線性可分的抽象特征。這些層是線性和非線性函數的組合。最流行和常見的非線性層是激活函數(AF),如Logistic Sigmoid、Tanh、ReLU、ELU、Swish和Mish。本文對深度學習的神經網絡中的激活函數做了全面的調研和總結。涵蓋了不同類別的激活函數,如基于Logistic Sigmoid和Tanh、基于ReLU、基于ELU和基于學習。還指出了激活函數的幾個特點,如輸出范圍、單調性和平滑性。在不同類型的數據上,對18種先進的激活函數技術與不同的網絡進行了性能比較。對激活函數的深入了解有助于研究人員做進一步的研究,也有助于從業人員做出不同的選擇。
VideoCLIP: Contrastive Pre-training for Zero-shot Video-Text Understanding
H Xu, G Ghosh, P Huang, D Okhonko, A Aghajanyan, F M L Z C Feichtenhofer
[Facebook AI]
VideoCLIP:面向零樣本視頻文本理解的對比預訓練。本文提出VideoCLIP,一種對比性方法,用于預訓練一個統一模型,用于零樣本視頻-文本理解,不使用下游任務的任何標簽。VideoCLIP通過對比時間上重疊的正面視頻-文本對和來自近鄰檢索的硬負面信息,為視頻和文本訓練一個transformer。在一系列不同的下游任務上進行了實驗,包括序列級文本-視頻檢索、VideoQA、標記級動作定位和動作分割,顯示了最先進的性能,超過了之前的工作,在某些情況下甚至超過了有監督方法。
MLIM: Vision-and-Language Model Pre-training with Masked Language and Image Modeling
T Arici, M S Seyfioglu, T Neiman, Y Xu, S Train, T Chilimbi, B Zeng, I Tutar
[Amazon.com Inc]
MLIM: 基于掩碼語言和圖像建模的視覺及語言模型預訓練。視覺及語言預訓練(VLP)提高了需要圖像和文本輸入的下游任務的模型性能。目前的VLP方法在(i)模型結構(尤其是圖像嵌入器)、(ii)損失函數和(iii)掩碼策略上有所不同。圖像嵌入器要么是像ResNet這樣的深度模型,要么是通過直接將圖像像素送入transformer實現的線性投影。通常,除了掩碼語言建模(MLM)損失外,基于對齊的目標用于跨模式的交互,以及RoI特征回歸和分類任務用于掩碼圖像區域建模(MIRM)。對齊和MIRM目標大多沒有真值。基于對齊的目標需要圖像和文本的配對以及啟發式的目標函數。MIRM依賴于目標檢測器。掩碼策略要么不利用多模態,要么與其他模型產生的對齊方式嚴格耦合。本文提出用于VLP的掩碼語言和圖像建模(MLIM),使用掩碼語言建模(MLM)損失和圖像重建(RECON)損失。提出了模態感知掩碼(MAM),以促進跨模態交互,并利用MLM和RECON損失,分別捕捉文本和圖像重建質量。使用MLM + RECON任務加上MAM,提出了一種簡化的VLP方法,并表明它在一個專有的電子商務多模態數據集上具有更好的下游任務性能。
CC-Cert: A Probabilistic Approach to Certify General Robustness of Neural Networks
CC-Cert:驗證神經網絡通用魯棒性的概率方法
Pitfalls in Machine Learning Research: Reexamining the Development Cycle
S Biderman, W J. Scheirer
[The AI Village]
機器學習研究的陷阱:重新審視開發周期。應用機器學習研究有可能推動數據科學的進一步發展,但由于臨時的設計過程、數據的骯臟凌亂以及模型評估中缺乏統計學的嚴謹性,都使其受到了極大的阻礙。最近,這些問題開始引起更多的關注,因為它們在研究和開發中引起了公共和尷尬的問題。根據作為機器學習研究人員的經驗,本文遵循應用機器學習的過程,從算法設計到數據收集再到模型評估,提請注意常見的陷阱并提供實用的改進建議。在每個步驟中,都引入了案例研究,以強調這些陷阱在實踐中是如何發生的,以及在哪些方面可以改進。
Learning Contrastive Representation for Semantic Correspondence
語義對應對比表示學習
T Xiao, S Liu, S D Mello, Z Yu, J Kautz, M Yang
[University of California, Merced & Nvidia]
An End-to-End Transformer Model for 3D Object Detection
I Misra, R Girdhar, A Joulin
[Facebook AI Research]
端到端Transformer模型3D目標檢測。本文提出了3DETR,一種基于3D點云的端到端Transformer的目標檢測模型。與現有檢測方法相比,3DETR需要對普通Transformer模塊進行最小的修改,這些方法采用了一些特定于3D的感應偏置。具有非參數查詢和傅里葉位置嵌入的標準Transformer與采用具有手工調整超參數的3D特定運算器庫的專門架構相比,具有競爭力。然而,3DETR在概念上很簡單,也很容易實現,能通過納入3D領域知識來進一步改進。通過廣泛實驗,發現3DETR在具有挑戰性的ScanNetV2數據集上的表現比成熟的、高度優化的VoteNet基線高出9.5%。此外,3DETR適用于檢測以外的3D任務,并可作為未來研究的基石。
Vision-and-Language or Vision-for-Language? On Cross-Modal Influence in Multimodal Transformers
S Frank, E Bugliarello, D Elliott
[University of Trento & University of Copenhagen]
Vision-and-Language還是Vision-for-Language?多模態轉換中的跨模態影響。預訓練的視覺語言BERT旨在學習結合兩種模態信息的表示。本文提出一種基于跨模態輸入消融的診斷方法,以評估這些模型實際整合跨模態信息的程度。這種方法包括完全或有選擇地消融一種模式的輸入,并對另一種模式的模型預測性能進行評估。模型的表現是由反映模型預訓練目標的特定模態任務來衡量的(例如文本的掩碼語言建模)。已經學會使用兩種模態構建跨模態表示的模型,預計在某一模態的輸入缺失時表現會更差。實驗發現,預訓練的視覺和語言模型具有不對稱性:對被掩碼的文本的預測受到消融的視覺輸入的強烈影響,而在預測被掩碼的圖像區域時,消融文本輸入(幾乎)沒有影響。這些結果與假設的平衡跨模態激活假設相悖,這些模型并非對稱的跨模態。
Bootstrapped Meta-Learning
S Flennerhag, Y Schroecker, T Zahavy, H v Hasselt, D Silver, S Singh
[DeepMind]
Bootstrapped元學習。元學習使AI能夠通過學習如何學習來提高其效率。釋放這種潛力需要克服一個具有挑戰性的元優化問題,該問題通常表現為條件不足和短視元目標。本文提出一種算法,通過讓元學習器自己教自己來解決這些問題。該算法首先從元學習器中bootstrap出一個目標,然后通過在一個選定的(偽)度量下最小化與該目標距離來優化元學習器。圍繞梯度元學習,建立了保證性能提高的條件,并表明這種提高與目標距離有關。因此,通過控制曲率,距離度量可被用來緩解元優化,例如通過減少不良條件。此外,bootstrapping機制可以擴展有效的元學習范圍,而不需要通過所有更新進行反向傳播。該算法具有通用性,易于實現。在Atari ALE基準上實現了無模型智能體的新技術水平,在少樣本學習中改進了MAML,并證明了該方法是如何通過在ε-貪婪的Q-學習智能體中進行元學習的有效探索來開辟新的可能性。
Data Efficient Masked Language Modeling for Vision and Language
面向視覺和語言的數據高效掩碼語言建模
Active label cleaning: Improving dataset quality under resource constraints
主動標簽清理:資源受限情況下改善數據集質量
Revisiting 3D ResNets for Video Recognition
再探3D ResNet視頻識別
Relating Graph Neural Networks to Structural Causal Models
M Ze?evi?, D S Dhami, P Veli?kovi?, K Kersting
[TU Darmstadt & DeepMind]
將圖神經網絡與結構因果模型相聯系。因果關系可用結構性因果模型(SCM)來描述,該模型承載了感興趣的變量及其機制關系的信息。對于大多數感興趣的過程,基本的SCM只能是部分可觀察的,因此,因果推理試圖利用任何暴露的信息。圖神經網絡(GNN)作為結構化輸入的通用近似器,為因果學習提供了一個可行的候選方案,可與SCM更緊密地結合。本文提出一個源自第一性原理的理論分析,在GNN和SCM之間建立了一個新的聯系,同時提供了一個關于一般神經-因果模型的擴展觀點。為基于GNN的因果推斷建立了一個新的模型類,對于因果效應的識別是必要和充分的。
The Power of Scale for Parameter-Efficient Prompt Tuning
B Lester, R Al-Rfou, N Constant
[Google Research]
參數高效的提示微調規?;牧α?。本文探索了"提示微調(prompt tuning)",一種簡單有效的機制,用于學習"軟提示(soft prompts)",以調節凍結的語言模型來執行特定的下游任務。與GPT-3使用的離散文本提示不同,軟提示通過反向傳播學習,并可進行微調,以納入來自任意數量標記樣本的信號。所提出的端到端學習方法,在很大程度上優于GPT-3的少樣本學習。通過使用T5對模型規模的消減,表明了提示微調隨著規模的擴大而變得更有競爭力:當模型超過數十億個參數時,所提方法"縮小了差距",與模型微調(所有模型權重都被微調)的強大性能相匹配。這一發現尤其重要,因為大型模型的共享和服務成本很高,而為多個下游任務重用一個凍結模型的能力可以減輕這一負擔。該方法可看作是最近提出的"前綴微調"的簡化。用軟提示來微調凍結的模型,在領域遷移的魯棒性方面有好處,并能實現有效的 "提示集成"。
In this work, we explore “prompt tuning,” a simple yet effective mechanism for learning “soft prompts” to condition frozen language models to perform specific downstream tasks. Unlike the discrete text prompts used by GPT-3, soft prompts are learned through backpropagation and can be tuned to incorporate signals from any number of labeled examples. Our end-to-end learned approach outperforms GPT-3’s few-shot learning by a large margin. More remarkably, through ablations on model size using T5, we show that prompt tuning becomes more competitive with scale: as models exceed billions of parameters, our method “closes the gap” and matches the strong performance of model tuning (where all model weights are tuned). This finding is especially relevant because large models are costly to share and serve and the ability to reuse one frozen model for multiple downstream tasks can ease this burden. Our method can be seen as a simplification of the recently proposed “prefix tuning” of Li and Liang (2021) and we provide a comparison to this and other similar approaches. Finally, we show that conditioning a frozen model with soft prompts confers benefits in robustness to domain transfer and enables efficient “prompt ensembling.”
Adapting Language Models for Zero-shot Learning by Meta-tuning on Dataset and Prompt Collections
R Zhong, K Lee, Z Zhang, D Klein
[UC Berkeley]
基于數據集和提示集元微調的零樣本學習語言模型自適應。大型預訓練語言模型(LM),如GPT-3,已經獲得了令人驚訝的能力,可以進行零樣本學習。例如,為了在沒有任何訓練樣本的情況下進行情感分類,可以用評論和標簽描述"用戶喜歡這部電影嗎?"來"提示"語言模型,并詢問下一個詞是"是"還是"不是"。然而,下一個詞的預測訓練目標仍然與目標的零樣本學習目標不一致。為解決這個弱點,本文提出元微調,通過在一系列數據集上對預訓練語言模型進行微調,直接優化零樣本學習目標。本文專注于分類任務,通過聚合43個現有的數據集和以問答(QA)格式標注441個標簽描述來構建元數據集。當對未見過任務進行評估時,元微調模型表現優于相同大小的QA模型和以前基于自然語言推理的SOTA零樣本學習系統。此外,將參數數從220M增加到770M,AUC-ROC分數提高了6.3%,更大的模型應該會表現得更好。衡量語言模型開箱即用的零樣本學習性能可能會低估它們的真正潛力,而整個社區在聚合數據集和統一格式方面的努力可以幫助建立能更好回答提示的模型。
SLIDE: Single Image 3D Photography with Soft Layering and Depth-aware Inpainting(重點)
V Jampani, H Chang, K Sargent, A Kar, R Tucker, M Krainin, D Kaeser, W T. Freeman, D Salesin, B Curless, C Liu
[Google]
SLIDE:基于軟分層和深度感知補全的單圖像3D攝影。單一圖像3D攝影使觀眾能從新的視角觀看靜止圖像。最近的方法將單目深度網絡與繪畫網絡結合起來,以達到引人注目的效果。這些技術的一個缺點是使用硬的深度分層,使得它們無法對復雜的外觀細節進行建模,如薄的頭發狀結構。本文提出SLIDE,一種用于單圖像3D攝影的模塊化統一系統,用簡單有效的軟分層策略,以更好地保留新視角中的外觀細節。為繪畫模塊提出了一種新的深度感知訓練策略,更適合于3D攝影任務。由此產生的SLIDE方法是模塊化的,能使用其他組件,如分割和消光來改進分層。同時,SLIDE使用高效的分層深度公式,只需要通過組件網絡的一次前向傳遞就能產生高質量的3D攝影。對三個視圖合成數據集的廣泛實驗分析,以及對真實場景圖像集的用戶研究,證明了該技術與現有的強大基線相比具有卓越的性能,同時在概念上要簡單得多。
Digging into Uncertainty in Self-supervised Multi-view Stereo
自監督多視立體視覺不確定性挖掘
An Empirical Study of Graph Contrastive Learning
圖對比學習實證研究
Train Short, Test Long: Attention with Linear Biases Enables Input Length Extrapolation
短訓練,長測試:基于線性偏差注意力的輸入長度外推
NerfingMVS: Guided Optimization of Neural Radiance Fields for Indoor Multi-view Stereo
Y Wei, S Liu, Y Rao, W Zhao, J Lu, J Zhou
[Tsinghua University]
NerfingMVS:面向室內多視立體視覺的神經輻射場指導優化。本文提出一種新的多視圖深度估計方法,利用傳統SfM重建和基于學習的先驗,對最近提出的神經輻射場(NeRF)進行了優化。與現有的基于神經網絡的優化方法不同的是,該方法直接對隱性體進行優化,消除了在室內場景中匹配像素的挑戰性步驟。關鍵是利用基于學習的先驗因素來指導NeRF的優化過程。通過對其稀疏SfM重建進行微調將單目深度網絡適應目標場景,并表明NeRF的形狀-輻射模糊性在室內環境中仍然存在,提出通過用自適應的深度先驗來監測體渲染的采樣過程來解決該問題。通過對渲染圖像的誤差計算獲得的每像素置信圖進一步提高深度質量。實驗表明,所提出的框架在室內場景中的表現明顯優于最先進方法,在基于對應關系的優化和基于NeRF的優化對適應的深度先驗的有效性方面有驚人的發現。指導優化方案不會犧牲神經輻射場的原始合成能力,從而提高了在已見和新的視圖上的渲染質量。
Learning to Prompt for Vision-Language Models
K Zhou, J Yang, C C Loy, Z Liu
[Nanyang Technological University]
視覺語言模型提示學習。視覺語言預訓練最近作為一種有前途的替代方法出現在表示學習領域。它從使用圖像和離散標簽來學習一組固定權重(被視為視覺概念)的傳統范式轉變為將圖像和原始文本對齊兩個獨立的編碼器。這樣的范式得益于更廣泛的監督源,并允許零樣本遷移到下游任務,因為視覺概念可以直接從自然語言中生成,即所謂的提示(prompt)。本文發現在實踐中部署這種模型的一個主要挑戰是提示工程。這是因為設計一個適當的提示,特別是圍繞著一個類名的上下文詞,需要領域的專業知識,并且通常需要大量的時間來進行詞的調整,因為措辭的輕微變化可能對性能產生巨大的影響。此外,不同的下游任務需要特定的設計,進一步阻礙了部署的效率。為克服這一挑戰,本文提出一種名為上下文優化(CoOp)的新方法。其主要思想是在提示中使用連續的表示對上下文進行建模,并從數據中進行端到端的學習,同時保持預訓練的參數固定。通過這種方式,任務相關提示的設計可以完全自動化。在11個數據集上的實驗表明,CoOp有效地將預訓練好的視覺語言模型變成了具有數據效率的視覺學習者,只需要一兩個樣本就能以相當大的幅度擊敗手工生成的提示,在使用更多樣本時能夠獲得顯著的改進(例如,在16個樣本時,平均收益約為17%,最高達到50%以上)。CoOp還表現出對分布遷移的強大魯棒性。
Spatio-Temporal Graph Contrastive Learning
X Liu, Y Liang, Y Zheng, B Hooi, R Zimmermann
[National University of Singapore & JD Tech]
時空圖對比學習。深度學習模型是用于時空圖(STG)預測的現代工具。盡管它們很有效,但需要大規模數據集來實現更好的性能,并且容易受到噪聲擾動的影響。為緩解這些限制,一個直觀的想法是使用流行的數據增強和對比學習技術。然而,由于三個原因,現有的圖對比學習方法不能直接應用于STG預測。首先,從經驗上發現,預測任務無法從對比學習得出的預訓練表示中獲益。第二,用于消除噪聲的數據增強對STG數據的探索較少。第三,樣本的語義相似性被忽略了。本文提出一種空間-時間圖對比學習框架(STGCL)來解決這些問題。通過將預測損失與輔助對比損失相結合來提高性能,而不是用預訓練的范式。闡述了四種類型的數據增強,在圖結構、時域和頻域方面干擾數據。通過一個基于規則的策略擴展了經典的對比損失,過濾掉語義上最相似的否定詞。該框架在三個真實世界的數據集和四個最先進的模型上進行了評估。一致的改進表明,STGCL可以作為現有深度模型的現成插件使用。
Self-Calibrating Neural Radiance Fields
Y Jeong, S Ahn, C Choy, A Anandkumar, M Cho, J Park
[POSTECH & NVIDIA]
自校準神經輻射場。本文為具有任意非線性畸變的通用相機提出一種相機自校準算法。聯合學習場景的幾何形狀和準確的相機參數,不需要任何校準對象。該相機模型由針孔模型、四階徑向畸變和通用噪聲模型組成,可學習任意的非線性相機畸變。傳統的自校準算法大多依賴于幾何約束,本文加入了光度測量一致性,用神經輻射場(NeRF)學習場景的幾何形狀。提出一種新的幾何損失函數,投影射線距離損失,以納入復雜的非線性相機模型的幾何一致性。在標準的真實圖像數據集上驗證了提出的方法,并證明該模型可從頭學習相機的內涵和外延(姿態),而不需要COLMAP初始化。以可微的方式學習準確的相機模型,使我們能比基線提高PSNR。所提出模塊是一個易于使用的插件,可應用于NeRF變體以提高性能。
ScatSimCLR: self-supervised contrastive learning with pretext task regularization for small-scale datasets
V Kinakh, O Taran, S Voloshynovskiy
[University of Geneva]
ScatSimCLR:小規模數據集的自監督對比學習與前置任務正則化。本文考慮一個基于數據多視圖間對比損失的小規模數據集自監督學習問題,在分類任務中展示了最先進的性能。盡管有報告的結果,但諸如需要復雜架構的訓練的復雜性、由數據增強產生的所需的視圖數量,以及它們對分類準確性的影響等因素都是未研究的問題。為確定這些因素的作用,本文考慮一個對比損失系統架構SimCLR,其中基線模型被幾何不變的"手工"網絡ScatNet和小型可訓練的適配器網絡取代,并認為整個系統的參數數量和視圖數量可大大減少,同時實際上保持了相同的分類精度。研究了正則化策略的影響,該策略使用了基于對傳統基線模型和基于ScatNet模型的旋轉和拼圖排列等增強變換參數的估計的前置任務學習。證明了所提出的帶有前置任務學習正則化的架構在可訓練參數數量較少和視圖數量減少的情況下達到了最先進的分類性能。
SemIE: Semantically-aware Image Extrapolation
SemIE:語義感知圖像外推
B Khurana, S R Dash, A Bhatia, A Mahapatra, H Singh, K Kulkarni
[IIT Kanpur & Adobe Research India]
Differentiable Prompt Makes Pre-trained Language Models Better Few-shot Learners
基于可微提示改進預訓練語言模型少樣本學習
ISNet: Integrate Image-Level and Semantic-Level Context for Semantic Segmentation
ISNet:整合圖像級和語義級上下文的語義分割
SimVLM: Simple Visual Language Model Pretraining with Weak Supervision
Z Wang, J Yu, A W Yu, Z Dai, Y Tsvetkov, Y Cao
[CMU & Google Research & University of Washington]
SimVLM:弱監督簡單視覺語言模型預訓練。隨著最近在視覺和文本表示聯合建模方面的進展,視覺語言預訓練(VLP)在許多多模態下游任務上取得了令人印象深刻的性能。然而,對昂貴的標注(包括干凈的圖像說明和區域標簽)的要求限制了現有方法的可擴展性,并且由于引入了多個特定的數據集目標,使預訓練程序變得復雜。本文放寬了這些限制,提出一種最小化的預訓練框架——簡單視覺語言模型(SimVLM)。與之前工作不同,SimVLM通過利用大規模弱監督來降低訓練的復雜度,通過單一前綴語言建模目標進行端到端訓練。在不利用額外數據或特定任務定制的情況下,所產生模型明顯優于之前的預訓練方法,并在廣泛的鑒別性和生成性視覺語言基準上取得了新的最先進結果,包括VQA(+3.74% vqa-core)、NLVR2(+1.17%精度)、SNLI-VE(+1.37%精度)和圖像描述任務(+10.1%平均CIDEr得分)。證明了SimVLM獲得了強大的泛化和遷移能力,能實現包括開放式視覺問答和跨模式遷移在內的零樣本行為。
Bag of Tricks for Training Deeper Graph Neural Networks: A Comprehensive Benchmark Study
深度圖神經網絡訓練技巧集:綜合基準研究
Generalize then Adapt: Source-Free Domain Adaptive Semantic Segmentation
J N Kundu, A Kulkarni, A Singh, V Jampani, R. V Babu
[Indian Institute of Science & Google Research]
先泛化再適應:無源域自適應語義分割。無監督域自適應(DA)在語義分割領域獲得了廣泛關注。然而,幾乎所有值錢的工作都假定同時訪問標記的源和未標記的目標,這使得它們不適合要求無源自適應的場景。本文通過將任務劃分為兩部分來實現無源DA:a)純源域泛化 和b)無源目標自適應。對于前者,本文提供了理論上的見解,開發了一個多頭框架,用虛擬擴展的多源數據集進行訓練,目的是平衡泛化和特定性。對于后者,利用多頭框架來提取可靠的目標偽標簽進行自訓練。引入了一個新的條件先驗強制自編碼器,阻止了空間不規則性,從而提高了偽標簽的質量。
Robust High-Resolution Video Matting with Temporal Guidance
S Lin, L Yang, I Saleemi, S Sengupta
[University of Washington & ByteDance Inc]
基于時間指導的魯棒高分辨率視頻摳圖。本文提出一種強大的實時高分辨率人像視頻摳圖方法,實現了新的最先進性能。該方法比之前方法要輕量得多,可以在Nvidia GTX 1080Ti GPU上以76 FPS的速度處理4K視頻、以104 FPS的速度處理高清視頻。與大多數現有將視頻逐幀作為獨立圖像進行摳圖處理的方法不同,所提方法用遞歸架構利用視頻中的時間信息,在時間一致性和摳圖質量方面取得了重大改進。提出了一種新的訓練策略,使網絡在摳圖和分割目標上都得到加強,大大提高了所提出模型的魯棒性。該方法不需要任何輔助輸入,可廣泛應用于現有的人物摳圖應用。
Shifted Chunk Transformer for Spatio-Temporal Representational Learning
基于移位塊Transformer的時空表示學習
YOLOP: You Only Look Once for Panoptic Driving Perception
D Wu, M Liao, W Zhang, X Wang
[Huazhong University Of Science And Technology]
YOLOP:YOLO全景駕駛感知。全景駕駛感知系統是自動駕駛的一個重要組成部分。一個高精度和實時的感知系統可以幫助車輛在行駛中做出合理的決策。本文提出了一種全景駕駛感知網絡(YOLOP),可以同時進行交通目標檢測、可駕駛區域分割和車道檢測。YOLOP由一個用于特征提取的編碼器和三個用于處理具體任務的解碼器組成。該模型在挑戰性的BDD100K數據集上表現非常好,在所有三個任務的精度和速度方面都達到了最先進的水平。通過消融研究驗證了多任務學習模型對聯合訓練的有效性。這是第一個能在嵌入式設備Jetson TX2(23 FPS)上同時實時處理這三個視覺感知任務并保持優秀精度的工作,確保了該網絡可以在現實世界的場景中使用。
Conditional DETR for Fast Training Convergence
D Meng, X Chen, Z Fan, G Zeng, H Li, Y Yuan, L Sun, J Wang
[University of Science and Technology of China & Peking University & Microsoft Research Asia]
基于條件DETR的訓練快速收斂。最近提出的DETR方法將Transformer編碼器和解碼器結構應用于目標檢測,實現了良好的性能。本文考慮一個關鍵問題,即緩慢的訓練收斂,提出一種用于快速DETR訓練的條件性交叉注意力機制DETR,其關鍵是要從相應的參考點和解碼器嵌入中學習一個空間查詢。空間查詢包含在前一個解碼器層中為類和框預測而挖掘的空間信息,并導致空間注意力權重圖,縮小了內容查詢定位不同區域的空間范圍,從而放松了對內容查詢的依賴,降低了訓練難度。經驗結果表明,條件DETR對于骨干R50和R101的收斂速度快6.7倍,對于更強的骨干DC5-R50和DC5-R101快10倍。
TOOD: Task-aligned One-stage Object Detection
C Feng, Y Zhong, Y Gao, M R. Scott, W Huang
[Intellifusion Inc & Meituan Inc & ByteDance Inc & Malong LLC & Alibaba Group]
TOOD:任務對齊的單階段目標檢測。單階段目標檢測通常通過優化兩個子任務來實現:目標分類和定位,用具有兩個平行分支的頭,可能導致兩個任務之間的預測出現一定程度的空間錯位。本文提出了一種任務對齊的單階段目標檢測(TOOD),以一種基于學習的方式明確對齊這兩個任務。設計了一個新的任務對齊頭(T-Head),在學習任務交互特征和特定任務特征之間提供了更好的平衡,以及通過任務對齊預測器學習對齊的更大靈活性。提出了任務對齊學習(TAL),通過設計的樣本分配方案和任務對齊的損失,在訓練期間明確地拉近(甚至統一)兩個任務的最佳錨點。在MS-COCO上進行了廣泛的實驗,其中TOOD在單模型單規模測試中取得了51.1的AP,大大超過了最新的單級檢測器,而參數和FLOPs更少。定性結果也證明了TOOD對于更好地調整目標分類和定位任務的有效性。
Learning to Match Features with Seeded Graph Matching Network
基于種子圖匹配網絡的特征匹配學習
MicroNet: Improving Image Recognition with Extremely Low FLOPs
MicroNet:極低FLOPs下的圖像識別改善
Learning Open-World Object Proposals without Learning to Classify
D Kim, T Lin, A Angelova, I S Kweon, W Kuo
[KAIST & Google Brain]
無需分類的開放世界候選目標建議學習。候選目標建議(Object Proposals, OP)已經成為許多視覺管線中不可或缺的預處理步驟,包括目標檢測、弱監督檢測、目標發現、跟蹤等。由于人們對目標檢測的興趣越來越大,與非學習方法相比,基于學習的OP最近變得很流行。常見的范式是,從標有一組物體區域及其相應類別的數據中學習OP。然而,這種方法往往在處理開放世界中不存在于訓練集中的新目標時很吃力。本文發現問題在于現有OP方法中的二元分類器傾向于過擬合訓練類。因此,本文提出一種無需分類的目標定位網絡(OLN),單純通過一個區域的位置和形狀與任意已知真實物體(如centerness和IoU)的重疊程度來估計每個區域的目標性。該簡單策略學習了可泛化的目標性,并在COCO上的跨類別泛化方面優于現有的OP方法,在RoboNet、Object365和EpicKitchens上的跨數據集評估方面也是如此。通過實驗證明了OLN在大詞表數據集LVIS上進行長尾目標檢測的優點,在罕見和常見類別中都有明顯改進。
Solo-learn: A Library of Self-supervised Methods for Visual Representation Learning
SOTR: Segmenting Objects with Transformers
SOTR:基于Transformers的目標分割
Billion-Scale Pretraining with Vision Transformers for Multi-Task Visual Representations
多任務視覺表示的十億級視覺Transformer預處理
Instance-wise Hard Negative Example Generation for Contrastive Learning in Unpaired Image-to-Image Translation
W Wang, W Zhou, J Bao, D Chen, H Li
[University of Science and Technology of China (USTC) & Microsoft Research Asia]
未配對圖像到圖像變換中的逐實例硬負樣本生成對比學習。對比學習在非配對圖像到圖像變換中顯示出巨大潛力,但有時變換的結果質量很差,內容也沒有得到一致的保留。負樣本在圖像變換對比學習中起著關鍵作用。之前方法中的負樣本是從源圖像中不同位置的圖塊中隨機抽取的,并不能有效地將正樣本推到查詢樣本附近。為解決該問題,本文提出在非配對圖像-圖像變換中用于對比性學習的逐實例硬負樣本生成(NEGCUT),以挖掘具有挑戰性的負樣本。框架中的兩個組成部分,即編碼器網絡和負樣本生成器,被交替更新,以學習區別性的表示來區分正樣本和生成的硬負樣本。訓練的生成器用來在線生成負樣本,該生成器:1)是逐實例的,意味著生成的樣本是基于輸入圖像的;2)可以生成硬負樣本,因為它是用對抗性損失訓練的。使用該生成器,非配對圖像-圖像變換的性能得到了顯著提高。在三個基準數據集上的實驗表明,與之前的方法相比,擬議的NEGCUT框架實現了最先進的性能,顯示了源圖像和生成圖像之間更好的對應關系。
Paint Transformer: Feed Forward Neural Painting with Stroke Prediction(重點,ICCV2021Oral,有開源)
S Liu, T Lin, D He, F Li, R Deng, X Li, E Ding, H Wang
[Baidu Inc & Rutgers University]
繪畫Transformer:基于筆畫預測的前饋神經繪畫。神經繪畫指的是為給定的圖像產生一系列筆畫,并用神經網絡進行非照片式的真實再現的程序。雖然基于強化學習的智能體可以為該任務一步步生成筆畫序列,但要訓練一個穩定的強化學習智能體并不容易。另一方面,筆畫優化方法在一個大的搜索空間中反復搜索一組筆畫參數;這種低效率大大限制了它們的普遍性和實用性。與之前方法不同,本文將任務表述為一個集合預測問題,提出一種新的基于Transformer的框架Paint Transformer,用前饋網絡預測筆畫集合的參數。該模型可并行生成一組筆畫,并在接近實時的情況下獲得大小為512*512的最終繪畫。由于沒有可用的數據集來訓練繪畫Transformer,設計了一個自訓練管道,可以在沒有任何現成數據集的情況下進行訓練,同時還能實現出色的泛化能力。實驗表明,與先進的方法相比,該模型可以在藝術抽象性和真實性之間產生更好的折衷,同時保持高效率。
Impact of Aliasing on Generalization in Deep Convolutional Networks
C Vasconcelos, H Larochelle, V Dumoulin, R Romijnders, N L Roux, R Goroshin
[Google Research & Mila]
深度卷積網絡中混疊對泛化的影響。本文研究了混疊對深度卷積網絡泛化的影響,由于廣泛使用架構的結構限制,僅靠數據增強方案無法防止混疊的產生。本文從頻率分析理論中得到啟發,仔細研究了ResNet和EfficientNet架構,并回顧了它們每個主要部分的混疊和信息損失之間的權衡。展示了如何通過在關鍵位置插入非訓練的低通濾波器來緩解混疊,特別是在網絡缺乏學習能力的地方。這些簡單的結構變化導致了泛化性的大幅改善,甚至在分布外的條件下有更大的改善,例如在ImageNet-C的自然損壞下的圖像分類和在Meta-Dataset的少樣本學習。在這兩個數據集上,無需引入額外的可訓練參數并使用開源代碼庫的默認超參數,就能取得最先進的結果。
Single-image Full-body Human Relighting
單幅圖像人體全身重打光
How to avoid machine learning pitfalls: a guide for academic researchers
M A. Lones
[Heriot-Watt University]
如何避免機器學習陷阱:學術研究人員指南。本文簡要介紹了使用機器學習技術時出現的一些常見錯誤,以及如何避免這些錯誤,主要是作為研究學生的指南,并側重于學術研究中特別關注的問題,例如需要進行嚴格的比較并得出有效結論。涵蓋了機器學習過程的五個階段:建立模型前要做什么,如何可靠地建立模型,如何魯棒地評估模型,如何公平地比較模型,以及如何報告結果。這里提到的一些東西可能是錯誤的,或者至少是可爭辯的,這恐怕就是研究的本質。如何做機器學習的理論幾乎總是滯后于實踐,學者們總是對做事的最佳方法有不同意見,我們今天認為正確的東西明天可能就不正確了。因此,你必須以對待任何其他方面研究的相同方式來對待機器學習:以開放的心態,愿意跟上最新的發展,并謙虛地接受所不知道的一切。
Video Contrastive Learning with Global Context
H Kuang, Y Zhu, Z Zhang, X Li, J Tighe, S Schwertfeger, C Stachniss, M Li
[University of Bonn & Amazon Web Services & ShanghaiTech University]
全局上下文視頻對比學習。對比學習已經徹底改變了自監督圖像表示學習領域,最近又被應用于視頻領域。對比學習的最大優勢之一,是允許靈活定義強大的損失目標,只要能找到一個合理的方法來制定正負樣本進行對比。然而,現有的方法,在很大程度上依賴于短程時空顯著性來形成片段級對比信號,限制了自身對全局上下文的使用。本文提出一種新的基于片段的視頻級對比學習方法來制定正向對。該表述能捕捉視頻中的全局上下文,對時間內容的變化具有魯棒性。還加入了一個時間順序正則化項,以強制執行視頻的固有順序結構。廣泛的實驗表明,所提出的視頻級對比學習框架(VCLR)在五個視頻數據集的下游動作分類、動作定位和視頻檢索方面優于之前的最先進技術。
Fast Convergence of DETR with Spatially Modulated Co-Attention
基于空間調制協同注意力的DETR快速收斂
On The State of Data In Computer Vision: Human Annotations Remain Indispensable for Developing Deep Learning Models
Z Emam, A Kondrich, S Harrison, F Lau, Y Wang, A Kim, E Branson
[Scale AI]
計算機視覺數據現狀綜述:開發深度學習模型人工標注仍然必不可少。高質量標注數據集在推動機器學習(ML)的發展,特別是深度學習(DL)的發展中起著關鍵作用。然而,自從2012年ImageNet數據集和AlexNet模型出現后,新的開源標注視覺數據集的規?;颈3植蛔?。在計算機視覺界,只有少數工作解決了比Imagenet大幾個數量級的數據集上的監督學習。本文調研了計算機視覺研究領域,在這些領域研究了大數據集對不同視覺任務的模型性能的影響。本文總結了社區目前對這些影響的理解,并強調了一些與海量數據集訓練有關的開放性問題。特別的,聚焦于 (a) 目前在計算機視覺研究中使用的最大的數據集,以及在這些數據集上訓練的有趣收獲;(b) 在大數據集上預訓練的有效性;(c) 合成數據集的最新進展和面臨的障礙;(d) 雙重下降和樣本非單調性現象的概述;最后,(e) 對終身/持續學習的簡要討論,以及它與在離線環境下從巨大標注數據集學習相比的表現??偟膩碚f,本文的發現是,關于深度學習的優化研究主要集中在完善訓練程序,從而使DL模型的數據饑渴度降低,而關于合成數據集的研究旨在抵消數據標注的成本。然而,就目前而言,獲得非合成標記的數據對于提升性能仍然是不可或缺的。
ProtoTransformer: A Meta-Learning Approach to Providing Student Feedback
ProtoTransformer:提供學生反饋的元學習方法
Open-World Entity Segmentation
L Qi, J Kuen, Y Wang, J Gu, H Zhao, Z Lin, P Torr, J Jia
[The Chinese University of Hong Kong & Adobe Research & University of Oxford]
開放世界實體分割。本文提出一個新的圖像分割任務——實體分割(ES),目的是在不考慮語義類別標簽的情況下,分割圖像中所有視覺實體,在圖像處理/編輯方面有許多實際應用,其中分割掩膜的質量通常很關鍵,但類別標簽卻不那么重要。在這種情況下,所有語義上有意義的片段,都被平等地視為無類別的實體,沒有事物與物品之間的區別?;诮y一的實體表示,提出了一個基于中心的實體分割框架,用兩個新模塊來提高掩膜質量。實驗表明,新任務和框架都顯示出與現有工作相比的優勢。ES能做到以下幾點:(1) 合并多個數據集以形成一個大的訓練集,無需解決標簽沖突;(2) 任何在一個數據集上訓練的模型都可以非常好地泛化到其他未見過領域的數據集。
Pre-train, Prompt, and Predict: A Systematic Survey of Prompting Methods in Natural Language Processing(重點)
P Liu, W Yuan, J Fu, Z Jiang, H Hayashi, G Neubig
[CMU & National University of Singapore]
預訓練、提示和預測:自然語言處理中提示方法的系統綜述。本文調研并組織了自然語言處理中的一個新范式的研究工作,稱為"基于提示的學習"。與傳統的監督學習不同,傳統的監督學習是訓練模型接受輸入x并預測輸出y,以P(y|x)的形式,基于提示的學習是基于語言模型,直接對文本概率進行建模。為了使用這些模型來執行預測任務,原始輸入x用模板修改成一個文本字符串提示x′,其中有一些未填充的槽,語言模型用來概率性地填充未填充的信息,得到最終字符串x?,從中可以得出最終的輸出y。由于以下原因,這個框架是強大和有吸引力的:它允許語言模型在大量原始文本上進行預訓練,并且通過定義一個新的提示函數,模型能進行少樣本甚至零樣本的學習,以適應只有少數或沒有標記數據的新場景。本文介紹了這種有前途的范式的基本原理,描述了一套統一的數學符號,可以涵蓋現有的各類工作,并沿著幾個維度組織現有的工作,如預訓練模型、提示和調整策略的選擇。
H3D-Net: Few-Shot High-Fidelity 3D Head Reconstruction
E Ramon, G Triginer, J Escur, A Pumarola, J Garcia, X Giro-i-Nieto, F Moreno-Noguer
[Crisalix SA & Universitat Politecnica de Catalunya & CSIC-UPC]
H3D-Net: 少樣本高保真3D頭部重建。最近,用基于坐標的神經表示隱性表示表面幾何的學習方法,在多視圖3D重建問題上顯示了令人印象深刻的結果。然而,這些技術的有效性受制于大量(幾十個)場景的輸入視圖的可用性,以及計算上的優化要求。本文為基于坐標的表示賦予概率形狀先驗,使其在使用少量輸入圖像(少于三張)時能更快地收斂和更好地泛化,來突破這些局限性,解決少樣本全3D頭部重建這一具體問題。提出H3D-Net,一種從帶有相關頭部掩膜和攝像機姿勢的小型真實場景圖像集進行高保真3D頭部重建的方法。首先,用隱性表示從數千張不完整的原始掃描圖像中學習3D頭部形狀模型。測試時,聯合將兩個基于坐標的神經網絡過擬合到場景,一個用于幾何建模,一個用于估計表面輻射,并使用隱性可微渲染。設計了一個兩階段的優化策略,在初始優化階段,學到的先驗被用來初始化和約束幾何。然后,先驗被解凍并根據場景進行微調。該方法實現了高保真的頭部重建,包括頭發和肩膀,具有很高的細節水平,在少樣本情況下總是優于最先進的3D可變形模型方法,在有大量視圖的情況下則優于非參數方法。所提出方法的一個局限性是,它仍然需要幾分鐘來生成三維重建。
DOVE: Learning Deformable 3D Objects by Watching Videos
S Wu, T Jakab, C Rupprecht, A Vedaldi
[University of Oxford]
DOVE:通過觀看視頻學習可變形3D物體。從2D圖像學習可變形3D物體是一個非常棘手的問題。現有方法依靠顯式的監督來建立多視圖的對應關系,如模板形狀模型和關鍵點標注,這限制了它們對"真實場景"物體的適用性。本文建議使用單目視頻,它自然地提供了跨時間的對應關系,能在沒有顯式關鍵點或模板形狀的情況下學習可變形物體類別的3D形狀。提出DOVE,可從鳥類單一2D圖像中學習預測3D典型形狀、變形、視角和紋理,給定鳥類視頻集以及自動獲得的剪影和光流作為訓練數據。該方法重建了時間上一致的3D形狀和變形,能從單一圖像的任意視角對鳥進行動畫和重新渲染。
Deep Learning on a Data Diet: Finding Important Examples Early in Training
M Paul, S Ganguli, G K Dziugaite
[Stanford University & Element AI]
深度學習數據"瘦身":在訓練早期找到重要樣本。最近深度學習的成功部分是由在越來越大的數據集上訓練越來越多的過參數化網絡所推動的。因此,我們很自然地會問:有多少數據是多余的,哪些樣本對歸納來說是重要的,以及我們如何找到它們?本文提出了一個特別的觀點:標準視覺基準單個訓練樣本的初始損失梯度范數,在幾次權重初始化取均值后,可用來識別對泛化很重要的較小的訓練數據集。此外,只需經過幾輪訓練,梯度范數中的信息就會反映在規范化誤差中——預測概率和獨熱標簽之間的L2距離——可用來裁剪數據集中很大一部分,而不犧牲測試精度。在此基礎上,提出了在訓練早期只用局部信息的數據修剪方法,并將其與最近的工作聯系起來,丟棄訓練過程中很少被遺忘的樣本來修剪數據。該方法還闡明了底層數據分布是如何形成訓練動態的:它們根據樣本對泛化的重要性進行排序,檢測含噪的樣本,并確定模型數據表示的子空間,這些子空間在訓練中是相對穩定的。
Understanding self-supervised Learning Dynamics without Contrastive Pairs
Y Tian, X Chen, S Ganguli
[Facebook AI Research]
理解沒有對比對的自監督學習動態。雖然自監督學習(SSL)的對比性方法通過最小化同一數據點的兩個增強視圖(正對)之間的距離和最大化不同數據點的視圖(負對)來學習表示,但最近的非對比性SSL(如BYOL和SimSiam),通過額外的可學習預測器和停止梯度操作,在沒有負對的情況下表現出了顯著的性能。一個基本問題出現了:為什么這些方法沒有坍縮成平凡表示?本文通過一個簡單的理論研究來回答這個問題,并提出一種新方法DirectPred,直接根據輸入的統計數據來設置線性預測器,而不需要梯度訓練。在ImageNet上,它的表現與采用BatchNorm的更復雜的兩層非線性預測器相當,在300輪的訓練中比線性預測器高出2.5%(在60輪中高出5%)。DirectPred是由對簡單線性網絡中非對比性SSL的非線性學習動態的理論研究所激發的。該研究產生了對非對比性SSL方法如何學習的概念性見解,它們如何避免表示坍縮,以及多種因素,如預測器網絡、停止梯度、指數移動平均線和權重衰減都是如何發揮作用的。
ReSSL: Relational Self-Supervised Learning with Weak Augmentation
ReSSL:弱增強的關系自監督學習
Open Problem: Is There an Online Learning Algorithm That Learns Whenever Online Learning Is Possible?
開放問題:有沒有一種在線學習算法只要在線學習有可能就會學習?
YOLOX: Exceeding YOLO Series in 2021
Z Ge, S Liu, F Wang, Z Li, J Sun
[Megvii Technology]
YOLOX:2021超越YOLO系列。本文提出對YOLO系列的一些經驗性的改進,形成了一個新的高性能檢測器——YOLOX。將YOLO檢測器切換到無錨方式,并采用其他先進的檢測技術,即解耦頭和先進的標簽分配策略SimOTA,在所有模型大小上,YOLOX在速度和精度之間實現了比其他同類模型更好的權衡,在大規模模型上實現了最先進的結果。對于只有0.91M參數和1.08G FLOPs的YOLONano,在COCO上得到25.3%的AP,超過NanoDet 1.8%的AP;對于YOLOv3,工業界最廣泛使用的檢測器之一,我們將其在COCO上提升到47.3% AP,比目前的最佳結果高出3.0% AP;而YOLOX-L,其參數數量與YOLOv4CSP、YOLOv5-L大致相同,在Tesla V100上以68.9 FPS的速度在COCO上實現了50.0%的AP,比YOLOv5-L超出1.8%的AP。此外,用單個YOLOX-L模型贏得了流感知挑戰賽(CVPR 2021自動駕駛Workshop)的第一名。
Graph Kernel Attention Transformers
K Choromanski, H Lin, H Chen, J Parker-Holder
[Google Brain Robotics & Columbia University & University of Oxford]
圖核注意力Transformer。本文提出一種新的圖神經網絡(GNN),結合了迄今為止單獨研究的幾個概念:圖核、具有結構先驗的基于注意力的網絡以及最近通過低秩分解技術小內存占用的隱性注意力方法的高效Transformer架構。本文的目標有兩方面,所提出的圖核注意力Transformer(或GKAT)比SOTA GNN的表現力要強得多,因為它能在單層內模擬較長距離的依賴關系??梢杂酶鼫\的架構設計。此外,GKAT注意力層在輸入圖的節點數量上是線性擴展,而不是二次擴展,即使這些圖是密集的,需要的計算量也比普通的圖注意力相對應的要少,通過應用新的圖核類來實現這一目標,允許通過圖上的隨機游走進行隨機特征圖的分解。作為所提出技術的副產品,得到了一類新的可學習的圖抽象,稱為graphot,緊湊地編碼了拓撲圖的屬性以及節點特征。對該方法與九種不同的GNN類進行了詳盡的實證比較,其任務范圍從主題檢測到社交網絡分類,再到生物信息學挑戰,顯示出GKAT帶來的一致收益。
R-Drop: Regularized Dropout for Neural Networks
R-Drop:神經網絡的正則化Dropout
Per-Pixel Classification is Not All You Need for Semantic Segmentation
B Cheng, A G. Schwing, A Kirillov
[Facebook AI Research (FAIR) & University of Illinois at Urbana-Champaign]
語義分割不必每像素分類?,F代方法通常將語義分割表述為每像素分類任務,而實例級分割則通過另一種掩碼分類來處理。掩碼分類具有足夠的通用性,可以用完全相同的模型、損失和訓練程序,以統一方式解決語義層面和實例層面的分割任務。提出了MaskFormer,一種簡單的掩碼分類模型,預測一組二進制掩碼,每個掩碼都與一個全局類標簽預測有關。所提出的基于掩碼分類的方法簡化了語義和全景分割任務的有效方法,并顯示了出色的經驗結果。當類的數量很大時,MaskFormer優于每像素分類基線。基于掩碼分類的方法優于目前最先進的語義(ADE20K上的55.6 mIoU)和全景分割(COCO上的52.7 PQ)模型。
The Evolution of Out-of-Distribution Robustness Throughout Fine-Tuning
A Andreassen, Y Bahri, B Neyshabur, R Roelofs
[Google Research]
微調過程中分布外魯棒性的演進。盡管機器學習模型在分布外數據上的性能通常會下降,但在對模型的測試平臺進行評估時,普遍觀察到分布外數據的準確性遵循某種單一的線性趨勢。相對于這個基線,在分布外數據上更準確的模型表現出"有效的魯棒性",而且非常罕見。識別這樣的模型,并了解它們的特性,是提高分布外性能的關鍵。本文對微調期間的有效魯棒性進行了徹底的實證調查,發現在較大的數據集上預訓練的模型在訓練期間表現出有效的魯棒性,但在收斂時卻消失了。研究了數據的屬性是如何影響有效魯棒性的,表明它隨著數據集的規模越大、多樣性越強、樣本難度越高而增加。顯示出有效魯棒性的模型能夠正確分類10%的樣本,而目前其他的測試平臺模型都沒有得到正確的分類。最后,討論了幾種將有效魯棒性擴展到高準確率體系的策略,以提高最先進模型的分布外準確率。
Collaboration of Experts: Achieving 80% Top-1 Accuracy on ImageNet with 100M FLOPs
Y Zhang, Z Chen, Z Zhong
[Huawei]
專家合作:用100M FLOPs在ImageNet上實現80%的Top-1準確率。本文提出一種專家協作(CoE)框架,將多個網絡的專業知識匯集到一起,實現一個共同目標。每個專家都是一個單獨的網絡,在數據集的一個獨特部分上有專長,這增強了協同能力。給定一個樣本,由委托人選擇一個專家,同時輸出一個粗預測,以支持早期終止。為了實現這個框架,提出了三個模塊來推動每個模型發揮其作用,即權重生成模塊(WGM)、標簽生成模塊(LGM)和方差計算模塊(VCM)。所提出方法在ImageNet上取得了最先進的性能,在194M FLOPs的情況下達到了80.7%的top-1精度。結合PWLU激活函數和CondConv,CoE首次在只有100M FLOPs的情況下進一步實現了80.0%的精度。該方法是硬件友好的,與現有的一些有條件計算方法相比,實現了3~6倍的速度提升。
Depth-supervised NeRF: Fewer Views and Faster Training for Free
K Deng, A Liu, J Zhu, D Ramanan
[CMU & Google]
深度監督NeRF:更少的視圖、更快的訓練。神經輻射場(NeRF)模型的一個常見失敗模式是,當給定的輸入視圖數量不足時,擬合出不正確的幾何。本文提出深度監督神經輻射場(DS-NeRF),一種用來學習神經輻射場的損失,利用了現成的深度監督。其關鍵是,稀疏的深度監督可以用來正則化學到的幾何,這是用NeRF有效渲染新視圖的一個關鍵組成部分。利用了這樣一個事實,即目前的NeRF管道需要具有已知攝像機位置的圖像,這些位置通常是通過運行從運動中獲得的結構(SFM)來估計的。最重要的是,SFM還能產生稀疏的三維點,在訓練過程中可作為"免費"的深度監督:只需添加一個損失,以確保沿與這些三維點相交的射線渲染的深度接近觀察到的深度。在較少的訓練視圖下,DS-NeRF可以渲染出更準確的圖像,同時訓練速度也提高了2-6倍。在真實世界的圖像上只有兩個訓練視圖的情況下,DS-NeRF明顯優于NeRF以及其他稀疏視圖的變體。所提出損失與這些NeRF模型兼容,證明深度是一個廉價且易用的監督信號。DS-NeRF支持其他類型的深度監督,如掃描的深度傳感器和RGBD重建輸出。
Predicting trends in the quality of state-of-the-art neural networks without access to training or testing data
C H. Martin, T (Serena)Peng, M W. Mahoney
[Calculation Consulting & UC Berkeley]
在無法獲得訓練數據或測試數據的情況下預測最先進神經網絡的質量趨勢。在許多應用中,人們使用由其他人訓練的神經網絡模型工作。對于這種預訓練的模型,使用者可能無法獲得訓練數據或測試數據,也不了解模型的細節,例如,訓練數據的具體情況、損失函數、超參數值等。考慮到一個或多個預訓練模型,對模型的預期性能或質量有所了解是個挑戰。本文通過對數百個公開可用的預訓練模型進行詳細的元分析來應對這一挑戰,研究了基于規范的能力控制指標,以及最近開發的重尾自正則化理論中基于冪律的指標,發現基于規范的指標與報告的經過良好訓練的模型的測試精度有很好的相關性,但它們往往不能區分訓練良好與訓練不足的模型;基于冪律的指標可以做得更好——在數值上可以更好地區分具有特定結構的一系列訓練良好的模型,在質量上可以更好地區分訓練良好和訓練不足的模型。這些方法可用于識別預訓練的神經網絡何時出現問題,而這些問題不能通過檢查訓練/測試準確率來檢測。
On Robustness and Transferability of Convolutional Neural Networks
J Djolonga, J Yung, M Tschannen, R Romijnders, L Beyer, A Kolesnikov, J Puigcerver, M Minderer, A D'Amour, D Moldovan, S Gelly, N Houlsby, X Zhai, M Lucic
[Google Research]
卷積神經網絡的魯棒性和可遷移性?,F代深度卷積網絡(CNN)經常被批評為在分布變化的情況下沒有泛化能力。然而,最近在遷移學習方面的一些突破表明,這些網絡可以應對嚴重的分布變化,并成功地適應來自少數訓練樣本的新任務。本文首次研究了現代圖像分類CNN的分布外和遷移性能之間的相互作用,并研究了預訓練數據大小、模型規模和數據預處理管道的影響。增加訓練集和模型規模能明顯改善分布遷移的魯棒性。預處理中的簡單變化,如修改圖像分辨率,在某些情況下可以大大緩解魯棒性問題。概述了現有魯棒性評估數據集的缺點,引入了一個合成數據集SI-SCORE,用它來系統分析視覺數據中常見的變化因素,如物體大小和位置。
Self-Damaging Contrastive Learning
自損式對比學習
Z Jiang, T Chen, B Mortazavi, Z Wang
Visual Conceptual Blending with Large-scale Language and Vision Models
基于大規模語言和視覺模型的視覺概念整合
S Ge, D Parikh
[University of Maryland & Facebook AI Research]