[CVPR2020]論文翻譯:On Vocabulary Reliance in Scene Text Recognition

幻燈片1.PNG
幻燈片2.PNG
幻燈片3.PNG
幻燈片4.PNG
幻燈片5.PNG
幻燈片6.PNG
幻燈片7.PNG
幻燈片8.PNG
幻燈片9.PNG

Abstract

在公共基準上追求高性能一直是場景文本識別研究的驅動力,并且已經取得了顯著進展。但是,深入的調查揭示了一個令人吃驚的事實,即最先進的方法在帶有詞匯表內文字的圖像上效果很好,但對于詞匯表以外單詞的圖像的泛化性很差。我們稱這種現象為“詞匯依賴”。本文建立了一個分析框架,對場景文本識別中的詞匯依賴問題進行了深入的研究。主要發現包括:
(1)詞匯依賴無處不在,即所有現有算法或多或少都表現出這種特性;
(2)基于注意力的解碼器被證明在泛化詞匯表外的單詞很弱和基于分割的解碼器在利用視覺特征方面表現良好;
(3)上下文建模與預測層高度耦合。
這些發現提供了新的見解,并可以使場景文本識別未來的研究受益。此外,我們提出了一種簡單而有效的相互學習策略,兩種家族(基于注意力和基于分割)的模型進行協作學習。這種補救措施減輕了詞匯依賴問題,提高整體水平場景文字識別性能。

1. Introduction

作為許多視覺識別和理解系統[42、25、17、35、22、21]中的關鍵任務,場景文本
識別已成為幾十年來計算機領域的活躍研究領域[24、45、43、44、32、39、36]。最近,追求高性能的基準已經引起了社會的廣泛關注。通過驅動深度學習[50,31,2,33,12]和大量的合成數據[13,29,46], 標準基準的識別精度迅速提高。例如,不帶詞典的IIIT-5k的準確性[27]從在很短的時間內,從78.2%[31]到96.0%[12]。



圖1:基于RNNattention的方法中的循環存儲機制[33]實際上是一把雙刃劍。 積極的方面是,對于詞匯表中帶有單詞的文本圖像(左),即使圖像質量下降(模糊或部分遮擋),仍可以正確識別內容。 以前被忽略的負面方面在于,對于單詞在詞匯表之外的文本圖像(右),很容易發生錯誤(用紅色標記)。

但是,一個重要的問題被忽略了很長時間:即使在各種基準都可以達到很高的精度,最先進的算法實際上在帶有在詞匯表中的文字的圖像上顯示出明顯更高的性能相比那些不在詞匯表中的單詞圖像。其中的差距并不是由圖像質量引起的。如圖1所示效果最佳的文本識別器[33]可以正確讀取質量較差的圖像的內容但是也可能錯誤讀取質量更好的圖像內容。秘訣在于詞匯:最先進的方法似乎傾向于記住在訓練階段看到的單詞。我們稱這種現象為“詞匯依賴”。


為了進一步驗證詞匯依賴在場景文本識別中是否普遍,我們復現了許多場景文本識別的代表性方法,包括CRNN [31],FAN[2],CA-FCN [23]和ASTER [33], 使用相同的骨干網(ResNet-50 [8])和訓練數據(SynthText [7])用于這些方法,以便排除干擾因素。從Tab1 可以看出。對于所有評估方法而言,詞匯表內外的單詞在測試圖像之間的性能差距都很大。它表明詞匯依賴無處不在。

在本文中,我們系統地研究了場景文本識別中的詞匯依賴問題。建立評估框架,在其中訓練數據集具有受控詞匯表和目標指標的設計旨在評估和比較不同的模塊組合。

通過使用具有受控詞匯表的訓練數據,我們能夠檢查詞匯表對算法性能的影響以及事前學習語言中不同算法的能力。同時,有針對性的指標可以定量,精確地評估不同模塊組合的優缺點。通過實驗,我們獲得了一系列有價值的觀察結果和發現,并因此為未來場景文本識別算法的發展提供了一些模塊組合選擇的指導原則和建議。

此外,為了減輕現有的詞匯依賴方法,我們提出了一種新穎的相互學習策略,該策略允許模型具有不同PRED層(即基于注意力的解碼器和基于分割的解碼器)在訓練過程中相互補充。 實驗結果證明了其在提高注意力解碼器和基于分割的方法的準確性和泛化能力方面的有效性。

這項工作的貢獻如下:

  • 我們提出了詞匯依賴問題,并提出了一個研究它的分析框架。
  • 我們通過實驗發現了當前PRED層的優點和局限性。 基于注意力的解碼器從學習到的詞匯表中泛化性能很差,但是在訓練帶有隨機語料的數據時表現良好。 基于分割的方法可以準確地提取視覺特征,而CTC相關方法通常具有較弱的視覺觀察能力。
  • 我們發現,執行上下文建模的CNTX模塊的效果與PRED層高度相關。 因此,我們提供了根據PRED層選擇CNTX模塊的指南。
  • 此外,我們提出了一種簡單而有效的相互學習方法,以允許不同系列的模型進行協同優化,從而減輕了詞匯依賴的問題。

2. Proposed Analytical Framework

在本節中,我們詳細描述我們的分析框架,包括數據,模塊和指標。

2.1. Test Data

為了進行實驗,我們采用了各種評估基準,其中一些是以前常用的工作。我們首先簡要介紹帶有實詞圖像的公開測試數據集,其詳細信息請參見[1]。

ICDAR2013(IC13)[15]是由相機捕捉場景文本的ICDAR 2013魯棒閱讀競賽的數據集。ICDAR2015(IC15)[14]是來自Google眼鏡收集的場景文字圖像,其中裁剪后的文字圖像模糊,定向且分辨率低。StreetViewText(SVT)[37]是Google Street View收集的戶外街道圖像,包括噪聲的圖像,模糊或低分辨率圖像。SVT Perspective(SVTP)[28]聚焦在彎曲文本圖像上。該數據集包含645個評估圖像,這些圖像被非前視嚴重扭曲。CUTE80(CT)[30]由80個自然場景圖像組成,從中生成288個裁剪的單詞圖像用于場景文本識別。

如圖1所示,識別視覺特征困難的文本圖像,例如模糊,污點和不規則字體,更多地依賴根據詞匯的推測。因此,我們將上述5個數據集分為一個集合Ω。 Ω的ground-truth被收集作為我們用于綜合訓練數據的語料庫。因此,Ω及其補集Ωc分別代表詞匯表中和詞匯表外的一組文字圖像。

語料收集中不包括另一個評估數據集,即IIIT-5k(IIIT)[27],該評估數據集通常包含規則文本并且外觀清晰。我們選擇IIIT作為輔助集合來執行Ωc,因為它具有相對大量的圖像和視覺間隙。通過收集的詞匯表,詞匯表中的1354個圖像被分為Ω,剩下的1646個圖像成為Ωc。它們分別被命名為IIIT-I和IIIT-O。



數據集的大小和詞匯量如表2所示。此外,Ω的詞匯表中共有3172個不同的詞。

2.2. Training Data

場景文本識別的最新工作是使用合成數據[7,13]進行訓練。SynthText(ST)是由[7]中提出的合成引擎生成的數據集,其背景圖像是從Google圖像搜索中提取的。它包含8萬張圖像,研究人員從中裁剪了約700萬個文本實例進行訓練。

如表2所示,ST是從Newgroup20 [16]數據集中的一個大型語料庫生成的,該數據集中的詞匯數以萬計。 ST的大量詞匯混淆了此類訓練數據對詞匯依賴的影響和原因。因此,我們通過限制詞匯量來生成新的訓練數據供研究。

特別是,如第2.1節所述,我們的語料庫是從測試數據集中收集的。使用ST的合成引擎,可以導出三個具有相似外觀和不同語料庫的數據集,以進行全面而受控的比較。示例如圖2所示。

LexiconSynth(LS)從收集的ground-truth單詞中,我們通過從實例中均勻采樣來構建LS語料庫。由于LS涵蓋了Ω的詞匯表,因此在Ω上進行評估時,使用LS數據訓練的模型可以促進詞匯學習的獲得。然而,這種提純的語料庫還加劇了詞匯中單詞的過擬合。從性能差距的角度來看,可以了解模型的詞匯學習特性.

RandomSynth(RS)與LS的語料庫相反RS數據是由隨機排列的字符生成的。偽字的長度與LS的分布相同,但字符類的分布是均勻的。也就是說,無需詞匯先驗即可獲得在RS上訓練的模型的準確性。

MixedSynth(MS)防止算法依賴詞匯的直觀解決方案是將RS數據混合到LS數據中。在我們的實驗中,MS數據是LS和RS的并集。樣本從RS和LS中的采樣比率是(1-r): r∈[0,1]。訓練步驟在所有實驗中都是固定的。與具有大詞匯量的數據集相比,RS和LS的混合在實際情況下更可行,因為在這種情況下,很少事先完全給出詞匯量。

Synthesis Details 由于評估數據集的注釋以不同的方式處理單詞的大小寫和標點符號,因此我們將語料庫收集為不區分大小寫的不帶標點的單詞。 在LS數據的呈現過程中,每個收集到的單詞都會生成三個實例,它們具有不同的變體:大寫,小寫和首字母大寫的大小寫。 此外,以隨機選擇的標點插入單詞的可能性為10%。

對于RS數據的語料庫,字母,數字和標點符號的比例約為6:3:1。每個單詞在與LS數據相同的三種情況下呈現。按照ST的規模,分別為RS和LS數據生成了約700萬張裁剪的圖像。在沒有特殊說明的情況下,經驗數據的比率MS設置為0.5。

2.3. Module Combinations

根據[1],典型的場景文本識別方法可以分為四個階段,即變換(TRAN),特征提取(FEAT),上下文建模(CNTX)和預測(PRED)。CNTX階段類似于[1]中的序列建模(Seq)。我們擴展到建模上下文,因為我們也考慮了基于分割的方法,以便從更廣泛的角度討論詞匯依賴問題。場景文本識別的流程如圖3所示。


在我們的實驗和分析中,我們將重點放在CNTX和PRED階段,因為這兩個階段與詞匯依賴密切相關。 TRAN和FEAT階段固定為控制變量:不采用轉換層,并且在所有組合中都使用ResNet50主干。下面,我們將介紹三個PRED層以及用于CNTX階段的三種選擇。
預測層
CTC [6]和基于注意力的解碼器[3,40]是預測層選擇中的兩種主要方法。如圖3(b)所示,CTC將逐幀預測與目標字符串對齊。在最終輸出中刪除了具有相同字符但不帶“BLANK”的幀,該幀表示不包含任何字符。由于CTC具有優越的推理速度[1],它被廣泛用于許多實際應用[20]和學術研究[4,9]。

基于注意力的解碼器[2,33]是場景文本識別領域中最先進的方法。從特征序列中概括出一個瞥見向量,然后采用RNN在特征序列上產生注意向量,并依次產生特征分類(見圖3c)。

最近,MaskTextSpotter [26]引入實例分割以分別對每個字符進行定位和分類,并且激勵了后續的工作[5,23,41]。盡管基于分割的方法(簡稱為Seg。)通過在分割圖中找到相連的成分來直接提取字符,但是深層卷積網絡的大感受野可能帶來詞匯依賴。

Context Modules
雙向LSTM(BLSTM)[11]用于在最近的工作中由CNN提取的特征圖上進行上下文建模[33,19]。

如圖3e所示,BLSTM模塊將特征序列作為輸入,并通過帶有移動步長的池化或卷積從特征圖進行轉換,這是許多場景文本識別方法[34,40]中上下文建模的通用做法,因為BLSTM以雙向順序掃描和映射特征。

圖3(f)所示的金字塔池化模塊(PPM)[49]是上下文建模的另一種選擇 ,這在基于分割的方法中被證明是有效的[18]。它利用自適應平均池化將特征圖池化為不同的正方形分辨率(在我們的實驗中為1,3、4、6),然后通過雙線性插值將池化的特征調整為輸入分辨率的大小并與原始特征相連接以獲得不同尺度全局上下文信息。由于基于分割的方法與BLSTM不兼容,因此PPM是用于上下文建模的實用模塊。我們的實驗也驗證了其在增強模型詞匯學習中的有效性。

此外,顯式上下文建模對于魯棒的文本識別不是必需的,深度卷積網絡通常具有較大的感受野[38,47]。但是,在我們的實驗中,上下文建模模塊確實帶來了詞匯學習和依賴性方面的多樣性。


原始結果如表3所示,其中模塊組合用帶圓圈的數字命名。

2.4. Metrics

使用我們重新設計的訓練數據,我們可以在多個訓練數據上評估算法的性能。 提出了幾種度量標準來對模型的性能進行基準測試。

首先,我們介紹了一種用于性能評估的常規度量,即通用精度(GA)。 評估場景文本識別算法的當前做法是在具有真實世界圖像的公共基準上評估模型。 我們將提到的評估數據集的所有測試圖像的識別準確度定義為GA,與先前工作中的常見評估相對應。


Observation Ability(OA)準確的視覺特征提取和識別是場景文本識別方法的基本能力。我們將OA定義為算法在訓練數據沒有詞匯的情況下準確地識別單詞的方式。在我們的框架中,OA是通過評估在RS數據上訓練的模型以及來自所有基準的測試圖像(總共7406個圖像)來測量的。由于認知準確度完全來自觀察視覺特征而無需學習任何詞匯,因此表明了模型利用視覺觀察的能力。

Vocabulary Learning Ability(VA)
如第1節所述,算法可能會利用學習的詞匯進行細化或限制文本圖像的識別結果。類似于OA,VA建議用于評估有限詞匯量的識別準確性。在我們的實驗中,用LS數據集來訓練模型并評估Ω所有圖像的識別準確性來測量VA。VA對于在事先提供詞典的文本識別任務中選擇模型具有重要意義。

Vocabulary Generalization(VG)
人可以輕松地從學習的事物中概括事物,這啟發我們通過測量用不在詞匯表中的LS數據訓練的詞匯量模型的性能來評估算法的詞匯泛化(VG)。實際上,我們在實驗中目睹了當前識別方法的詞匯概括。為了公平地評估VG,應該消除圖像視覺特征對數據集的影響,該影響在兩個圖像集之間帶來了固有的差距。因此,VG由

3. Comparisons and Analyses

使用第2節中提出的框架,我們可以對各種模塊組合進行比較和分析。模型的度量如圖5所示。 根據具體評估,我們評估和分析模塊組合的不同方面。

3.1. Effect of Training Data

從根本上說,我們應該首先驗證所提出數據集的有效性,并探討訓練數據詞匯依賴的相關性。通過將MS數據比例r從0逐漸調整為1進行實驗。表3中的?,?和?三個模型進行比較。除了IIIT的識別準確性外,我們還觀察到預測詞落入詞匯表的可能性,如圖4所示。

將RS數據混合到LS數據中,通過混合數據訓練模型可以提高IIIT的識別準確性并且不太容易被詞匯依賴所誤導。特別是對于模型?,得益于混合RSdata的25%的比率,IIIT的識別精度從77.8%提高到84.4%。

當比例r達到0.5左右時,精度的提高就停止了。一方面,減少詞匯中產生單詞預測的可能性證明了有效抵消RS數據對詞匯的依賴。另一方面,它需要足夠比例的LS數據才能從訓練數據中學習詞匯。

3.2. Comparison of Prediction Layers


從圖5a中,我們可以看出使用RS,MS和LS數據訓練的模型,盡管有PRED層也沒有CNTX模塊之間的性能差距是一致的。結果表明,所有組合都存在詞匯依賴問題,但嚴重程度有所不同。

此外,我們還展示了模型?,?和?使用不同訓練數據訓練后在IIIT上的性能差距。這些模型是在沒有CNTX模塊構建的情況下,分別使用Atten.,CTC和分割的PRED層。如圖5b所示,基于注意力的解碼器從r = 0(LS數據)的點的最高間隙開始。通過將更多的RS數據混合到訓練集中,基于注意力的解碼器的差距會減小。這種趨勢證實了基于注意力的解碼器在詞匯學習上的優勢以及在詞匯依賴方面的劣勢。

除了詞匯依賴之外,我們在圖6a中還對我們提出的PRED層指標進行了全面的比較。 CTC的性能通常由其他兩個預測層(包括準確性和泛化性)衡量。基于注意力和基于分割的解碼器分別在VA和VG方面獲得優勢。它們在OA中的表現也相似,表明僅根據視覺特征即可準確識別。

3.3. Comparison of Context Modules


基本上,上下文模塊的采用可以提高模型的詞匯學習能力,這已通過模塊組合的VA(詞匯學習能力)的驗證。例如,在以前的場景文本識別方法中未廣泛使用的PPM帶來了與PRED層結合的增強效果:Seg為3.9%。 CTC為10.5%。另一方面,如圖7所示,通常VA增強VG會降低。

與PRED層相似,CNTX模塊的評估結果如圖8a和圖8b所示。我們發現,CNTX模塊的效果與預測層高度相關。

如第3.2節所述,基于注意力的解碼器從訓練數據中學習詞匯的能力更強。因此,它帶來了較少的VA和VG變化,從而為基于注意力的PRED層添加了更多的上下文模塊。此外,充當上下文信息提取器的上下文模塊實際上有助于基于注意力和基于分割的解碼器的視覺觀察。

對于CTC系列模型,情況有所不同。PPM和BLSTM顯著提高了它們的VA和與VG配對,因為CTC解碼器本身缺少適當的上下文建模。圖8a顯示了上下文模塊在CTC系列模型上帶來的三種方法的性能變化。

總而言之,使用適當的上下文模塊來增強模型的詞匯學習是有效的:BLSTM用于基于注意力的模塊,PPM用于CTC和基于分割的解碼器。畢竟,這是VA和VG之間的折衷方案。

3.4. Combination Recommendation


根據表5和之前的分析,我們根據情況是否給出目標圖像的詞匯表,推薦了兩種組合用于不同的情況。

基于注意力的帶有BLSTM的Model?受益于功能強大的CNTX模塊和PRED層獲得了最佳的VA。模型在詞匯學習中的優點也導致了最好的GA,與傳統基準測試的性能相對應。 VA和GA的高分值證明了在測試圖像的詞匯大部分是訓練數據的受限子集的應用中,它們表現良好。因此,與網絡設計中的[40]相似,模型?是我們為了強詞匯學習能力首次推薦組合。

對于行業中的許多應用,使用有限詞匯量的數據訓練的算法應該能很好地概括為更通用的單詞。由于模型?獲得最佳的VG,因此它具有良好的詞匯泛化能力。因此,對于涉及詞匯泛化的場景,我們建議使用類似于CA-FCN [23]結構的組合?。

4. Remedy by Mutual Learning

前面的部分演示了VA和VG之間的權衡以及模型的各種優勢。在本節中,我們提出了一種簡單而有效的訓練策略,以結合模型在不同預測層(即基于注意力和基于分割的解碼器)中的優勢。

該思想基本上是受知識蒸餾[10]和深入的相互學習[48]的啟發。與知識蒸餾相似,兩個模型的相互學習是一種訓練策略,其中模型可以協同學習。知識蒸餾策略將知識從經過預訓練的強大教師網絡轉移到學生網絡,而我們的方法則從頭開始同時優化兩個模型。

由于其優勢,我們選擇基于分割的解碼器和基于注意力的解碼器的集合作為基礎模型在圖6a中揭示。我們假設基于分割的解碼器的泛化監督基于注意力的解碼器,以學習減輕詞匯依賴,而基于注意力的解碼器的準確性注意力反過來又改善了基于分割的解碼器。

4.1. Optimization


圖9:基于注意力的解碼器(頂部)和基于分割的解碼器(底部)的相互學習。 logit的KL散度被計算為輔助監督,這使得模型可以共同學習。


4.2. Experimental Validation


我們使用提議的評估框架評估了相互學習策略,并分別在表3和表6中顯示了我們的指標的原始準確性和性能。實驗結果證明了相互學習策略所帶來的基礎模型的顯著改進。

這兩種相互學習策略相結合的模型保持了不同的特性和明顯的優勢。聯合訓練程序通過協調其估計,將其傾向性與視覺特征和詞匯結合起來與吉隆坡的分歧。有證據表明,兩種模型的OA和VA均得到改進,驗證了相互學習策略的有效性。

此外,基于分割的解碼器消除了基于注意力的解碼器的詞匯依賴性。在基于注意力的解碼器的訓練中,基于分割的模型的預測更多地依賴于視覺特征,這是一種額外的視覺正則化。除了最小化LΘ1,還驅動Θ1以適合Θ2的觀察概率。定量地,Θ1的GA從77.1%提高到93.6%。在原始精度上,LS數據上帶有單詞在單詞之間進出的圖像之間的性能差距幾乎減少了一半(32.7%至16.9%)。

圖6b顯示了所提出的相互學習策略的定性比較。基準方面的顯著改進證明了所提出的相互學習策略的有效性,從而驗證了其合理性以整合不同PRED層的優勢。

5. Conclusion

在本文中,我們研究了一個重要但長期被忽視的問題:場景文本識別方法中的詞匯依賴。 建立了一個用于比較和分析單個文本識別模塊及其組合的綜合框架。 基于此框架,已經獲得了一系列關鍵的觀察和發現以及有價值的建議,這些建議可能有助于未來場景文本識別的研究。 此外,我們分析了當前的上下文模塊和預測模塊,并提出了一種相互學習策略,以增強他們的詞匯學習能力或對詞匯外單詞的泛化能力。

最后編輯于
?著作權歸作者所有,轉載或內容合作請聯系作者
平臺聲明:文章內容(如有圖片或視頻亦包括在內)由作者上傳并發布,文章內容僅代表作者本人觀點,簡書系信息發布平臺,僅提供信息存儲服務。

推薦閱讀更多精彩內容