[CVPR2020]論文翻譯SEED: Semantics Enhanced Encoder-Decoder Framework for Scene Text Recognition

幻燈片1.PNG
幻燈片2.PNG
幻燈片3.PNG
幻燈片4.PNG
幻燈片5.PNG
幻燈片6.PNG
幻燈片7.PNG
幻燈片8.PNG

Abstract

場景文本識別是計算機視覺中的一個熱門研究主題。近年來,已經提出了許多基于編碼器-解碼器框架的識別方法,它們可以處理透視失真和曲線形狀的場景文本。但是,他們仍然面臨許多挑戰,例如圖像模糊,照明不均勻以及字符不完整。我們認為,大多數編碼器-解碼器方法都是基于本地視覺特征而沒有明確的全局語義信息。在這項工作中,我們提出了一個語義增強的編碼器-解碼器框架,以穩健地識別低質量的場景文本。語義信息在編碼器模塊中用于監督,在解碼器模塊中用于初始化。特別是,將最新的ASTER方法作為示例集成到所提出的框架中。大量的實驗表明,所提出的框架對于低質量的文本圖像更健壯,并且在多個基準數據集上均達到了最新的結果。
代碼地址

1. Introduction

場景文本的檢測和識別由于其在自動駕駛,路標識別,幫助視障者等方面的各種應用而引起了近年來的關注。受對象檢測[27,40,26,58]的啟發,場景文本檢測[24,48,60,38,6]實現了令人信服的性能。盡管在文檔中常規文本識別已經成熟,但場景文本識別仍然是一項艱巨的任務。

隨著深度學習的發展,最近的工作[16,15,43,46,22,44,45,54,7,8, [2,23,25,57,52,32,53]場景文本識別已顯示出令人鼓舞的結果。但是,現有的方法在處理圖像模糊,背景干擾,遮擋和不完整字符時仍然面臨各種問題,如圖1所示。



圖1.我們的SEED與現有的編碼器-解碼器框架(例如[45])的比較。 第一列顯示了一些具有挑戰性的場景文本的示例,包括圖像模糊,遮擋和背景干擾。 第二列是現有編碼器-解碼器框架的結果,第三列是我們的方法的預測。 這表明我們提出的方法對低質量的圖像更魯棒。

近來,在自然語言處理領域的神經機器翻譯的啟發下,帶有注意力機制的編解碼器框架在場景文本識別中已被廣泛使用。對于規則文本識別[22,7,10],編碼器基于帶有RNN的CNN,而另一種具有注意力機制的RNN被用作解碼器,以在每個時間步預測字符。對于不規則的文本識別,提出了基于校正的方法[44,45,28,57,32,53],多方向編碼方法[8]和基于2D注意力的方法[54,23]。基于校正的方法首先校正不規則圖像,然后遵循規則識別的流程。多方向編碼方法使用帶有兩個LSTM的CNN來編碼四個不同的方向。基于二維注意的方法利用二維注意機制處理不規則文本,直接處理來自二維的特征圖。

現有方法將文本識別任務定義為局部的序列字符分類任務,但忽略了整個單詞的全局信息。結果,他們可能難以處理低質量的圖像,例如圖像模糊,遮擋和不完整的字符。但是,人們可以通過考慮文本的全局信息來很好地處理這些低質量的情況。

為解決此問題,我們提出了語義增強的編碼器-解碼器框架(SEED),其中預測了額外的語義信息將充當全局信息。然后,如圖2(c)所示,使用語義信息來初始化解碼器。
這些語義信息具有兩個主要優點:
1)可以通過在自然語言處理領域中嵌入單詞來對其進行監督;
2)由于文本識別,它可以減少側重于視覺特征的編碼器與側重于語言信息的解碼器之間的差距, 因此場景文本識別可以被視為跨模式任務。
具體來說,我們從預訓練的語言模型中獲取單詞嵌入,并計算出訓練期間語義信息與單詞嵌入之間的損失。通過這種方式,語義信息包含了更豐富的語義,然后使用預測的語義信息來指導解碼過程,從而可以將解碼過程限制在語義空間中,并且識別性能會更好。如圖1所示。例如,在圖1的第四個子圖像中,由于遮擋,最后兩個字符“ se”被識別為“ R”,但是可以在我們的框架中使用全局語義信息對其進行校正。 換句話說,語義信息是一種“直覺”,就像人們仔細閱讀單詞之前的一瞥。

以前,已經對直接從圖像中預測的語義信息進行了研究。 [12]直接從帶有CNN和加權等級損失的單詞圖像中預測語義概念。 [51]嘗試將圖像特征嵌入單詞嵌入空間中以進行文本識別。 [21]建議以端到端的方式學習單詞圖像和文本標簽的嵌入。這些工作驗證了語義信息對文本相關任務是有幫助的。

主要貢獻如下:

  1. 我們提出了用于場景文本識別的SEED,它預測了額外的全局語義信息以指導解碼過程,并通過預訓練的語言模型中的單詞嵌入來監督預測的語義信息。
  2. 作為示例,我們將最先進的ASTER方法[45]集成到我們的框架中。
  3. 在多個公共場景文本基準上進行的大量實驗表明,所提出的框架可以實現最新的性能,尤其是在低質量數據集ICDAR2015和SVT-Perspective上,并且對于不完整的字符尤其魯棒。

本文剩下部分的組織如下: Sec. 2回顧相關的工作。 Sec. 3描述了提出的框架和示例。 Sec. 4進行豐富的實驗 。 Sec. 5總結工作。

2. Related Work

2.1. Scene Text Recognition

現有的場景文本識別方法可分為傳統方法和基于深度學習的方法兩大類。

傳統方法通常采用自下而上的方法,該方法首先檢測并分類字符,然后根據啟發式規則, 語言模型或詞典將其分組為單詞或文本行。他們設計各種手工特征,然后使用這些特征來訓練分類器,例如SVM。例如,[34]使用一組計算量大的特征,例如長寬比,孔面積比等。[50,49]使用帶有HOG描述符的滑動窗口,[55,3]使用帶有隨機森林分類器的Hough投票。大多數傳統方法都需要設計各種手工設計的特征,而這些特征用于高級表示有限。

隨著深度學習的發展,大多數方法都使用CNN來執行自頂向下的方法,從而直接識別單詞或文本行。 [16]把一個單詞當作一個類,然后將識別問題轉化為圖像分類問題。近來,大多數工作將識別問題視為序列預測問題。現有方法幾乎可以分為兩種技術,即連接主義時間分類法(CTC)和注意力機制。對于基于CTC的解碼,[15,43,46]提出使用CNN和RNN編碼序列特征,并使用CTC進行字符對齊。對于基于注意力的解碼,[22]提出了遞歸CNN來捕獲更長的上下文依賴,并使用基于注意力的解碼器進行序列生成。[7]介紹了注意力漂移的問題,并提出了集中注意力以提高性能的目的。

然而,這些工作都假設文本是水平的,并且不能處理諸如畸變和曲率之類的不規則形狀的文本。為了解決不規則文本識別的問題,[44,45]提出首先基于空間變換網絡[17]對文本進行糾正,然后將其作為水平文本進行處理。此外,[57]通過迭代矯正獲得了更好的性能,[53]通過一些幾何約束進行矯正。 [32]通過預測像素偏移來糾正文本。 [28]沒有糾正整個文本,而是采用了一種檢測和糾正單個字符的方法。盡管進行了矯正,[8]還是在四個方向上對圖像進行編碼,并提出了一個濾波門來融合特征。 [54]在基于2 D-Attenton的網絡中引入了輔助密集字符檢測任務和對齊損失。 [23]提出了一種針對不規則文本識別的量身定制的基于2D注意的框架。沒有編碼器-解碼器框架,[25]將不規則的文本識別轉換為具有完全卷積網絡的字符分割[31]。 [52]提出了一種新的損失函數,以進行更有效的解碼。

2.2. Semantics in Scene Text

許多工作試圖將語義帶入文本識別或文本檢索的任務中。 [12]直接使用CNN從單詞圖像中預測語義概念。文獻[36]提出僅用視覺信息為場景圖像生成語境化詞典,而單詞識別任務從詞典中受益匪淺。 [51,21]學習將單詞圖像映射到單詞嵌入空間,并將其應用于單詞識別系統。 [18]嘗試借助上下文信息(例如標簽,注釋和標題)來檢測和識別在線圖像中的文本。 [42]介紹了使用語言模型和場景與文本之間的語義關聯來重新排序識別結果。 [37]提出用對象信息來提高文本識別的性能。文獻[11]使用嵌入廣告圖像中的文本來增強圖像分類。 [59]提出使用預訓練的語言模型來校正圖像中文本上下文的不正確識別結果。

如前所述,最新的識別方法不能很好地利用文本的語義。相關語義工作并未將語義明確而有效地集成到認別管道中。

3. Method

在本節中,我們將詳細描述所提出的方法。通用框架如圖2(c)所示,
它由4個主要組件組成:
1)編碼器,包括CNN backbone和RNN用于提取視覺特征;
2)語義模塊,用于根據視覺特征預測語義信息;
3)用于監督語義模塊預測的語義信息的預訓練語言模型;
4)包含帶有注意力機制的RNN的解碼器,用于生成識別結果。
首先,我們在Sec 3.1中回顧的編碼器-解碼器框架。并在Sec 3.2中詳細介紹了預訓練的語言模型。在Sec3.3中我們描述了我們提出的方法。 具體來說,我們在 Sec3.3.1中介紹了整體框架。之后,在 Sec3.3.2中我們將詳細介紹所提出的方法,該方法將最新方法ASTER [45]集成到了提出的框架中。最后,損失函數和訓練策略在 Sec3.4中介紹。

3.1. Encoder-Decoder Framework


圖2.三種框架的比較。 “ C”代表上下文信息。 由于有限的上下文表示,普通編碼器-解碼器框架獲得了不正確的結果。 基于注意力的編碼器-解碼器框架可以更好地工作,但是如果沒有全局信息,仍然無法處理不完整的字符。我們提出的編解碼器框架借助全局語義信息來預測正確的結果。

編碼器-解碼器框架廣泛用于神經機器翻譯,語音識別,文本識別等。 [47]首先介紹了框架的結構,并將其應用于神經機器翻譯。為簡單起見,我們將此框架稱為純編碼器-解碼器框架。如圖2(a)所示,編碼器提取豐富的特征并生成包含輸入的全局信息的上下文向量C,然后解碼器將上下文向量轉換為目標輸出。源輸入和目標輸出因任務不同而有所不同,例如對于文本識別,輸入是圖像,目標輸出是圖像中的文本。編碼器和解碼器的具體組成不是固定的,CNN和LSTM都是常見的選擇。

盡管效果很好,但是普通的編碼器-解碼器框架卻存在明顯的缺點,即上下文信息無法代表整個輸入。受到人類視覺注意力啟發,研究人員將注意力機制引入了編碼器-解碼器框架,該框架定義為基于注意力的編碼器-解碼器框架。如圖2(b)所示,注意力機制試圖在上下文和整個輸入之間建立捷徑。解碼器可以在每個解碼步驟中選擇適當的上下文,以解決遠程依賴問題,并且以弱監督的方式訓練編碼器和解碼器之間的對齊方式。

對于場景文本識別,解碼器僅依賴于有限的局部視覺特征在普通編碼器-解碼器框架和基于注意力的編碼器-解碼器框架中進行解碼,因此在沒有全局信息的情況下很難處理一些低質量的圖像。在我們提出的框架中,編碼器學習了明確的全局語義信息并將其用作解碼器的指南。我們使用FastText [4]生成單詞嵌入作為語義信息的監督,因為它可以解決“詞匯量不足”的問題。

3.2. FastText Model

3.3. SEED

3.3.1 General Framework

許多場景文本識別方法都基于編碼器-解碼器框架而受到關注。 解碼器專注于視覺特征的特定區域,并逐步輸出相應的字符。 除低質量圖像外,該框架在大多數情況下均適用。 在某些低質量的圖像中,文本可能會模糊或被遮擋。 為了解決這些問題,可以使用全局語義信息。 所提出的框架如圖2(c)所示。 與基于注意力的編解碼器框架不同,所提出的語義模塊預測了額外的語義信息。 此外,我們使用來自預訓練的語言模型的單詞嵌入作為監督來提高性能。 之后,將語義信息與視覺特征一起饋入解碼器。這樣,我們的方法對于低質量圖像是魯棒的,并且可以糾正識別錯誤。


圖2.三種框架的比較。 “ C”代表上下文信息。 由于有限的上下文表示,普通的編碼器/解碼器框架會得到不正確的結果。 基于注意力的編碼器-解碼器框架工作得更好,但是在沒有全局信息的情況下仍然無法處理不完整的字符。我們提出的編碼器-解碼器框架借助全局語義信息來預測正確的結果。

3.3.2 Architecture of Semantics Enhanced ASTER


圖3. SE-ASTER的詳細信息。 它由四個主要模塊組成:校正模塊,編碼器,語義模塊和解碼器。 語義模塊從編碼器的輸出預測語義信息,該語義信息作為指導被饋送到解碼器中。

我們使用ASTER [45]作為我們提出的框架的典范,我們將提出的方法稱為Semantics Enhanced ASTER(SE-ASTER)。 SE-ASTER如圖3所示。共有四個模塊:校正模塊用于校正不規則文本圖像,編碼器用于提取豐富的視覺特征,語義模塊用于從視覺特征中預測語義信息,解碼器記錄最終的識別結果。

首先,將圖像輸入到修正模塊(具有淺層CNN)以預測控制點,然后將Thin-plate-Splines [5]應用于圖像。這樣,失真的文本圖像將得到糾正。該模塊與[45]相同,因此我們不對其進行詳細描述。之后,將修正后的圖像輸入到編碼器,并且可以生成豐富的視覺特征。具體來說,編碼器由一個與[45]相同的基于45層的ResNet的CNN和一個具有256個隱藏單元的2層雙向LSTM [13](BiLSTM)網絡組成。編碼器的輸出為形狀為L×C的特征序列h =(h1,...,hL),其中L為CNN中最后一個特征圖的寬度,C為深度。

特征序列h具有兩個功能,一個是預先由語義模塊決定語義信息,另一個作為解碼器的輸入。為了預測語義信息,我們首先將特征序列展平為一維特征向量I,其維數為K,其中K = L×C。用兩個線性函數預測的語義信息如下:



解碼器采用Bahdanau-Attention機制[1],該機制由具有512個隱藏單元和512個注意單元的單層注意GRU [9]組成。 與[45]不同,我們在這里使用單向解碼器。 尤其是,語義信息用于在線性函數轉換維度之后初始化GRU的狀態。 代替使用零狀態初始化,解碼過程將以全局語義為指導,因此解碼器不僅使用局部視覺信息,而且使用全局語義信息來生成更準確的結果。

3.4. Loss Function and Training Strategy

有兩種訓練策略。 首先是使用來自預訓練的FastText模型的單詞嵌入而不是預測的語義信息來初始化解碼器的狀態。 另一個是直接使用預測的語義信息。 我們對這兩種策略進行了評估,它們的表現相似。 我們使用第二種訓練策略,以純粹的端到端方式訓練模型。

4. Experiments

在本節中,我們進行了廣泛的實驗,以驗證所提出方法的有效性。首先,介紹用于訓練和評估的數據集,并描述實現細節。接下來,我們進行消融研究以分析不同策略的性能。最后,將我們的方法與幾個基準上的最新方法進行了比較。

4.1. Datasets

IIIT5K-Words(IIIT5K)[33]包含5000張圖像,其中大多數是常規樣本。有3000個圖像進行測試。測試集中的每個樣本都與一個50個單詞的詞典和一個1000個單詞的詞典相關聯。街景視圖文本(SVT)[49]由249個街景圖像中的647個短句圖像組成。大多數字詞圖像都是水平的,但是其中一些字詞由于噪聲,模糊和低分辨率而嚴重損壞。每個圖像提供50個單詞的詞典。SVT透視(SVTP)[39]包含645個單詞圖像以供評估。大多數圖像的透視失真嚴重,難以識別。每個圖像都與一個50字的詞典相關聯。ICDAR2013(IC13)[20]包含1015個要作證的圖像,其中大多數是常規文本圖像。其中一些在不均勻的光照下。ICDAR2015(IC15)[19]的收集未經仔細捕獲。大部分圖像具有各種失真和模糊,這對于大多數現有方法而言是具有挑戰性的。CUTE80(CUTE)[41]僅包含288個單詞圖像,用于評估。它們大多數是彎曲的,但分辨率較高,沒有提供詞典。Synth90K[16]由900K個單詞的詞典生成的900萬張合成圖像組成。它已被廣泛用于文本識別任務。我們將其用作我們的訓練數據集之一。它包含來自IC13和SVT測試集的單詞。SynthText[14]是另一個用于文本檢測任務的綜合數據集。我們使用真實的單詞邊界框裁剪單詞,并將其用于訓練我們的模型。

4.2. Implementation Details

擬議的SE-ASTER在Py-Torch [35]中實現。 預先訓練的FastText模型是在Common Crawl2和Wikipedia3上經過訓練的正式可用模型1。總共可以識別97個符號,包括數字,大寫和小寫字母,32個標點符號,序列結束符號,填充符號和未知符號。
輸入圖像的大小被調整為無固定比例的64×256,我們采用ADADELTA [56]來最小化目標函數。 在沒有任何預訓練和數據擴充的情況下,我們的模型在SynthText和Synth90K上進行了6個時期的訓練,批量大小為512,學習率設置為1.0,在第4和第5時期衰減為0.1和0.01。 該模型在一塊NVIDIA M40顯卡上進行了訓練。為進行評估,我們將輸入圖像的大小調整為與訓練相同的大小。 我們使用波束搜索進行GRU解碼,從而使候選者的累積分數最高,在我們所有的實驗中,k都設置為5。

4.3. Ablation Study

關于語義模塊有兩個步驟,一個是單詞嵌入監督,另一個是使用預測的語義信息初始化解碼器。通過始終將Synth90K和SynthText用作訓練數據,我們分別評估這兩個步驟。結果顯示在選項卡中。 2.僅使用詞嵌入進行監督的模型與基線相比并不能提高性能。使用來自編碼器的預測整體功能來初始化解碼器,可以使ICDAR13的性能提高近0.2%,但在SVTP和IC15上的性能卻較差。它表明,以隱性,弱監督的方式學習全球信息仍然與低質量的圖像作斗爭。這兩個步驟的組合可獲得最佳性能。 IC13,SVTP和IC15分別提高了1.9%,2.3%和1.6%。與沒有詞嵌入監督的ASTER相比,IC13的精度提高了1.7%,SVTP和3的精度提高了3.3%。 IC15上有9%的數據,這證明嵌入單詞的監管非常重要。

4.4. Performance with Inaccurate Bounding Boxes

實際應用中的場景文本識別始終與檢測分支結合在一起以實現端到端流水線。但是,檢測分支可能不會輸出理想的邊界框。如果文本識別對于不準確的檢測結果具有魯棒性,則整體的端到端性能可能會更加令人滿意。受CNN接受領域的限制,最常見的不準確檢測是字符不完整。我們進行實驗以表明我們的方法在這種情況下是可靠的。在這里,我們還將SE-ASTER用作示例。請注意,SE-ASTER僅在Synth90K和SynthText上進行訓練,而沒有任何數據擴充(例如隨機裁剪)。我們首先分別基于IC13和IC15生成兩個收縮數據集IC13-srand IC15-sr,分別在左,右,上和下方向上同時隨機抽取原始詞圖像最多15%。所有裁切后的圖像仍然與原始圖像的交集相交,該原始圖像大于或等于(1-0.15×2)2 = 0.49。根據檢測評估協議,由于IoU高于標準閾值0.5,這些裁切后的圖像均為陽性定位,如表1所示。



定量結果顯示在表中。 3.在IC13-sr數據集和IC15-sr數據集上,ASTER基線的性能分別下降了19.5%和12.8%,這表明ASTER基線受不完整特征的影響很大。 但是,在詞嵌入的監督下,該模型仍在與收縮圖像作斗爭。 使用來自編碼器的整體信息作為解碼器的指導,可以獲得更好的效果,下降幅度分別為16.5%和13.0%。 SE-ASTER可獲得最佳結果,這表明我們的模型在不完整字符的情況下更加健壯。表1中顯示了一些可視化示例。

4.5. Generalization of Proposed Framework

為了驗證SEED的一般性,我們集成了另一種最新的識別方法SAR [23]。 SAR是一種基于2D注意的識別方法,無需對輸入圖像進行校正,并且它已經采用LSTM來生成整體特征。但是,如前所述,整體功能在弱監督訓練策略中可能無效,因此我們進行了一些修改,并調用了新模型SemanticsEnhancedSAR(SE-SAR)。在SE-SAR中,我們替換了沿垂直CNN淺。淺層CNNi的輸出是高度為1的特征圖,然后將該特征圖饋入2層LSTM中以提取上下文信息。兩個線性函數應用于LSTM的輸出以預測語義信息。除了SAR中的2D注意解碼器外,我們將另一個解碼器應用于LSTM的輸出并監督轉錄標記。這樣,LSTM的輸出包含更豐富的信息,并有助于預測語義信息。最后,利用語義信息對LSTM的LSTM進行初始化。我們對IC13,IC15,SVT和SVTP進行了一些實驗,以證明SE-SAR的有效性。結果顯示在選項卡中。 4.與基線相比,我們的SE-SAR在IC15,SVT和SVTP上分別提高了4.2%,1.3%和2.3%。 SE-SAR僅可與SAR相比,因為IC13中缺少低質量的圖像。

4.6. Qualitative Results and Visualization

我們可視化包括模糊或遮擋的低質量圖像。圖4中顯示了一些示例。可以看出,我們提出的方法SE-ASTER和SE-SAR對低質量圖像具有魯棒性。我們解釋說語義信息將為解碼器提供有效的全局特征,這對于圖像中的干擾是魯棒的。我們還對IIIT5K進行了實驗,以可視化預測的語義信息的有效性。如圖5所示,我們計算詞典中每個單詞的單詞嵌入和每個單詞的單詞嵌入(每個圖像50個單詞)之間的余弦相似度。在圖5(a)中,預測的語義信息與具有相似語義的單詞非常相關。例如,“家”,“房子”和“旅館”都具有居住權。 “ Tom”,“ Paul”和“ Charles”都是通用名稱。第二行說明了預測語義信息的魯棒性。例如,“ house”和“ horse”的拼寫相似,編輯距離為1,但是它們的語義卻有很大不同,如圖5(b)所示。借助全局語義信息,模型可以區分它們容易。

4.7. Comparison with State-of-the-art

我們還將在幾個基準測試中將我們的方法與以前的最新方法進行比較。結果顯示在選項卡中。 5.與其他方法相比,在僅詞級注釋的免費詞典中,我們獲得了6個結果中的2個最佳結果和3個第二個最佳結果。與其他方法相比,我們提出的方法在某些低質量數據集(例如IC15和SVTP)上有效地工作。特別是,與ASTER相比,SE-ASTER在IC15上提高了3.9%(從76.1%增至80.0%),在SVTP上提高了2.9%(從78.5%增至81.4%)[45]。盡管我們的方法基于較弱的主干并且沒有字符級別的注釋,但它也優于最新方法ScRN [53]在SVTP上為0.6%,在IC15上為1.3%。SE-ASTER在幾個方面也獲得了優異或可比的結果高質量數據集。與ASTER [45]相比,我們在IIIT5K和CUTE上分別提高了0.4%和4.1%。在SVT和IC13上,我們的方法的準確度為89.6%和92.8%,比ESIR [57]和[2]分別差0.6%和1.6%。請注意,我們的框架非常靈活,可以與大多數現有方法集成,并且我們相信,如果我們替換一個更強大的基準模型,則可以獲得更好的結果。

5. Conclusion and Future Works

在這項工作中,我們提出了用于場景文本識別的語義增強的編解碼器框架。 我們的框架預測了額外的全局語義信息,該信息由預先訓練的語言模型中的單詞嵌入監督。 使用預測的語義信息作為解碼器初始化,尤其是對于低質量圖像,可以提高識別精度。 通過將最先進的方法ASTER集成到我們的框架中,我們可以在幾個標準基準數據集上獲得出色的結果。 將來,我們會將框架擴展到端到端的文本識別系統。 這樣,可以利用更多的語義信息。

最后編輯于
?著作權歸作者所有,轉載或內容合作請聯系作者
平臺聲明:文章內容(如有圖片或視頻亦包括在內)由作者上傳并發布,文章內容僅代表作者本人觀點,簡書系信息發布平臺,僅提供信息存儲服務。

推薦閱讀更多精彩內容