論文題目: Learning to Recognize Code-switched SpeechWithout Forgetting Monolingual Speech Recognition.
論文鏈接
在對單語語音ASR模型進行微調后,模型會忘記(catastrophic forgetting)單語語音的分布,而傾向于語碼轉換語音,對原單語語音的識別性能下降。
因此,本文研究在對語碼轉換識別進行微調的情況下如何保證原單語語音的識別性能。通過在三種印度語與英語的混合數據上進行實驗,提出將LWF應用于單語模型的微調,可以實現與直接在單語-CS混合數據上訓練E2E模型相近的性能,而不需要原單語數據(通常較大)。
問題
- 從頭訓練高成本:單語語音模型訓練成本很高(大量數據+長時間),無法重新end2end訓練,例如將code-switched數據與單語數據混合。
- 微調影響性能:ASR模型在針對code-switched語音進行fine-tuning,在原單語語音上的性能會降低。例如對四川話微調后的模型,其普通話識別率會下降。
方法
論文方法基于CTC-based E2E模型進行語音識別。
Model: 2 * CNN --> 5 * BLSTM(1024d) --> FC --> softmax
LWF: Learning Without Forgetting
針對只有單語模型,沒有單語數據, 無法端到端重新訓練pooled模型。
- LWF目標:在保留舊知識的基礎上學習新的知識。
- 具體方法:知識蒸餾+微調;將模型在原任務上的輸出記錄下來,作為引導信息,從而使得網絡盡可能少忘記在原任務上的表現。
在本文中,共享參數;原任務參數
;新任務參數
,具體而言算法流程為:
- 初始化階段:用原模型(MONO)直接識別CS數據,記錄下來
- 熱身階段:固定原模型參數
,使用CS數據在前5個epochs訓練
- 微調階段:使用CS數據訓練
,直到收斂。(此時,在初始化階段被記錄下來的label相當于原MONO模型的信息)
正則化
針對既有單語模型,也有單語數據。
具體方法:加入pre-train模型與微調模型輸出的KL散度懲罰項,有以下兩種方式。相當于對微調過程中新任務與原任務輸出之間的差異進行約束。
結果
數據集
語音數據:三種方言及其與英語的code-switchig(CS): Tamil-English(TA), Telugu-English(TE) and Gujarati-English(GU)
訓練/測試:訓練-會話數據和短語數據;測試-僅使用短語數據。訓練時數據混合單語數據(MONO)和CS數據;測試時則將兩者分開。
數據統計:訓練-MONO與CS數據各約200小時(現實中CS數據一般較少,不太符合實際情況);測試-MONO與CS各約20小時(GU較少);CMI約20。
CMI: Code Mixing Index.
基線
TL;DR 有效方法:
- 混合MONO和CS數據訓練,并在此基礎上微調
- 用較少的數據進行微調效果更好
- 對KL散度進行約束對性能稍有提升
但是,實際上我們往往無法獲得MONO數據,而只有MONO模型。
簡單基線
將以下三種訓練方式作為基線:
- exp1: 僅使用MONO數據
- exp2: 僅適用CS數據
- exp3: 混合數據(lower WER)
微調基線
條件:10% learning rate with CS data,兩種Fine-tuning模型:
- exp4: 對在MONO數據上訓練的模型微調 (對MONO和CS表現都不好)
- exp5: 對混合數據訓練的模型進行微調 (best baseline)
在此基礎上對CS數據進行隨機采樣(25%-50%-75%),針對混合模型進行微調,25%采樣性能最好——隨機采樣有效。
- reg: fine-tuning with regularization
結果顯示,在式(2)正則(Scaled KLD)下在TA/TE數據上有提升。
LWF
- 在沒有MONO數據的情況下,獲得了比較接近best fine-tuning的性能結果。
- 并不一定能獲得最佳性能(因為無法獲得原始MONO訓練數據),但是能夠有效降低exp4(在MONO模型上微調)的性能gap。
相關論文和代碼
本文相關模型算法
[1] CTC E2E模型:Luo N, Jiang D, Zhao S, et al. Towards end-to-end code-switching speech recognition[J]. arXiv preprint arXiv:1810.13091, 2018.
[2] LWF算法: Li Z, Hoiem D. Learning without forgetting[J]. IEEE transactions on pattern analysis and machine intelligence, 2017, 40(12): 2935-2947.
其他相關論文
[1] 相關綜述:Sitaram S, Chandu K R, Rallabandi S K, et al. A survey of code-switched speech and language processing[J]. arXiv preprint arXiv:1904.00784, 2019.
[2] 多任務學習方案:Shan C, Weng C, Wang G, et al. Investigating end-to-end speech recognition for Mandarin-English code-switching[C]//ICASSP 2019-2019 IEEE International Conference on Acoustics, Speech and Signal Processing (ICASSP). IEEE, 2019: 6056-6060.
[3] 元學習方案:Winata G I, Cahyawijaya S, Lin Z, et al. Meta-Transfer Learning for Code-Switched Speech Recognition[J]. arXiv preprint arXiv:2004.14228, 2020.