BASE
- 將語義信息盡可能平均化,突出語音中說話人的個人特征,將不同人的特征差異凸顯出來.
- 模型訓練的過程就是建模的過程,識別的過程就是模式匹配的過程.
-
模型訓練
模型訓練的過程就是建模的過程,識別的過程就是模式匹配的過程.
模型訓練.png
根據系統的建模算法,訓練得到一個人的模型.
- 識別系統
特征提取
base
- 特征能夠對原始信號進行最大程度的表征.
- 減少冗余信息,減少計算量
- 外界有干擾的時候能夠有良好的魯棒性
- 一階差分 二階差分
語音信號兩幀之前存在較大的相關性,需要在靜態的倒譜中加入動態信息來強化特征表示 - 倒譜均值減和倒譜方差歸一化處理,消除傳輸信道的影響和信道的偏移誤差
- 耳蝸
耳蝸相當于是一個濾波器組,對于聲音頻率的感應是非線性的,具有良好的抗噪能力和識別性能.MFCC參數就是模仿人類的聽覺特性.
MFCC
- 語音信號模數轉化,預加重,分幀,加窗經過FFT得到頻域信號
- 頻域信號通過D個Mel濾波器組,得到D維的Mel頻譜,再求頻譜平方計算能量普
- 能量普取對數
- 能量譜DCT變換得到MFCC 靜態特征.
SVM
這篇文章挺適合我這種小白入門的.
針對線性可分情況進行分析,對線性不可分的情況,通過非線性映射算法講低維輸入空間線性不可分的樣本轉化為高維特征空間使其線性可分,從而使高維特征空間采用線性算法對樣本的分線性特征進行線性分析成為可能.
svm可以挖掘出數據中的高層未知參數.
GMM UBM
通過EM算法訓練,估計一個高階的GMM模型參數來刻畫說話人的特征分布,訓練階段未覆蓋到的特征區域采用UBM的特征近似刻畫。在識別階段,將測試的語音特征和模型匹配得分累加(最大似然率),輸出識別結果。
GMM
GMM是一種概率模型,建模的依據是特征的概率分布情況。根據似然得分來判斷模型的相似性。聲學特征代表廣義上的因素。
GMM利用多個高斯分布的組合來近似矢量的連續概率分布情況。
說話人的聲學特征參數可以認為是不同發音時的聲特征在特征空間的集合而成的.從不同的語音參數特征分布中找到不同的說話人.
- 用EM算法進行迭代,擬合訓練高斯模型,但是擬合精度和訓練數據為正比關系,但是實際場景沒有大量的訓練數據.因此引入UBM.
UBM
通用背景模型(Universal Background Model,UBM)
- 用大量說話人語音訓練出一個高階高斯模型,包含了大量說話人的特征信息.GMM模型來表征說話人的個性特征.GMM和UBM之間的高斯概率密度函數建立了相互對應的關系,抵消聲音因素的影響,凸顯目標說話人的個性特點.
- UBM模型是在GMM模型上最大的后驗概率上(MAP)自適應得到的.MAP自適應只修改UBM和目標說話人特征中相近部分的高斯分布的買搜狐,突出目標說話人的個性特征所在,與目標說話人特征分布較遠的部分不做變動,表明目標說話人和冒充者的共同特征.訓練時間越長,UBM越接近說話人的分布并且遠離UBM.
GMM-SVM
GMM-UBM只關注自身語音特征的分布情況,對于相似的說話人和說話人之間的特征差異未做考慮.冒充的風險較大.GMM-UBM做為模型的前端(刻畫特征,將特征從低維空間擴展到高維空間),然后用SVM基于特征分類.
-
將GMM-UBM得到說話人模型的各個混合分量的均值向量拼接成GSV高斯超矢量
GSV.png
SVM
SVM可以從一組有監督的樣本中找到正樣本和負樣本的最佳分界面.
svm訓練需要正例樣本和負例樣本,將正例樣本和負例樣本的GSV一起做為SVM的輸入,訓練一個超平面以表征目標話者的模型.
i-vector
即包含說話者之間的差異,又包含信道的差異.將高維空間的特征投影到低維.
將語音特征提取為一個低維的矢量矩陣,用來表征說話人信息的差異性,在識別階段只需要計算矢量之間的余弦距離就可以作為相似性的評價標準,降低計算復雜度.
- 全局差異空間的估計
- i-vector的估計
- PLDA 空間應用概率線性鑒別分析