CMU Sphinx 語音識別入門:語音識別基本概念

? ?CMU Sphinx是目前語音識別技術中比較熱門的開源技術之一。CMU Sphinx 是一款源于卡內基梅隆大學的產品。它的研發歷史大約可以追溯到1988年李開復的一篇論文,目前在 GitHub 和 SourceForge 平臺同步更新。在 GitHub 平臺有 C 和 Java 兩個版本,而且據說分別只有一個管理員維護。但在 SourceForge 平臺卻有 9 個管理員和十幾個開發者。CMU Sphinx 具有包括普通話、英語、法語、西班牙語和意大利語在內的諸多語音可以直接使用的模型。
? ?在介紹如何使用CMU Sphinx之前,先簡單了解一下語音識別的相關概念。

Structure of speech

??在目前的實踐中,語音結構可以理解如下:
??語音是一種由穩定狀態和動態變化的狀態混合而成的連續音頻流(audio stream)。在這一系列狀態中,可以對聲音和音素定義若干相似的類別。聲波往往由語音內容,發言者和發音方式等各種音素決定。

Recognition process

??識別語音的一般方法如下:針對一段聲波,使用沉默將其分割成若干短發音,然后試著去識別每段發音中的內容。為此,可以用盡可能的單詞組合去匹配音頻,然后選出最佳的匹配方案,作為語音識別的結果。
??在這個匹配過程中幾個比較重要的概念。首先介紹“特征”的概念。首先語音需要被分解成一系列“幀”,每10毫秒一幀,然后對于每一幀,提取39個數字來表征該段語音,這39個數字稱之為“特征向量”。如何從音頻的每幀中提取數字是個廣泛研究的話題,一種簡單的方式就是由聲譜衍生出來。
??接下來介紹一下“模型”的概念。模型是一種匯集了語音的共同屬性的數學模型。實際應用中,一個音素的聲學模型往往是其最可能的特征向量的高斯混合模型。該語音模型通常稱之為隱馬爾可夫模型( Hidden Markov Model,HMM),HMM是語音識別領域中一種常用的模型。
??然后就是“匹配過程”的概念,匹配過程是將特征向量與所有坑你的模型進行比較,然后得出最佳的匹配方案。

Models

??根據語音的結構,語音識別過程中需要用到三種不同的模型。

  1. 聲學模型(Acoustic Model )
    ??聲學包含每個語素的聲學特性。聲學模型主要分為:內容獨立的模型(每段發音的特征向量)和內容依賴的模型(基于音素和內容構建的模型)。
  2. 拼音字典(Phonetic Dictionary)
    ??拼音字典包含了單詞與發音之間的映射。當然,這種映射并不是一直有效的。例如,其中只有兩到三個發音變體。但是,這種映射大部分時間都很實用。字典映射并不是映射文字和發音的唯一方式,也可以使用機器學習算法學習得出的一些復雜的函數。
  3. 語言模型(Language Model)
    ??語音模型主要用于約束單詞的檢索范圍。它定義了那些單詞可以在之前識別出來的單詞的額后面,并通過去掉不可能的詞來顯著地約束匹配過程。語音模型通常限制了語音識別的詞匯表,不出現在語音模型中的詞匯往往不會被識別出來。
    ??在一個語音引擎中,這三個模型是綁在一起的。針對一個新語音,需要同時構建這三個不同的模型。

參考:https://cmusphinx.github.io/wiki/tutorialconcepts/

最后編輯于
?著作權歸作者所有,轉載或內容合作請聯系作者
平臺聲明:文章內容(如有圖片或視頻亦包括在內)由作者上傳并發布,文章內容僅代表作者本人觀點,簡書系信息發布平臺,僅提供信息存儲服務。
  • 序言:七十年代末,一起剝皮案震驚了整個濱河市,隨后出現的幾起案子,更是在濱河造成了極大的恐慌,老刑警劉巖,帶你破解...
    沈念sama閱讀 230,578評論 6 544
  • 序言:濱河連續發生了三起死亡事件,死亡現場離奇詭異,居然都是意外死亡,警方通過查閱死者的電腦和手機,發現死者居然都...
    沈念sama閱讀 99,701評論 3 429
  • 文/潘曉璐 我一進店門,熙熙樓的掌柜王于貴愁眉苦臉地迎上來,“玉大人,你說我怎么就攤上這事。” “怎么了?”我有些...
    開封第一講書人閱讀 178,691評論 0 383
  • 文/不壞的土叔 我叫張陵,是天一觀的道長。 經常有香客問我,道長,這世上最難降的妖魔是什么? 我笑而不...
    開封第一講書人閱讀 63,974評論 1 318
  • 正文 為了忘掉前任,我火速辦了婚禮,結果婚禮上,老公的妹妹穿的比我還像新娘。我一直安慰自己,他們只是感情好,可當我...
    茶點故事閱讀 72,694評論 6 413
  • 文/花漫 我一把揭開白布。 她就那樣靜靜地躺著,像睡著了一般。 火紅的嫁衣襯著肌膚如雪。 梳的紋絲不亂的頭發上,一...
    開封第一講書人閱讀 56,026評論 1 329
  • 那天,我揣著相機與錄音,去河邊找鬼。 笑死,一個胖子當著我的面吹牛,可吹牛的內容都是我干的。 我是一名探鬼主播,決...
    沈念sama閱讀 44,015評論 3 450
  • 文/蒼蘭香墨 我猛地睜開眼,長吁一口氣:“原來是場噩夢啊……” “哼!你這毒婦竟也來了?” 一聲冷哼從身側響起,我...
    開封第一講書人閱讀 43,193評論 0 290
  • 序言:老撾萬榮一對情侶失蹤,失蹤者是張志新(化名)和其女友劉穎,沒想到半個月后,有當地人在樹林里發現了一具尸體,經...
    沈念sama閱讀 49,719評論 1 336
  • 正文 獨居荒郊野嶺守林人離奇死亡,尸身上長有42處帶血的膿包…… 初始之章·張勛 以下內容為張勛視角 年9月15日...
    茶點故事閱讀 41,442評論 3 360
  • 正文 我和宋清朗相戀三年,在試婚紗的時候發現自己被綠了。 大學時的朋友給我發了我未婚夫和他白月光在一起吃飯的照片。...
    茶點故事閱讀 43,668評論 1 374
  • 序言:一個原本活蹦亂跳的男人離奇死亡,死狀恐怖,靈堂內的尸體忽然破棺而出,到底是詐尸還是另有隱情,我是刑警寧澤,帶...
    沈念sama閱讀 39,151評論 5 365
  • 正文 年R本政府宣布,位于F島的核電站,受9級特大地震影響,放射性物質發生泄漏。R本人自食惡果不足惜,卻給世界環境...
    茶點故事閱讀 44,846評論 3 351
  • 文/蒙蒙 一、第九天 我趴在偏房一處隱蔽的房頂上張望。 院中可真熱鬧,春花似錦、人聲如沸。這莊子的主人今日做“春日...
    開封第一講書人閱讀 35,255評論 0 28
  • 文/蒼蘭香墨 我抬頭看了看天上的太陽。三九已至,卻和暖如春,著一層夾襖步出監牢的瞬間,已是汗流浹背。 一陣腳步聲響...
    開封第一講書人閱讀 36,592評論 1 295
  • 我被黑心中介騙來泰國打工, 沒想到剛下飛機就差點兒被人妖公主榨干…… 1. 我叫王不留,地道東北人。 一個月前我還...
    沈念sama閱讀 52,394評論 3 400
  • 正文 我出身青樓,卻偏偏與公主長得像,于是被迫代替她去往敵國和親。 傳聞我的和親對象是個殘疾皇子,可洞房花燭夜當晚...
    茶點故事閱讀 48,635評論 2 380

推薦閱讀更多精彩內容

  • 語音識別是以語音為研究對象,通過語音信號處理和模式識別讓機器自動識別和理解人類口述的語言。語音識別技術就是讓機器通...
    郭少悲閱讀 27,124評論 2 40
  • 承接前面的《淺談機器學習基礎》、《淺談深度學習基礎》和《淺談自然語言處理基礎》,主要參考了《解析深度學習:語音識別...
    我偏笑_NSNirvana閱讀 23,604評論 6 67
  • 車機從WinCE逐步進化到Android,從不能通訊到帶4G通訊,隨之帶來了一系列的新技術的應用。今天就來介紹當前...
    天楚銳齒閱讀 4,400評論 0 7
  • 這一篇文章其實是參考了很多篇文章之后寫出的一篇對于語言模型的一篇科普文,目的是希望大家可以對于語言模型有著更好地理...
    云時之間閱讀 4,482評論 2 8
  • 1.如何描述語音 2.如何理解語音的構成 3.語音如何識別 語音的基本概念 語音是一個復雜的現象。我們基本上不知道...
    Major術業閱讀 4,073評論 0 8