歡迎關注微信公眾號watson_python,及時獲取最新的更新。
在Watson中提供了兩個關于語音處理的API分別是文本轉語音和語音轉文本。在第二章的例子中,我們使用了文本轉語音的API,在這一章要對這兩個API進行展開介紹和例子說明。
Text to Speech
Text toSpeech是將文本轉化成語音的API。利用這個API可以應用在Hand Free方面的應用開發,如:自動駕駛的應答,機器人的應答等。IBM提供了多種語言的轉換。
這個API使用的時候需要username和password兩個參數來訪問IBM在bluemix上提供的service。具體的可以參看第二章。
Text to Speech中的synthesize的參數:
Speech to Text
Speech toText可以將一段語音轉換成文本,目前也支持多個國家的語音。可以應用于Call Center中,對在電話中討論的內容進行分析。在這個API中可以識別不同的發言者,并區分出不同發言者的發言。下邊通過一個簡單的例子來說明一下API的具體使用。
我們使用了Watson SDK在Python中調用Watson API來完成我們的操作。首先我們需要在Bluemix上創建一個SpeechtoText的service,然后在Python引入我們要使用的package。
fromwatson_developer_cloudimportSpeechToTextV1
然后調用SpeechToTextV1. recognize函數來進行語音識別。recongize的常用參數如下:
一段簡單的代碼,利用Speech to Text,將一段語音轉化成文本。