人類的語音信號處理過程依次如下:
- 人嘴說話
- 聲電轉(zhuǎn)換
- 抽樣(模數(shù)轉(zhuǎn)換)
- 量化(將數(shù)字信號用適當(dāng)?shù)臄?shù)值表示)
- 編碼(數(shù)據(jù)壓縮)
- 傳輸(網(wǎng)絡(luò)或者其他方式)
- 解碼(數(shù)據(jù)還原)
- 反抽樣(數(shù)模轉(zhuǎn)換)
- 電聲轉(zhuǎn)換
- 人耳聽聲
不同物種動物的聽覺頻率范圍有哪些?
蝙蝠:1000~120000Hz
海豚:2000~100000Hz
貓:60~65000Hz
狗:40~50000Hz
人:20~20000Hz
脈沖編碼調(diào)制是什么?
- 未經(jīng)過數(shù)據(jù)壓縮,直接量化進行傳輸則被稱為PCM(脈沖編碼調(diào)制)。
如何計算PCM音頻流的碼率?
- 采樣率值 × 采樣大小值 × 聲道數(shù) bps = 碼率
- 例如: 一個采樣率為44.1KHz,采樣大小為16bit,雙聲道的PCM編碼的WAV文件,它的數(shù)據(jù)速率則為 44.1K×16×2 =1411.2 Kbps。
也被稱為數(shù)據(jù)帶寬,它和ADSL中的帶寬是一個概念。將碼率除以8,就可以得到這個WAV的數(shù)據(jù)速率,即176.4KB/s。
這表示存儲一秒鐘采樣率為44.1KHz,采樣大小為16bit,雙聲道的PCM編碼的音頻信號,需要176.4KB的空間,1分鐘則約為10.34M
MP3是什么 ?
- MPEG-1 or MPEG-2 Audio Layer III 一種數(shù)字音頻編碼和有損壓縮格式,它被設(shè)計來大幅降低音頻數(shù)據(jù)量.
MP3原理是什么?
- 它舍棄脈沖編碼調(diào)制(PCM)音頻數(shù)據(jù)中,對人類聽覺不重要的數(shù)據(jù)(類似于JPEG是一個有損圖像壓縮),從而達(dá)到了壓縮成小得多的文件大小。
AAC 又是什么?
- 高級音頻編碼(英語:Advanced Audio Coding,AAC),出現(xiàn)于1997年,基于MPEG-2的音頻編碼技術(shù)。
比特率是什么?
- 單位時間內(nèi)的數(shù)據(jù)傳輸率時通常使用碼流或碼率,單位是kbps(千位每秒)。
低比特率的注意事項?
- 使用過低的比特率,“壓縮噪聲(compression artifact)”(原始錄音中沒有的聲音)將會在回放時出現(xiàn)。
采樣率是什么?
- 也稱為采樣速度或者采樣頻率,定義了每秒從連續(xù)信號中提取并組成離散信號的采樣個數(shù),它用赫茲(Hz)來表示。
實際中,人發(fā)出的聲音信號為模擬信號,想要在實際中處理必須為數(shù)字信號,即采用抽樣、量化、編碼的處理方案。處理的第一步為抽樣,即模數(shù)轉(zhuǎn)換。
簡單地說就是通過波形采樣的方法記錄1秒鐘長度的聲音,需要多少個數(shù)據(jù)。
根據(jù)奈魁斯特(NYQUIST)采樣定理,用兩倍于一個正弦波的頻繁率進行采樣就能完全真實地還原該波形。
所以,對于聲音信號而言,要想對離散信號進行還原,必須將抽樣頻率定為40KHz以上。
實際中,一般定為44.1KHz。44.1KHz采樣率的聲音就是要花費44000個數(shù)據(jù)來描述1秒鐘的聲音波形。
MP3比特率參考值有哪些?
* 32 kbit/s—MW(AM)質(zhì)量
* 96 kbit/s—FM質(zhì)量
* 128 - 160 kbit/s –相當(dāng)好的質(zhì)量,有時有明顯差別
* 192 kbit/s—優(yōu)良質(zhì)量,偶爾有差別
* 224 - 320 kbit/s—高質(zhì)量
* 800 bit/s –能夠分辨的語音所需最低碼率(需使用專用的FS-1015 語音編解碼器)
* 8 kbit/s—電話質(zhì)量(使用語音編碼)
* 32-500 kbit/s -- Ogg Vorbis中使用的有損音頻模式
* 500 kbit/s–1 Mbit/s—無損音頻,格式為FLAC,ALAC,WavPack或Monkey's Audio
* 1411.2 kbit/s—脈沖編碼調(diào)制(PCM)聲音格式為光盤(CD)的數(shù)字音頻
* 5644.8 kbit/s—SACD使用的Direct Stream Digital格式
采樣率參考值有哪些?
* 8,000 Hz - 電話所用采樣率,對于人的說話已經(jīng)足夠
* 11,025 Hz
* 22,050 Hz - 無線電廣播所用采樣率
* 32,000 Hz - miniDV數(shù)碼視頻camcorder、DAT(LP mode)所用采樣率
* 44,100 Hz - 音頻CD,也常用于MPEG-1音頻(VCD, SVCD, MP3)所用采樣率
* 47,250 Hz - Nippon Columbia(Denon)開發(fā)的世界上第一個商用PCM錄音機所用采樣率
* 48,000 Hz - miniDV、數(shù)字電視、DVD、DAT、電影和專業(yè)音頻所用的數(shù)字聲音所用采樣率
* 50,000 Hz - 二十世紀(jì)七十年代后期出現(xiàn)的3M和Soundstream開發(fā)的第一款商用數(shù)字錄音機所用采樣率
* 50,400 Hz - 三菱X-80數(shù)字錄音機所用所用采樣率
* 96,000或者192,000 Hz - DVD-Audio、一些LPCM DVD音軌、Blu-ray Disc(藍(lán)光盤)音軌、和HD-DVD(高清晰度DVD)音軌所用所用采樣率
* 2.8224 MHz - SACD、索尼和飛利浦聯(lián)合開發(fā)的稱為Direct Stream Digital的1位sigma-delta modulation過程所用采樣率。
H5 audio 標(biāo)簽中 各瀏覽器對音頻格式支持情況
+---------------------+-----+-----+-----+-----+
| Browser | Ogg | MP3 | AAC | Wav |
+---------------------+-----+-----+-----+-----+
| Internet Explorer 9 | No | Yes | Yes | No |
| Firefox 5 | Yes | No | No | Yes |
| Chrome 12 | Yes | Yes | Yes | Yes |
| Safari 5 | No | Yes | Yes | Yes |
| Opera 11.5 | Yes | No | No | Yes |
+---------------------+-----+-----+-----+-----+
關(guān)于延時
IP網(wǎng)中話音分組的端到端時延,150ms以下的時延,對于大多數(shù)應(yīng)用來說是可接受的;150~400ms之間的時延,在用戶預(yù)知時延狀況的前提下可以接受;大于400ms的時延不可接受。
關(guān)于丟包率
丟包對VoIP語音質(zhì)量的影響較大,當(dāng)丟包率大于10%時,已不能接受,而在丟包率為5%時,基本可以接受。因此,要求IP承載網(wǎng)的丟包率小于5%。
數(shù)據(jù)參考 google 維基百科wiki