概述
本片文章主要介紹音頻基礎,在做音頻開發之前首先必須要對音頻的相關概念了解。以下是具體內容概述:
- 常見的音頻格式
- WAV
- MP3
- WMA
- RA
- APE
- PCM
- AAC
- 音頻相關的參數
- 采樣率
- 比特率
關于ios中音頻錄制播放和編碼,可參考利用AudioQueue做音頻采集編碼和播放(附完整demo)
常見的音頻格式
音頻文件格式專指存放音頻數據的文件的格式。存在多種不同的格式。
一般獲取音頻數據的方法是:采用固定的時間間隔,對音頻電壓采樣(量化),并將結果以某種分辨率(例如:CDDA每個采樣為16比特或2字節)存儲。采樣的時間間隔可以有不同的標準,如CDDA采用每秒44100次;DVD采用每秒48000或96000次。因此,采樣率,分辨率和聲道數目(例如立體聲為2聲道)是音頻文件格式的關鍵參數。
有兩類主要的音頻文件格式:
- 無損格式,例如WAV,PCM,ALS,ALAC,TAK,FLAC,APE,WavPack(WV)
- 有損格式,例如MP3,AAC,WMA,Ogg Vorbis
有損文件格式是基于聲學心理學的模型,除去人類很難或根本聽不到的聲音,例如:一個音量很高的聲音后面緊跟著一個音量很低的聲音。MP3就屬于這一類文件。
無損的音頻格式(例如FLAC)壓縮比大約是2:1,解壓時不會產生數據/質量上的損失,解壓產生的數據與未壓縮的數據完全相同。如需要保證音樂的原始質量,應當選擇無損音頻編解碼器。例如,用免費的FLAC無損音頻編解碼器你可以在一張DVD-R碟上存儲相當于20張CD的音樂。
下面簡單介紹一下音頻格式的發展歷史以及技術特點。具體包括:WAV、MP3、WMA、RA、APE、AAC等。
WAV音頻格式
WAV音頻格式介紹
WAV是微軟公司開發的一種聲音文件格式,用于保存WINDOWS平臺的音頻信息資源,被WINDOWS平臺及其應用程序所支持。“*.WAV”格式支持MSADPCM、CCITT A LAW等多種壓縮算法,支持多種音頻位數、采樣頻率和聲道,標準格式的WAV文件和CD格式一樣,也是44.1K的采樣頻率,速率88K/秒,16位量化位數。
在Windows平臺下,基于PCM編碼的WAV是被支持得最好的音頻格式,所有音頻軟件都能完美支持,由于本身可以達到較高的音質的要求,因此,WAV也是音樂編輯創作的首選格式,適合保存音樂素材。因此,基于PCM編碼的WAV被作為了一種中介的格式,常常使用在其他編碼的相互轉換之中,例如MP3轉換成WMA。
WAV音頻格式特點
WAV音頻格式的優點包括:簡單的編/解碼(幾乎直接存儲來自模/數轉換器(ADC)的信號)、普遍的認同/支持以及無損耗存儲。
WAV格式的主要缺點是需要音頻存儲空間。對于小的存儲限制或小帶寬應用而言,這可能是一個重要的問題。WAV格式的另外一個潛在缺陷是在32位WAV文件中的2G限制,這種限制已在為SoundForge開發的W64格式中得到了改善。
常見的WAV文件使用PCM無壓縮編碼,這使WAV文件的質量極高,體積也出奇大,對于PCM WAV,恐怕也只有無損壓縮的音頻才能和其有相同的質量,平時我們見的什么mp3,wma(不含 wmalossless)和wav的質量都是差很遠的!這點可以通過頻譜看出,即使320kbps的mp3和wav一比,也要自卑了!
MP3音頻格式
MP3音頻格式介紹
MP3全稱是動態影像專家壓縮標準音頻層面3(Moving Picture Experts Group Audio Layer III)。是當今較流行的一種數字音頻編碼和有損壓縮格式,它設計用來大幅度地降低音頻數據量,而對于大多數用戶來說重放的音質與最初的不壓縮音頻相比沒有明顯的下降。它是在1991年由位于德國埃爾朗根的研究組織Fraunhofer-Gesellschaft的一組工程師發明和標準化的。
所謂的MP3也就是指的是MPEG標準中的音頻部分,也就是MPEG音頻層。根據壓縮質量和編碼處理的不同分為3層,分別對應*.mp1
/*.mp2
/*.mp3
這3種聲音文件。需要提醒大家注意的地方是:MPEG音頻文件的壓縮是一種有損壓縮,MPEG3音頻編碼具有10:1~12:1的高壓縮率,同時基本保持低音頻部分不失真,但是犧牲了聲音文件中12KHz到16KHz高音頻這部分的質量來換取文件的尺寸,相同長度的音樂文件,用*.mp3
格式來儲存,一般只有*.wav
文件的1/10,而音質要次于CD格式或WAV格式的聲音文件。由于其文件尺寸小,音質好;所以在它問世之初還沒有什么別的音頻格式可以與之匹敵,因而為*.mp3格式的發展提供了良好的條件。
目前最為常用的音頻格式是MP3,MP3是一種有損壓縮的音頻格式,設計這種格式的目的就是為了大幅度的減小音頻的數據量,它舍棄PCM音頻數據中人類聽覺不敏感的部分。
MP3格式中的數據通常由兩部分組成,一部分為ID3用來存儲歌名、演唱者、專輯、音軌數等信息,另一部分為音頻數據。音頻數據部分以幀(frame)為單位存儲,每個音頻都有自己的幀頭,如圖所示就是一個MP3文件幀結構圖(圖片同樣來自互聯網)。MP3中的每一個幀都有自己的幀頭,其中存儲了采樣率等解碼必須的信息,所以每一個幀都可以獨立于文件存在和播放,這個特性加上高壓縮比使得MP3文件成為了音頻流播放的主流格式。幀頭之后存儲著音頻數據,這些音頻數據是若干個PCM數據幀經過壓縮算法壓縮得到的,對CBR的MP3數據來說每個幀中包含的PCM數據幀是固定的,而VBR是可變的。
MP3音頻格式的特點
- MP3是一個數據壓縮格式。
- 它丟棄掉脈沖編碼調制(PCM)音頻數據中對人類聽覺不重要的數據(類似于JPEG是一個有損圖像壓縮),從而達到了小得多的文件大小。
- MP3音頻可以按照不同的位速進行壓縮,提供了在數據大小和聲音質量之間進行權衡的一個范圍。MP3格式使用了混合的轉換機制將時域信號轉換成頻域信號。
- 32波段多相積分濾波器(PQF)。
- 36或者12 tap 改良離散余弦濾波器(MDCT);每個子波段大小可以在0...1和2...31之間獨立選擇。
- MP3不僅有廣泛的用戶端軟件支持,也有很多的硬件支持比如便攜式媒體播放器(指MP3播放器)DVD和CD播放器。
WMA音頻格式
WMA音頻格式介紹
WMA(Windows Media Audio),它是微軟公司推出的與MP3格式齊名的一種音頻格式。由于WMA在壓縮比和音質方面都超過了MP3,更是遠勝于RA(Real Audio),即使在較低的采樣頻率下也能產生較好的音質。一般使用Windows Media Audio編碼格式的文件以WMA作為擴展名,一些使用Windows Media Audio編碼格式編碼其所有內容的純音頻ASF文件也使用WMA作為擴展名。
WMA就是Windows Media Audio編碼后的文件格式。微軟聲稱,在只有64kbps的碼率情況下,WMA可以達到接近CD的音質。和以往的編碼不同,WMA支持防復制功能,它支持通過Windows Media Rights Manager 加入保護,可以限制播放時間和播放次數甚至于播放的機器等等。WMA支持流技術,即一邊讀一邊播放,因此WMA可以很輕松的實現在線廣播。
WMA音頻格式特點
- 在128kbps及以下碼流的試聽中WMA完全超過了MP3格式,低碼流之王不是浪得虛名的,因此WMA非常適合用于網絡流媒體。
- 當碼流上升到128kbps以后,WMA的音質并沒有如MP3一樣隨著碼流的提高而大大提升。同音源的一個320kbps的MP3與192kbps的WMA相比,音質和渲染力很容易分別出是MP3較優。因此對于有更高要求的用戶來說WMA并不是一個適合的格式。
- WMA 7之后的WMA支持證書加密,未經許可(即未獲得許可證書),即使是非法拷貝到本地,也是無法收聽的。
RA音頻格式
RA音頻格式介紹
RA的全稱是RealAudio,是RealNetworks公司成熟的音頻格式,它是一種可以在網絡上實時傳送和播放的音樂文件,是目前網絡上比較流行的流媒體技術。此類文件格式有以下幾個主要形式:RA(RealAudio)、RM(RealMedia,RealAudio G2)、RMX(RealAudio Secured),這些格式統稱為“Real”。
RA格式流媒體技術起源于窄帶互聯網時期。由于經濟發展的需要,人們迫切渴求一種網絡技術,以便進行遠程信息溝通。從1994年一家叫做progressivenetworks的美國公司成立之初,流媒體開始正式在互聯網上登場亮相。1995年,他們推出了c/s架構的音頻接受系統realaudio,并在隨后的幾年內引領了網絡流式技術的洶涌潮流。1997年9月,該公司更名為realnetworks,相繼發布了多款應用非常廣泛的流媒體播放器realplayer系列,在其鼎盛時期,曾一度占據該領域超過85%的市場份額。
RA音頻格式的特點
RA采用的是有損壓縮技術,由于它的壓縮比相當高,因此音質相對較差,但是文件也是最小的,因此在高壓縮比條件下表現好,但若在中、低壓縮比條件下時,表現卻反而不及其他同類型檔案格式了。此外RA可以隨網絡帶寬的不同而改變聲音質量,以使用戶在得到流暢聲音的前提下,盡可能高地提高聲音質量。由于RA格式的這些特點,因此特別適合在網絡傳輸速度較低的互聯網上使用,互聯網上許多的網絡電臺、音樂網站的歌曲試聽都在使用這種音頻格式。
APE音頻格式
APE音頻格式介紹
APE是Monkey's Audio提供的一種無損壓縮格式。在APE出現之前,音樂迷們都認為以CD或者WAV來保存自己喜歡的音樂素材是最好的方法了,但APE的出現,足以使他們改變這種看法,因為APE既可以保持音樂信號的無損,又可以以比WAV高得多的壓縮率(接近2:1)壓縮WAV文件,而且可以無須解壓而直接播放。由于壓縮后的APE文件只有原文件一半左右大小,APE格式受到了許多音樂愛好者的喜愛,特別是對于希望通過網絡傳輸音頻CD的朋友來說,APE可以幫助他們節約大量的資源。APE如此流行,在網上也比較容易能下載到APE格式的文件。
APE音頻格式的特點
APE的本質,其實它是一種無損壓縮音頻格式。它是從龐大的WAV音頻文件壓縮而來,當然還是要比MP3格式的文件要大。龐大的WAV音頻文件,可以通過Monkey''sAudio這個軟件進行“瘦身”壓縮為APE。很時候它被用做網絡音頻文件傳輸,因為被壓縮后的APE文件容量要比WAV源文件小一半多,可以節約傳輸所用的時間。更重要的是,通過Monkey''s Audio解壓縮還原以后得到的WAV文件可以做到與壓縮前的源文件完全一致。所以APE被譽為“無損音頻壓縮格式”,Monkey''s Audio被譽為“無損音頻壓縮軟件”。與采用WinZip或者WinRAR這類專業數據壓縮軟件來壓縮音頻文件不同,壓縮之后的APE音頻文件是可以直接被播放的。
相比于MP3、WMA等格式,APE可以用完勝來形容,APE的采樣率最高可達1400kbps,接近于音樂CD格式的1411.2kbps,而我們日常使用的壓縮格式的音樂,例如:MP3、WMA等,大多只是為128kbps。
PCM
目前我們在計算機上進行音頻播放都需要依賴于音頻文件,音頻文件的生成過程是將聲音信息采樣、量化和編碼產生的數字信號的過程,人耳所能聽到的聲音,最低的頻率是從20Hz起一直到最高頻率20KHZ,因此音頻文件格式的最大帶寬是20KHZ。根據奈奎斯特的理論,只有采樣頻率高于聲音信號最高頻率的兩倍時,才能把數字信號表示的聲音還原成為原來的聲音,所以音頻文件的采樣率一般在40~50KHZ,比如最常見的CD音質采樣率44.1KHZ。
對聲音進行采樣、量化過程被稱為脈沖編碼調制(Pulse Code Modulation),簡稱PCM。PCM數據是最原始的音頻數據完全無損,所以PCM數據雖然音質優秀但體積龐大,為了解決這個問題先后誕生了一系列的音頻格式,這些音頻格式運用不同的方法對音頻數據進行壓縮,其中有無損壓縮(ALAC、APE、FLAC)和有損壓縮(MP3、AAC、OGG、WMA)兩種。
AAC音頻格式
AAC音頻格式介紹
AAC(Advanced Audio Coding),中文稱為“高級音頻編碼”,出現于1997年,基于 MPEG-2的音頻編碼技術。由Fraunhofer IIS、杜比實驗室、AT&T、Sony(索尼)等公司共同開發,目的是取代MP3格式。2000年,MPEG-4標準出現后,AAC 重新集成了其特性,加入了SBR技術和PS技術,為了區別于傳統的 MPEG-2 AAC 又稱為 MPEG-4 AAC。
AAC號稱“最大能容納48通道的音軌,采樣率達96 KHz,并且在320Kbps的數據速率下能為5.1聲道音樂節目提供相當于ITU-R廣播的品質”。和MP3比起來,它的音質比較好,也能夠節省大約30%的儲存空間與帶寬。
AAC音頻格式的特點
- 提升的壓縮率:可以以更小的文件大小獲得更高的音質,同樣是128Kbps,AAC格式的音質明顯好于MP3
- 支持多聲道:可提供最多48個全音域聲道
- 更高的解析度:最高支持96KHz的采樣頻率
- 提升的解碼效率:解碼播放所占的資源更少
- AAC屬于有損壓縮的格式,與時下流行的APE、FLAC等無損格式相比音質仍然存在“本質上”的差距。
總的來講,AAC可以說是極為全面的編碼方式,一方面,多聲道和高采樣率的特點使得它非常適合未來的DVD-Audio;另一方面,低碼率下的高音質則使它也適合移動通訊、網絡電話、在線廣播等領域,真是全能的編碼方式。
音頻相關參數
采樣率
采樣率(也稱為采樣速度或者采樣頻率)定義了每秒從模擬信號中提取并組成數字信號的采樣個數,它用赫茲(Hz)來表示。采樣頻率的倒數叫作采樣周期或采樣時間,它是采樣之間的時間間隔。
采樣頻率只能用于周期性采樣的采樣器,對于非周期性采樣的采樣器沒有規則限制
采樣定理
采樣定理表明采樣頻率必須大于被采樣信號帶寬的兩倍,另外一種等同的說法是奈奎斯特頻率必須大于被采樣信號的帶寬。 如果信號的帶寬是100Hz,那么為了避免混疊現象采樣頻率必須大于200Hz。換句話說就是采樣頻率必須至少是信號中最大頻率分量頻率的兩倍,否則就不能從信號采樣中恢復原始信號。
正常人聽覺的頻率范圍大約是20HZ~20kHZ之間,根據奈奎斯特理論(只有采樣頻率高于聲音信號最高頻率的兩倍時,才能把數字信號表示的聲音還原成為原來的聲音),為了保證聲音不失真,采樣頻率應該在40KHz左右。常用的音頻采樣頻率有8kHz、11.025kHz、22.05kHz、16kHz、37.8kHz、44.1kHz、48kHz等。
常用的采樣率
在數字音頻領域,常用的采樣率有:
- 8,000 Hz - 電話所用采樣率,對于人的說話已經足夠
- 11,025 Hz
- 22,050 Hz - 無線電廣播所用采樣率
- 32,000 Hz - miniDV數碼視頻camcorder、DAT(LP mode)所用采樣率
- 44,100 Hz - 音頻CD,也常用于MPEG-1音頻(VCD, SVCD, MP3)所用采樣率
- 47,250 Hz - Nippon Columbia(Denon)開發的世界上第一個商用PCM錄音機所用采樣率
- 48,000 Hz - miniDV、數字電視、DVD、DAT、電影和專業音頻所用的數字聲音所用采樣率
- 50,000 Hz - 二十世紀七十年代后期出現的3M和Soundstream開發的第一款商用數字錄音機所用采樣率
- 50,400 Hz - 三菱X-80數字錄音機所用所用采樣率
- 96,000或者192,000 Hz - DVD-Audio、一些LPCM DVD音軌、Blu-ray Disc(藍光碟)音軌、和HD-DVD(高清晰度DVD)音軌所用所用采樣率
- 2.8224 MHz - SACD、索尼和飛利浦聯合開發的稱為Direct Stream Digital的1位sigma-delta modulation過程所用采樣率。
比特率
比特率是指每秒傳送的比特(bit)數。單位為 bps(Bit Per Second),比特率越高,傳送的數據越大,音質越好。
采樣率和比特率對音頻的影響
可以這樣講,采樣率和比特率就像是坐標軸上的橫縱坐標,橫坐標的采樣率表示了每秒鐘的采樣次數,縱坐標的比特率表示了用數字量來量化模擬量的時候的精度。
采樣率類似于動態影像的幀數,比如電影的采樣率是24赫茲,PAL制式的采樣率是25赫茲,NTSC制式的采樣率是30赫茲。當我們把采樣到的一個個靜止畫面再以采樣率同樣的速度回放時,看到的就是連續的畫面。同樣的道理,把以44.1kHZ采樣率記錄的CD以同樣的速率播放時,就能聽到連續的聲音。顯然,這個采樣率越高,聽到的聲音和看到的圖像就越連貫。當然,人的聽覺和視覺器官能分辨的采樣率是有限的,基本上高于44.1kHZ采樣的聲音,絕大部分人已經覺察不到其中的分別了。
而聲音的位數就相當于畫面的顏色數,表示每個取樣的數據量,當然數據量越大,回放的聲音越準確,不至于把開水壺的叫聲和火車的鳴笛混淆。同樣的道理,對于畫面來說就是更清晰和準確,不至于把血和西紅柿醬混淆。不過受人的器官的機能限制,16位的聲音和24位的畫面基本已經是普通人類的極限了,更高位數就只能靠儀器才能分辨出來了。比如電話就是3kHZ取樣的7位聲音,而CD是44.1kHZ取樣的16位聲音,所以CD就比電話更清楚。
當你理解了以上這兩個概念,比特率就很容易理解了。以電話為例,每秒3000次取樣,每個取樣是7比特,那么電話的比特率是21000。而CD是每秒44100次取樣,兩個聲道,每個取樣是13位PCM編碼,所以CD的比特率是44100213=1146600,也就是說CD每秒的數據量大約是144KB,而一張CD的容量是74分等于4440秒,就是639360KB=640MB
根據采樣率和比特率算音頻大小
CD音質的文件:
44.1kHz * 16bit * 2通道 = 1411200 bit/s = 1411 kbps
這就是CD音質音頻文件,每秒有141萬位信息,換算一下: 1411200bps/8/1024/1024 = 0.168MB
一首3分鐘20秒的音樂算下來就是33.6MB,這大概是無損音樂的大小。下面是網易云音樂的無損音樂大概大小截圖: