音頻學習筆記
1. 聲音基礎知識
1.1 聲音的產生
外界傳來的聲音引起人耳鼓膜振動經聽小骨及其他組織傳給聽覺神經,聽覺神經傳給大腦,這樣就聽到了聲音。
1.2 人耳聽覺的頻率范圍約20Hz-20KHz。
1.3 聲音三要素:音調、響度、音色。
音調:聲音的高低,由頻率決定,頻率越高音調越高。
響度:又稱音量、音強,由振幅和距離聲源的距離決定。
音色:又稱音品,由發聲物體本身材料、結構決定。
1.4 聲道:是分開錄音然后結合起來以便同時聽到的一段聲音。
單聲道:單聲道是指把來自不同方位的音頻信號混合后統一由錄音器材把它記錄下來,再由一只音箱進行重放。在單聲道的音響器材中,你只能感受到聲音、音樂的前后位置及音色、音量的大小,而不能感受到聲音從左到右等橫向的移動。
雙聲道:雙聲道就是有兩個聲音通道,其原理是人們聽到聲音時可以根據左耳和右耳對聲音相位差來判斷聲源的具體位置,在電路上它們往往各自傳遞的電信號是不一樣的,電聲學家在追求立體聲的過程中,由于技術的限制,在最早的時候只有采用雙聲道來實現。
立體聲:就是指具有立體感的聲音。是一個幾何概念,是指在三維空間中占有位置的事物。因為聲源有確定的空間位置,聲音有確定的方向來源,人們的聽覺有辨別聲源方位的能力,尤其是有多個聲源同時發聲時,人們可以憑聽覺感知各個聲源在空間的位置分布狀況。
2. 認識數字音頻
2.1 模擬信號
模擬信號:音頻信號是典型的連續信號,在時間和幅度上都是連續的。在任何一個特定的時間點都有一個對應是幅值。我們把時間和幅度上都是連續的信號稱為模擬信號。
2.2 數字信號
數字信號:在某些特定的時刻對這種模擬信號進行測量叫做采樣。在有限個特點時間的采樣得到的信號叫做離散時間信號。采到的幅值是一個實數,因此幅度還是一個連續的值,當我們將幅值限定為有限個數值,就稱為離散數值信號。我們把時間和幅值都用離散的值表示的時候,此時表示的信號就是數字信號。
2.3 數字音頻相關知識
人們日常生活聽到的各種聲音信息是典型的連續信號,它不僅在時間上連續,而且在幅度上也連續,我們稱之為模擬音頻。在數字音頻技術產生之前,我們只能用磁帶或膠木唱片來存儲模擬音頻,隨著技術的發展,聲音信號逐漸過渡到了數字化存儲階段,可以用計算機等設備將它們存儲起來。
模擬音頻數字化:對于計算機來說,處理和存儲的只可以是二進制數,所以在使用計算機處理和存儲聲音信號之前,我們必須使用模數轉換(A/D)技術將模擬音頻轉化為二進制數,這樣模擬音頻就轉化為數字音頻了。所謂模數轉換就是將模擬信號轉化為數字信號,模數轉換的過程包括采樣、量化和編碼三個步驟。模擬音頻向數字音頻的轉換是在計算機的聲卡中完成的。
采樣: 采樣是指將時間軸上連續的信號每隔一定的時間間隔抽取出一個信號的幅度樣本,把連續的模擬量用一個個離散的點表示出來,使其成為時間上離散的脈沖序列。
著名的采樣定理(Nyquist 定理)中給出有明確的答案:要想不產生低頻失真,采樣頻率至少應為所要錄制的音頻的最高頻率的2 倍。例如,電話話音的信號頻率約為3.4 kHz ,采樣頻率就應該≥6.8 kHz ,考慮到信號的衰減等因素,一般取為8kHz 。
量化:將采樣后離散信號的幅度用二進制數表示出來的過程稱為量化。每個采樣點所能表示的二進制位數稱為量化精度,或量化位數。量化精度反映了度量聲音波形幅度的精度。
編碼:采樣和量化后的信號還不是數字信號,需要將它轉化為數字編碼脈沖,這一過程稱為編碼。模擬音頻進采樣、量化和編碼后形成的二進制序列就是數字音頻信號。
PCM編碼: PCM(Pulse Code Modulation),即脈沖編碼調制,指模擬音頻信號只經過采樣、模數轉換直接形成的二進制序列,未經過任何編碼和壓縮處理。PCM編碼的最大的優點就是音質好,最大的缺點就是體積大。
3. 音頻的傳輸
3.1 非平衡音頻信號
非平衡音頻: 使用兩根線(一根信號線,一根地線)傳送一路(單聲道)音頻信號。非平衡音頻傳輸過程中信號不穩定,舉例說明:比如我們需要將音頻信號A從一段傳送到另一端,這個過程會有其他型號進入到這一根線,比如電腦的wifi信號B,手機產生的信號C等。等到音頻接收端收到的信號就變為了信號A+B+C。
3.2 平衡音頻信號
平衡音頻信號:使用三跟線(分別是熱端、冷端、地線)來傳送一路音頻信號。傳輸原理:熱端和冷端傳送的信號是同一個信號,信號的發送端把一個聲音信號分成兩路,一路正相進入熱端,一個反相后進入冷端。在信號的接收端把冷端進行反相和熱端合并,得到最終的信號。
抗干擾原理:我們將音頻信號A從一端發送另一端。在發送前,先兵分兩路,讓原始的A進入熱端,把A做一個反相之后進入冷端,變成-A,然后出發! 路上遇到了變壓器來的干擾B進入線路,。熱線上的信號變成了A+B,冷線上的信號變成了-A+B。還有手機干擾C,熱線上變成了A+B+C,冷線上變成了-A+B+C。 現在到接收端了,先把冷端做一個反相-(-A+B+C)=A-B-C 。然后,把這個反相過的冷端和熱端的信號混合,也就是(熱端)+(冷端):(A+B+C)+(A-B-C)。
結果呢,不用我說了吧,B和C這兩個干擾源在這里正好被完全抵消了!消得干干凈凈!剩下的只有我們要傳送的信號A!
3.3 AES/EBU 接口標準
AES/EBU 是一種無壓縮的數據音頻格式,以單向串行碼來傳送兩個聲道的高質量數字音頻數據(最高24bit量化),及傳送相關的控制信息 ( 包括數字信道的源和目的地址、 日期時間碼、 采樣點數、 字節長度和其它業 務 信息) 并有檢測誤碼的能力。
AES/EBU信號數字格式
同步符:也稱引導符,占據每個子幀開頭的4bit,用以標識每一個子幀的開始。子幀的開始:分三種情況,分別是一般子幀A,一般子幀B,既是塊的開始也是子幀A的開始;用于區分上述三種情況,AES/EBU規定了X、Y、Z三種同步符,用以分別標識。
音頻數據:AES/EBU 支持 16- 24 bit 的音頻樣本數據。 在音頻樣本大于 20 bit 時, 數據同時占據輔助和音頻數據域; 在等于、小于 20
bit 時, 僅存放在音頻數據域中, 4 bit 輔助域可用于存放其它數據。
V(合法標記)位:合法標記位表示此音頻采樣是否正確、有無包錯誤、是否適合作為數模轉換。
U(用戶)位:沒有定義,可以用戶定義使用。
C(通道狀態)位:每一個子幀的音頻樣本都對應一個C(通道狀態)位,所以一個塊中的A、B子幀各送了192個bit C(通道狀態)位;在節目端,各自的192bit被分別記憶組合,形成了兩個24字節的數據集合,稱為通道狀態塊。子幀 A、B 的通道狀態塊是獨立的, 與 A、B 聲道的音頻樣品對應。 通道狀態塊每192 幀更新一次。
P(奇偶校驗)位:為偶校驗位, 可檢出子幀中奇數個錯。
通道狀態塊數據結構:
3.4 AES 數據直通模式
同步符:也稱引導符,占據每個子幀開頭的4bit,用以標識每一個子幀的開始。子幀的開始:分三種情況,分別是一般子幀A,一般子幀B,既是塊的開始也是子幀A的開始;用于區分上述三種情況,AES/EBU規定了X、Y、Z三種同步符,用以分別標識。
音頻數據:AES/EBU 支持 16- 24 bit 的音頻樣本數據。 在音頻樣本大于 20 bit 時, 數據同時占據輔助和音頻數據域; 在等于、小于 20 bit 時, 僅存放在音頻數據域中, 4 bit 輔助域可用于存放其它數據。
V(合法標記)位:合法標記位表示此音頻采樣是否正確、有無包錯誤、是否適合作為數模轉換。
U(用戶)位:沒有定義,可以用戶定義使用。
C(通道狀態)位:每一個子幀的音頻樣本都對應一個C(通道狀態)位,所以一個塊中的A、B子幀各送了192個bit C(通道狀態)位;在節目端,各自的192bit被分別記憶組合,形成了兩個24字節的數據集合,稱為通道狀態塊。子幀 A、B 的通道狀態塊是獨立的, 與 A、B 聲道的音頻樣品對應。 通道狀態塊每192 幀更新一次。
P(奇偶校驗)位:為偶校驗位, 可檢出子幀中奇數個錯。
通道狀態塊:
Data Burst Format: