好久沒有更新了,這次來簡單的介紹一下自適應視頻播放的相關技術。
說到自適應視頻播放(Adaptive Streaming),網上的資料不多,可以供大家測試的視頻播放器也沒有多少,所以很多朋友都無從下手學習。這次來給大家分享一下自適應視頻播放技術的基礎原理,具體實現可以參考Exoplayer的源碼,這篇文章也會稍微介紹一下。
1.自適應視頻播放技術的原理
首先,我們所謂的自適應視頻播放技術中的自適應,適應的到底是什么呢?
在在線視頻播放中,最重要的一個要素應該就屬于客戶端的網絡狀況了,如果網絡狀況很差,俗稱的網速很慢,那么大家一般的體驗都是視頻很卡,看一會就停一會。那么有沒有可能讓我們的播放器自動檢測網絡狀況,在網絡差的情況下播放清晰度較差,數據量較小的視頻,當網絡情況變得好的時候播放清晰度好,但是數據量大的視頻呢?
哈哈答案是肯定的,自適應視頻播放技術就解決了這個問題。先給大家看一個前端播放器的示意圖。

通常來講,自適應播放技術一般包括前端的支持還有后臺的支持,后臺提供一個索引表(Manifest),上面記錄了同一個視頻不同清晰度的版本的Url(比如視頻的240p,480p,720p不同的版本文件)。前端的播放器在拿到這個索引表之后,會根據自身的網絡狀態,在不同清晰度直接的視頻文件轉換。
就如上圖所示,橫軸是時間,豎軸是清晰度。在示例里面,我們有三種不同清晰度的視頻文件,同時每個視頻文件一般是切割成以五秒或者十秒為一個單位的塊(Chunk),每次播放器加載播放都是以塊為單位。
所以說到底,自適應視頻并不是同一個容器文件(container)里面封裝了所有視頻軌道數據(當然理論上來說也不是不行),而是根據索引表的內容,和自身網絡的下載速度決定播放哪一個具體的容器文件罷了。
2.自適應視頻播放的規范
現在市面上的Adaptive Streaming肯定以??的HLS,還有另一個叫DASH的規范最為流行,我們這次以DASH這個規范來深入了解一下自適應視頻播放的一些細節。
2.1 DASH里面的MPD文件
MPD文件格式,就是我們在第一部分中說到的索引表Manifest了(HLS對應的索引表格式叫M3u8),它包含了所有DASH自適應視頻的信息。
我們以一個mpd為例子,點擊這里下載。
讓我們用xml reader來看看具體里面有什么內容:
2.1.1 adaptionset

每個mpd文件都會有至少一個adaptionset,用來記錄音頻/視頻文件們的位置,如上圖所示,該MPd有兩組數據,一組是視頻,一組是音頻
2.1.2 representation

每個adaptionset里面又會有多個representation,每一個representation其實就是代表了一個分辨率的視頻(或者音頻,這里主要以視頻講解為主)。最重要的三個參數我都打上了注解,注意到視頻的url是相對Url,也就是相對于該mpd文件的位置。比如第一個mp4文件絕對地址就是mpd的path+file name = http://yt-dash-mse-test.commondatastorage.googleapis.com/media/car-20120827-88.mp4
2.2 DASH對播放器行為的規范
mpd文件相信大家也有大致的了解了,那么播放器既然有了mpd文件,那怎么進行視頻文件的選擇呢?
其實很簡單,大家都看到了不同的representation都有一個bandwith的參數,這個參數規定了要使用該視頻文件的最低帶寬(如果沒記錯應該是以bit為單位。
以上述mpd為例,視頻分辨率由高到低的bandwith排列是:4190760 bit(4.2MB/s) ,2073921 bit(2.1 MB/s) , 869460 bit(0.9MB/s)....... 播放器每下載一些內容,都會計算當前的下載速度,然后根據當前的下載速度,從最高的分辨率開始,一路遍歷直到找到合適的視頻文件。
這里附上一段ExoPlayer的源代碼,可以更加清晰的了解播放器怎么選擇不同分辨率(其實代碼非常的簡單)

2.3 DASH - Fragmented MP4
我們在第一部分說過,自適應視頻的文件會被切割成塊,但是貌似我們看到的都是完整的mp4文件呀,說好的切割呢?
在DASH規范中,每個mp4都不是普通的mp4,而是一種叫Fragmented Mp4,中文可以翻譯為分段式MP4文件。它的特殊之處在于,一般的mp4視頻都是一個moov header,后面跟上一組mdat數據(不清楚文件結構可以參考我的第一篇文章),而fragmented MP4則會將視頻數據分為多個mdat塊。
我們用mp4 parser 來分析一下

上圖是一個普通的mp4文件

上圖則是一個分段式的mp4文件,我們可以看到文件的mdat被分為了若干塊,同時還有多一個sdix header,這個header記錄了每個mdat的位置和相應的大小,和時間的長度(一般每個mdat的時間長度都一樣,為若干秒)
3.播放器對應的細節

(略)。。。
這次就稍微分享一下自適應視頻的大概原理,具體的技術,例如播放器如何進行下載的控制,下載單位是什么,等等會在之后對ExoPlayer源碼的分析中分享,如果有著急的問題可以留言。