關(guān)于直播,所有的技術(shù)細(xì)節(jié)都在這里了(一)
2016年5月10日
網(wǎng)絡(luò)視頻直播存在已有很長一段時間,隨著移動上下行帶寬提升及資費(fèi)的下調(diào),視頻直播被賦予了更多娛樂和社交的屬性,人們享受隨時隨地進(jìn)行直播和觀看,主播不滿足于單向的直播,觀眾則更渴望互動,直播的打開時間和延遲變成了影響產(chǎn)品功能發(fā)展重要指標(biāo)。那么,問題來了:如何實(shí)現(xiàn)低延遲、秒開的直播?
先來看看視頻直播的5個關(guān)鍵的流程:錄制->編碼->網(wǎng)絡(luò)傳輸->解碼->播放,每個環(huán)節(jié)對于直播的延遲都會產(chǎn)生不同程度的影響。這里重點(diǎn)分析移動設(shè)備的情況。受限于技術(shù)的成熟度、硬件環(huán)境等,我們針對移動場景簡單總結(jié)出直播延遲優(yōu)化的4個點(diǎn):網(wǎng)絡(luò)、協(xié)議、編解碼、移動終端,并將分四期來一一解密UCloud直播云實(shí)現(xiàn)低延遲、秒開的技術(shù)細(xì)節(jié)。
本文主要講述UCloud直播云實(shí)現(xiàn)接入網(wǎng)絡(luò)優(yōu)化的技術(shù)細(xì)節(jié)。
1)全局負(fù)載均衡-就近接入
實(shí)現(xiàn)就近接入的技術(shù)比較廣為人知,就是CDN即Content Delivery Network (內(nèi)容分發(fā)網(wǎng)絡(luò))。CDN包含兩大核心技術(shù):負(fù)載均衡和分發(fā)網(wǎng)絡(luò),隨著10多年的演進(jìn),對負(fù)載均衡和分發(fā)的實(shí)現(xiàn)方式已多種多樣,分發(fā)網(wǎng)絡(luò)的構(gòu)建策略通常是經(jīng)過日積月累的總結(jié)出一套最合適的分發(fā)路由,并且也不是一成不變,需時刻關(guān)注調(diào)整,動態(tài)運(yùn)營。這里重點(diǎn)介紹下CDN的負(fù)載均衡技術(shù)。
負(fù)載均衡是如何實(shí)現(xiàn)讓用戶就進(jìn)訪問的呢?比較普遍的實(shí)現(xiàn)方式:通過用戶使用的DNS服務(wù)器來判斷客戶端所在的網(wǎng)絡(luò)位置,從而返回對應(yīng)的服務(wù)IP。如下圖示例:
廣東電信用戶IP:1.1.1.1 需要看一個直播http://www.ucloud.cn/helloworld.flv,實(shí)現(xiàn)就近訪問的過程是:
1>用戶向配置的DNS服務(wù)器1.1.1.0(通常是運(yùn)營商指定,也稱local DNS,后面簡稱Ldns)發(fā)起www.ucloud.cn的查詢;
2> Ldns 上沒有該域名的記錄,則往頂級即Root NS上發(fā)起查詢;
3>Root NS返回告知Ldns該域名的權(quán)威解析記錄在UCloud NS上;
4>Ldns 向UCloud NS發(fā)起查詢;
5>UCloud NS 向UCloud GSLB服務(wù)發(fā)起查詢,GSLB發(fā)現(xiàn) Ldns1.1.1.0是屬于廣東電信;
6>返回廣東電信的就近節(jié)節(jié)點(diǎn)IP1.1.1.2;
7>返回1.1.1.2給Ldns;
8>返回給用戶1.1.1.2,用戶到1.1.1.2上去獲取直播內(nèi)容。
鏈路很長,但是每個Ldns上都會對查詢過的域名做合理的緩存,下一個廣東電信的用戶再來查詢的時候就可以直接返回1.1.1.2。架構(gòu)并不復(fù)雜,關(guān)鍵點(diǎn)是如何知道Ldns是位于廣東電信,這就涉及一個IP地址庫。有開源地址庫,也有商業(yè)地址庫,可以按需求采購即可,一般一年1萬左右。這里不難看出來,調(diào)度的準(zhǔn)確度是完全依賴用戶配置的Ldns,而這些Ldns大多數(shù)是省級別的,即GLSB只知道用戶是廣東電信,但是常常分不出來是廣東廣州電信,還是廣東深圳電信。 HTTPDNS就是實(shí)現(xiàn)更精準(zhǔn)的調(diào)度一種方式:
1>用戶1.1.1.1通過HTTP協(xié)議直接向UCloud NS請求直播域名www.ucloud.cn;
2>UCloud NS發(fā)現(xiàn)用戶IP1.1.1.1屬于廣東深圳電信;
3>返回廣東深圳電信節(jié)點(diǎn)1.1.1.11給UCloud NS;
4>返回給用戶。
HTTPDNS的好處顯而易見:一可精準(zhǔn)獲得用戶端的IP,有效避免用戶配錯Ldns(有時是網(wǎng)絡(luò)中心配錯DNS)的情況,可更精準(zhǔn)定位用戶所在網(wǎng)絡(luò)位置。二可避免DNS解析劫持。
2)BGP中轉(zhuǎn)架構(gòu)-最短傳輸路徑
BGP即Border Gateway Protocol (邊界網(wǎng)關(guān)協(xié)議),業(yè)內(nèi)簡稱BGP。為什么BGP中轉(zhuǎn)架構(gòu)對直播加速和分發(fā)如此重要?不得不提國內(nèi)復(fù)雜的網(wǎng)絡(luò)狀況,較廣為人知的是“南電信北聯(lián)通”的寬帶用戶分布。那一個簡單的問題,電信主播發(fā)起了直播,聯(lián)通的用戶想看怎么辦呢? 從結(jié)構(gòu)上講,肯定是有有限個電信聯(lián)通兩個運(yùn)營商的交匯點(diǎn),相當(dāng)于信息橋梁。 這就會帶來兩個問題:1、路程要繞遠(yuǎn),網(wǎng)絡(luò)延遲高且不穩(wěn)定;2、高峰期擁堵,導(dǎo)致直播流卡頓。
BGP的技術(shù)原理往簡單的說就是允許同一IP在不同網(wǎng)絡(luò)中廣播不同的路由信息,效果就是同一個IP,當(dāng)電信用戶來訪問時走電信網(wǎng)內(nèi)的路由,聯(lián)通用戶來訪問時走的聯(lián)通的路由。所以BGP技術(shù)對跨運(yùn)營商的訪問帶來了巨大的便利,特別是直播場景。不同于傳統(tǒng)的文件緩存場景,一個圖片哪怕第一次是跨了遙遠(yuǎn)的距離從源站獲取后,本地網(wǎng)絡(luò)進(jìn)行緩存,后面的訪問都走本地網(wǎng)絡(luò)。直播加速是流式的,并且當(dāng)要做到低延遲的時候,中間的緩存要盡可能少。 BGP相當(dāng)于給跨網(wǎng)的用戶就近搭建了一坐橋梁,不必繞遠(yuǎn)路,延時和穩(wěn)定性都大大提高了。
技術(shù)原理部分介紹完了,那么多直播延遲影響有多少改善呢?首先這里的就近,不一定是物理距離近,不考慮瞬時負(fù)載情況下,更多是指測速延時最優(yōu)的機(jī)房。在國內(nèi)一般而言相同的接入運(yùn)營商(電信、聯(lián)通、移動)并且地理位置最近的情況網(wǎng)絡(luò)延遲最優(yōu),小于15ms。跨省同運(yùn)營商的網(wǎng)絡(luò)延遲25~50ms,跨運(yùn)營商情況更復(fù)雜一些,在50~100ms。總結(jié)起來,直播當(dāng)中每個包的延時可以縮短100ms,由于網(wǎng)絡(luò)的疊加效果,反射到上層是秒級的延遲縮減。
以上就是直播云實(shí)現(xiàn)接入網(wǎng)絡(luò)優(yōu)化的技術(shù)細(xì)節(jié)。公開的直播協(xié)議眾多,RTMP、HLS、HDL(HTTP-FLV)、RTP,直播平臺應(yīng)該怎樣選擇合適的協(xié)議?請參考《關(guān)于直播,所有的技術(shù)細(xì)節(jié)都在這里了(二)》。
關(guān)于直播,所有的技術(shù)細(xì)節(jié)都在這里了(二)
2016年5月12日
上篇《關(guān)于直播,所有的技術(shù)細(xì)節(jié)都在這里了(一)》我們講述了如何讓直播內(nèi)容以“最短”路徑從主播到觀眾上,傳輸層面獲得最低延遲,在本篇中我們會介紹直播應(yīng)用層協(xié)議及傳輸層協(xié)議的選擇以及對直播體驗(yàn)影響的分析?。
直播協(xié)議的選擇
國內(nèi)常見公開的直播協(xié)議有幾個:RTMP、HLS、HDL(HTTP-FLV)、RTP,我們來逐一介紹。
RTMP協(xié)議:
是Adobe的專利協(xié)議,現(xiàn)在大部分國外的CDN已不支持。在國內(nèi)流行度很高。原因有幾個方面:
1、開源軟件和開源庫的支持穩(wěn)定完整。如斗魚主播常用的OBS軟件,開源的librtmp庫,服務(wù)端有nginx-rtmp插件。
2、播放端安裝率高。只要瀏覽器支持FlashPlayer就能非常簡易的播放RTMP的直播,協(xié)議詳解可以Google了解。相對其他協(xié)議而言,RTMP協(xié)議初次建立連接的時候握手過程過于復(fù)雜(底層基于TCP,這里說的是RTMP協(xié)議本身的交互),視不同的網(wǎng)絡(luò)狀況會帶來給首開帶來100ms以上的延遲。基于RTMP的直播一般內(nèi)容延遲在2~5秒。
HTTP-FLV協(xié)議:
即使用HTTP協(xié)議流式的傳輸媒體內(nèi)容。相對于RTMP,HTTP更簡單和廣為人知,而且不擔(dān)心被Adobe的專利綁架。內(nèi)容延遲同樣可以做到2~5秒,打開速度更快,因?yàn)镠TTP本身沒有復(fù)雜的狀態(tài)交互。所以從延遲角度來看,HTTP-FLV要優(yōu)于RTMP。
HLS協(xié)議:
即Http Live Streaming,是由蘋果提出基于HTTP的流媒體傳輸協(xié)議。HLS有一個非常大的優(yōu)點(diǎn):HTML5可以直接打開播放;這個意味著可以把一個直播鏈接通過微信等轉(zhuǎn)發(fā)分享,不需要安裝任何獨(dú)立的APP,有瀏覽器即可,所以流行度很高。社交直播APP,HLS可以說是剛需,下來我們分析下其原理 。
基于HLS的直播流URL是一個m3u8的文件,里面包含了最近若干個小視頻TS(一種視頻封裝格式,這里就不擴(kuò)展介紹)文件,如http://www.ucloud.cn/helloworld.m3u8是一個直播留鏈接,其內(nèi)容如下:
假設(shè)列表里面的包含5個TS文件,每個TS文件包含5秒的視頻內(nèi)容,那么整體的延遲就是25秒。當(dāng)然可以縮短列表的長度和單個TS文件的大小來降低延遲,極致來說可以縮減列表長度為1,1秒內(nèi)容的m3u8文件,但是極易受網(wǎng)絡(luò)波動影響造成卡頓。
通過公網(wǎng)的驗(yàn)證,目前按同城網(wǎng)絡(luò)可以做到比較好的效果是5~7秒的延遲,也是綜合流暢度和內(nèi)容延遲的結(jié)果。那么HTML5是否可以有更低延遲直接打開的直播流技術(shù)呢? 我們在最后會探討這個問題。
RTP協(xié)議:
即Real-time Transport Protocol,用于Internet上針對多媒體數(shù)據(jù)流的一種傳輸層協(xié)議。
實(shí)際應(yīng)用場景下經(jīng)常需要RTCP(RTP Control Protocol)配合來使用,可以簡單理解為RTCP傳輸交互控制的信令,RTP傳輸實(shí)際的媒體數(shù)據(jù)。
RTP在視頻監(jiān)控、視頻會議、IP電話上有廣泛的應(yīng)用,因?yàn)橐曨l會議、IP電話的一個重要的使用體驗(yàn):內(nèi)容實(shí)時性強(qiáng)。
對比與上述3種或?qū)嶋H是2種協(xié)議,RTP和它們有一個重要的區(qū)別就是默認(rèn)是使用UDP協(xié)議來傳輸數(shù)據(jù),而RTMP和HTTP是基于TCP協(xié)議傳輸。為什么UDP 能做到如此實(shí)時的效果呢?關(guān)于TCP和UDP差別的分析文章一搜一大把,這里不在贅述,簡單概括:
UDP:單個數(shù)據(jù)報(bào),不用建立連接,簡單,不可靠,會丟包,會亂序;
TCP:流式,需要建立連接,復(fù)雜,可靠,有序。
實(shí)時音視頻流的場景不需要可靠保障,因此也不需要有重傳的機(jī)制,實(shí)時的看到圖像聲音,網(wǎng)絡(luò)抖動時丟了一些內(nèi)容,畫面模糊和花屏,完全不重要。TCP為了重傳會造成延遲與不同步,如某一截內(nèi)容因?yàn)橹貍鳎瑢?dǎo)致1秒以后才到,那么整個對話就延遲了1秒,隨著網(wǎng)絡(luò)抖動,延遲還會增加成2秒、3秒,如果客戶端播放是不加以處理將嚴(yán)重影響直播的體驗(yàn)。
總結(jié)一下:在直播協(xié)議的選擇中,如果選擇是RTMP或HTTP-FLV則意味著有2~5秒的內(nèi)容延遲,但是就打開延遲開,HTTP-FLV 要優(yōu)于RTMP。HLS則有5~7秒的內(nèi)容延遲。選擇RTP進(jìn)行直播則可以做到1秒內(nèi)的直播延遲。但就目前所了解,各大CDN廠商沒有支持基于RTP直播的,所以目前國內(nèi)主流還是RTMP或HTTP-FLV。
是否有除了HLS外更低延遲的方案?
HLS的優(yōu)點(diǎn)點(diǎn)是顯而易見的:移動端無需安裝APP使用兼容HTML5的瀏覽器打開即可觀看,所有主流的移動端瀏覽器基本都支持HTML5,在直播的傳播和體驗(yàn)上有巨大的優(yōu)勢。
而看起來唯一的缺點(diǎn):內(nèi)容延遲高(這里也有很多HLS限制沒有提到,比如必須是H264+AAC編碼,也可認(rèn)為是“缺點(diǎn)”之一)。如果能得到解決,那將會是直播技術(shù)非常大的一個進(jìn)步。或者換個說法,有沒有更低延遲可直接用鏈接傳播的直播方案?不局限于HLS本身。
對于瀏覽器直接的視頻互動,Google一直在推WebRTC,目前已有不少成型的產(chǎn)品出現(xiàn),可以瀏覽器打開即實(shí)時對話、直播。但來看看如下的瀏覽器覆蓋圖:
非常遺憾的說,在直至iOS 9.3上的Safari仍然不能支持WebRTC。繼續(xù)我們的探索,那Websocket支持度如何呢?
除了老而不化的Opera Mini外,所有的瀏覽器都支持WebSocket。這似乎是個好消息。梳理一下HTML5 WebSocket直播需要解決的問題:
1、后端兼容
2、傳輸
3、解碼播放
對于#1似乎不是特別大問題,對于做過RTMP轉(zhuǎn)HLS、RTP來說是基本功。#2對于瀏覽器來說使用HTTP來傳輸是比較好的選項(xiàng)。對于#3 這里推薦一個開源的JS解碼項(xiàng)目jsmpeg:https://github.com/phoboslab/jsmpeg,里面已有一個用于直播的stream-server.js的NodeJS服務(wù)器。
從測試結(jié)果看,該項(xiàng)目的代碼相對較薄,還沒達(dá)到工業(yè)級的成熟度,需要大規(guī)模應(yīng)用估計(jì)需要自填不少坑,有興趣的同學(xué)可以學(xué)習(xí)研究。
以上就是直播云:直播應(yīng)用層協(xié)議及傳輸層協(xié)議的選擇以及對直播體驗(yàn)影響的分析 。關(guān)于接入網(wǎng)絡(luò)優(yōu)化、內(nèi)容緩存與傳輸策略優(yōu)化、終端優(yōu)化,請參閱接下來發(fā)布的其他部分。
延遲與卡頓的矛盾關(guān)系如何解決?有的時候需要主動丟包?欲知內(nèi)容緩存與傳輸策略優(yōu)化技巧,請關(guān)注下一篇解析內(nèi)容:《關(guān)于直播,所有的技術(shù)細(xì)節(jié)都在這里了(三)》。
關(guān)于直播,所有的技術(shù)細(xì)節(jié)都在這里了(三)
2016年5月17日
上篇《關(guān)于直播,所有的技術(shù)細(xì)節(jié)都在這里了(二)》我們講述了直播應(yīng)用層協(xié)議及傳輸層協(xié)議的選擇以及對直播體驗(yàn)影響的分析 。本篇中我們將介紹在傳輸直播流媒體過程中的內(nèi)容緩存與傳輸策略優(yōu)化細(xì)節(jié)原理。
基礎(chǔ)知識:I幀、B幀、P幀
I幀表示關(guān)鍵幀。你可以理解為這一幀畫面的完整保留;解碼時只需要本幀數(shù)據(jù)就可以完成。(因?yàn)榘暾嬅妫?/p>
P幀表示這一幀跟之前的一個關(guān)鍵幀(或P幀)的差別。解碼時需要用之前緩存的畫面疊加上本幀定義的差別,生成最終畫面。(也就是差別幀,P幀沒有完整畫面數(shù)據(jù),只有與前一幀的畫面差別的數(shù)據(jù))
B幀是雙向差別幀。B幀記錄的是本幀與前后幀的差別(具體比較復(fù)雜,有4種情況)。換言之,要解碼B幀,不僅要取得之前的緩存畫面,還要解碼之后的畫面,通過前后畫面的與本幀數(shù)據(jù)的疊加取得最終的畫面。
B幀壓縮率高,但是編解碼時會比較耗費(fèi)CPU,而且在直播中可能會增加直播延時,因此在移動端上一般不使用B幀。
關(guān)鍵幀緩存策略
一個典型的視頻幀序列為IBBPBBPBBP……
對于直播而言,為了減少直播的延時,通常在編碼時不使用B幀。P幀B幀對于I幀都有直接或者間接的依賴關(guān)系,所以播放器要解碼一個視頻幀序列,并進(jìn)行播放,必須首先解碼出I幀,其后續(xù)的B幀和P幀才能進(jìn)行解碼,這樣服務(wù)端如何進(jìn)行關(guān)鍵幀的緩存,則對直播的延時以及其他方面有非常大的影響。
比較好的策略是服務(wù)端自動判斷關(guān)鍵幀的間隔,按業(yè)務(wù)需求緩存幀序列,保證在緩存中存儲至少兩個或者以上的關(guān)鍵幀,以應(yīng)對低延時、防卡頓、智能丟包等需求。
延遲與卡頓的折中
直播的延時與卡頓是分析直播業(yè)務(wù)質(zhì)量時,非常關(guān)注的兩項(xiàng)指標(biāo)。互動直播的場景對延時非常敏感,新聞體育類直播則更加關(guān)注播放的流暢度。
然而,這兩項(xiàng)指標(biāo)從理論上來說,是一對矛盾的關(guān)系——需要更低的延時,則表明服務(wù)器端和播放端的緩沖區(qū)都必須更短,來自網(wǎng)絡(luò)的異常抖動容易引起卡頓;業(yè)務(wù)可以接受較高的延時時,服務(wù)端和播放端都可以有較長的緩沖區(qū),以應(yīng)對來自網(wǎng)絡(luò)的抖動,提供更流暢的直播體驗(yàn)。
當(dāng)然,對于網(wǎng)絡(luò)條件非常好的用戶,這兩項(xiàng)是可以同時保證的,這里主要是針對網(wǎng)絡(luò)條件不是那么好的用戶,如何解決延時與卡頓的問題。
這里通常有兩種技術(shù)來平衡和優(yōu)化這兩個指標(biāo)。
一是服務(wù)端提供靈活的配置策略,對于延時要求更敏感的,則在服務(wù)端在保證關(guān)鍵幀的情況下,對每個連接維持一個較小的緩沖隊(duì)列;對于卡頓要求更高的直播,則適當(dāng)增加緩沖隊(duì)列的長度,保證播放的流暢。
二是服務(wù)端對所有連接的網(wǎng)絡(luò)情況進(jìn)行智能檢測,當(dāng)網(wǎng)絡(luò)狀況良好時,服務(wù)端會縮小該連接的緩沖隊(duì)列的大小,降低延遲;而當(dāng)網(wǎng)絡(luò)狀況較差時,特別是檢測到抖動較為明顯時,服務(wù)端對該連接增加緩沖隊(duì)列長度,優(yōu)先保證播放的流暢性。
丟包策略
什么時候需要丟包呢?
對于一個網(wǎng)絡(luò)連接很好,延時也比較小的連接,丟包策略永遠(yuǎn)沒有用武之地的。而網(wǎng)絡(luò)連接比較差的用戶,因?yàn)橄螺d速度比較慢或者抖動比較大,這個用戶的延時就會越來越高。
另外一種情況是,如果直播流關(guān)鍵幀間隔比較長,那么在保證首包是關(guān)鍵幀的情況下,觀看這個節(jié)目的觀眾,延遲有可能會達(dá)到一個關(guān)鍵幀序列的長度。上述兩種情況,都需要啟用丟包策略,來調(diào)整播放的延時。
關(guān)于丟包,需要解決兩個問題:
一是正確判斷何時需要進(jìn)行丟包;
二是如何丟包以使得對觀眾的播放體驗(yàn)影響最小。較好的做法是后端周期監(jiān)控所有連接的緩沖隊(duì)列的長度,這樣隊(duì)列長度與時間形成一個離散的函數(shù)關(guān)系,后端通過自研算法來分析這個離散函數(shù),判斷是否需要丟包。
一般的丟幀策略,就是直接丟棄一個完整的視頻幀序列,這種策略看似簡單,但對用戶播放的影響體驗(yàn)非常大。而應(yīng)該是后臺采用逐步丟幀的策略,每個視頻幀序列,丟最后的一到兩幀,使得用戶的感知最小,平滑的逐步縮小延時的效果。
以上就是UCloud直播云:內(nèi)容緩存與傳輸策略優(yōu)化細(xì)節(jié)原理。關(guān)于終端優(yōu)化,請參閱即將發(fā)布的《關(guān)于直播,所有的技術(shù)細(xì)節(jié)都在這里了(四)》。
關(guān)于直播,所有的技術(shù)細(xì)節(jié)都在這里了(四)
2016年5月19日
上篇《關(guān)于直播,所有的技術(shù)細(xì)節(jié)都在這里了(三)》我們講述了直播后端系統(tǒng)的原理及優(yōu)化,那么直播推流、播放端是否就沒有可以優(yōu)化的點(diǎn)呢? 答案是否定的。客戶端的優(yōu)化對直播秒開、延遲體驗(yàn)的實(shí)現(xiàn)至關(guān)重要,這里重點(diǎn)介紹移動終端的情況。
解析優(yōu)化
參見之前介紹的DNS過程,如下圖:
基于可控和容災(zāi)的需要,移動端代碼一般不會hardcode 推流、播放的服務(wù)器IP地址,而選用域名代替。在IP出現(xiàn)宕機(jī)或網(wǎng)絡(luò)中斷的情況下,還可以通過變更DNS來實(shí)現(xiàn)問題IP的剔除。而域名的解析時間需要幾十毫秒至幾秒不等,對于新生成熱度不高的域名,一般的平均解析延遲在300ms,按上圖的各個環(huán)節(jié)只要有一個通路網(wǎng)絡(luò)產(chǎn)生波動或者是設(shè)備高負(fù)載,會增加至秒級。幾十毫秒的情況是ISP NS這一層在熱度足夠高的情況下會對域名的解析進(jìn)行緩存。如下圖:
按我們上面分析的情況,本省延遲大概是15ms左右,那么域名解析最低也可以做到15ms左右。但由于直播場景的特殊性,推流和播放使用的域名使用的熱度較難達(dá)到ISP NS緩存的標(biāo)準(zhǔn),所以經(jīng)常需要走回Root NS進(jìn)行查詢的路徑。
那客戶端解析優(yōu)化的原理就出來了:本機(jī)緩存域名的解析結(jié)果,對域名進(jìn)行預(yù)解析,每次需要直播推流和播放的時候不再需要再進(jìn)行DNS過程。此處節(jié)省幾十到幾百毫秒的打開延遲。
播放優(yōu)化
直播播放器的相關(guān)技術(shù)點(diǎn)有:直播延時、首屏?xí)r間(指從開始播放到第一次看到畫面的時間)、音視頻同步、軟解碼、硬解碼。參考如下播放流程:
播放步驟描述:
根據(jù)協(xié)議類型(如RTMP、RTP、RTSP、HTTP等),與服務(wù)器建立連接并接收數(shù)據(jù);
解析二進(jìn)制數(shù)據(jù),從中找到相關(guān)流信息;
根據(jù)不同的封裝格式(如FLV、TS)解復(fù)用(demux);
分別得到已編碼的H.264視頻數(shù)據(jù)和AAC音頻數(shù)據(jù);
使用硬解碼(對應(yīng)系統(tǒng)的API)或軟解碼(FFMpeg)來解壓音視頻數(shù)據(jù);
經(jīng)過解碼后得到原始的視頻數(shù)據(jù)(YUV)和音頻數(shù)據(jù)(AAC);
因?yàn)橐纛l和視頻解碼是分開的,所以我們得把它們同步起來,否則會出現(xiàn)音視頻不同步的現(xiàn)象,比如別人說話會跟口型對不上;
最后把同步的音頻數(shù)據(jù)送到耳機(jī)或外放,視頻數(shù)據(jù)送到屏幕上顯示。
了解了播放器的播放流程后,我們可以優(yōu)化以下幾點(diǎn):
首屏?xí)r間優(yōu)化
從步驟2入手,通過預(yù)設(shè)解碼器類型,省去探測文件類型時間;
從步驟5入手,縮小視頻數(shù)據(jù)探測范圍,同時也意味著減少了需要下載的數(shù)據(jù)量,特別是在網(wǎng)絡(luò)不好的時候,減少下載的數(shù)據(jù)量能為啟動播放節(jié)省大量的時間,當(dāng)檢測到I幀數(shù)據(jù)后就立馬返回并進(jìn)入解碼環(huán)節(jié)。
延時優(yōu)化
視頻緩沖區(qū)或叫視頻緩存策略,該策略原理是當(dāng)網(wǎng)絡(luò)卡頓時增加用戶等待時間來緩存一定量的視頻數(shù)據(jù),達(dá)到后續(xù)平滑觀看的效果,該技術(shù)能有效減少卡頓次數(shù),但是會帶來直播上的內(nèi)容延時,所以該技術(shù)主要運(yùn)用于點(diǎn)播,直播方面已去掉該策略,以此盡可能去掉或縮小內(nèi)容從網(wǎng)絡(luò)到屏幕展示過程中的時間;(有利于減少延時)。
下載數(shù)據(jù)探測池技術(shù),當(dāng)用戶下載速度不足發(fā)生了卡頓,然后網(wǎng)絡(luò)突然又順暢了,服務(wù)器上之前滯留的數(shù)據(jù)會加速發(fā)下來,這時為了減少之前卡頓造成的延時,播放器會加速播放探測池的視頻數(shù)據(jù)并丟棄當(dāng)前加速部分的音頻數(shù)據(jù),以此來保證當(dāng)前觀看內(nèi)容延時穩(wěn)定。
推流優(yōu)化
推流步驟說明:很容易看出推流跟播放其實(shí)是逆向的,具體流程就不多說了。
優(yōu)化一:適當(dāng)?shù)腝os(Quality of Service,服務(wù)質(zhì)量)策略。
推流端會根據(jù)當(dāng)前上行網(wǎng)絡(luò)情況控制音視頻數(shù)據(jù)發(fā)包和編碼,在網(wǎng)絡(luò)較差的情況下,音視頻數(shù)據(jù)發(fā)送不出去,造成數(shù)據(jù)滯留在本地,這時,會停掉編碼器防止發(fā)送數(shù)據(jù)進(jìn)一步滯留,同時會根據(jù)網(wǎng)絡(luò)情況選擇合適的策略控制音視頻發(fā)送。
比如網(wǎng)絡(luò)很差的情況下,推流端會優(yōu)先發(fā)送音頻數(shù)據(jù),保證用戶能聽到聲音,并在一定間隔內(nèi)發(fā)關(guān)鍵幀數(shù)據(jù),保證用戶在一定時間間隔之后能看到一些畫面的變化。
優(yōu)化二:合理的關(guān)鍵幀配置。
合理控制關(guān)鍵幀發(fā)送間隔(建議2秒或1秒一個),這樣可以減少后端處理過程,為后端的緩沖區(qū)設(shè)置更小創(chuàng)造條件。
軟硬編解選擇
網(wǎng)上有不少關(guān)于選擇軟解還是硬解的分析文章,這里也介紹一些經(jīng)驗(yàn),但根本問題是,沒有一個通用方案能最優(yōu)適配所有操作系統(tǒng)和機(jī)型。
推流編碼:推薦Andorid4.3(API18)或以上使用硬編,以下版本使用軟編;iOS使用全硬編方案;
播放解碼:Andorid、iOS播放器都使用軟解碼方案,經(jīng)過我們和大量客戶的測試以及總結(jié),雖然犧牲了功耗,但是在部分細(xì)節(jié)方面表現(xiàn)會較優(yōu),且可控性強(qiáng),兼容性也強(qiáng),出錯情況少,推薦使用。
附軟硬編解碼優(yōu)缺點(diǎn)對比:
云端機(jī)型及網(wǎng)絡(luò)適配
上面分析了很多針對視頻編解碼的參數(shù),但實(shí)際情況最好的編解碼效果是需要根據(jù)機(jī)型的適配的,由于iOS的設(shè)備類型較少,可以做到每個機(jī)型針對性的測試和調(diào)優(yōu),但是對于Android就非常難做到逐款機(jī)型針對性調(diào)優(yōu),并且每年都會出產(chǎn)不少的新機(jī)器,如果代碼中寫死了配置或判斷邏輯將非常不利于維護(hù)和迭代。
所以我們就誕生了一個想法,這些判斷邏輯或配置是否可以放在云上呢? ?這樣就產(chǎn)生了云端機(jī)型與網(wǎng)絡(luò)適配的技術(shù)。
終端在推流、播放前會獲取通過協(xié)議上報(bào)當(dāng)前的機(jī)型配置、網(wǎng)絡(luò)情況、IP信息。云端會返回一個已最適合的編解碼策略配置:走軟編還是硬編、各項(xiàng)參數(shù)的配置,就近推流服務(wù)的IP,就近播放服務(wù)的IP。 終端獲取一次即可,不需要每次推流、播放前都去獲取一次。
這樣,在我們不斷的迭代和完善機(jī)型編解碼適配庫的同時,所有使用該技術(shù)的直播APP都將收益。
總結(jié)
分析很多直播后端、終端的關(guān)于低延遲、秒開的優(yōu)化技術(shù),在UCloud直播云上都已有了相關(guān)的實(shí)踐,都是一些較“靜態(tài)”的技術(shù)。實(shí)際提供穩(wěn)定、低延遲、流暢的直播服務(wù),是日常中非常大量細(xì)致的監(jiān)控、算法和動態(tài)運(yùn)營的結(jié)果,并不是實(shí)現(xiàn)了某些的技術(shù)點(diǎn),就能坐享一套穩(wěn)定的直播服務(wù),只能說是完成了萬里長城的第一道磚。