當AI遇上微映視界之AI+直播

本文主要探討人工智能相關技術在大微映畫公司直播業務中的應用場景。

AI+直播應用場景一:直播內容審核

內容審核難點

第一、網絡直播規模龐大,人工審核成本高。2015年直播平臺接近200家,用戶數量已經達到2億,大型直播平臺每日高峰時間會有數萬個直播“房間”同時在線,用戶數可達千萬人次,如果全部用人工對1萬路視頻同時進行審核,為了保證“無漏網之魚”,至少需要數百人同時工作,并且每位工作人員需要配備1-2臺監控設備。比如映客現在在審核上投入的人力是800多人,占用了7000平方米的審核基地,24h的人力審核。其實直播視頻內容的違規比例占比不高,僅0.04%,甚至更低,但為了做到“無漏網之魚”,企業需要投入大量的人力、物力和財力進行監管,運營成本壓力增加。

第二、直播流量聚焦夜晚,人工審核效率低。網絡直播白天跟晚上的“房間數”不同,目前,白天直播流量峰值是數百路視頻,晚上可以飆升到數千路。但“三班倒”的審核人員,夜晚疲勞,人眼識別精確度降低,出現誤判漏判的概率上漲,審核效率降低,難以達到網絡直播的內容監管需求。

第三、主播實名及直播實時驗證難。直播平臺注冊簡單,主播規模擴充迅速,如果實名驗證完全依靠人力審核,人力成本增加,難以做到真實有效的審核;再加上一些稍微大一些的直播平臺高峰期時期會有上萬人,如果每次主播直播時,都驗證是否屬于本人在直播,這又增加一部分人力成本,對于一些中小型直播創業企業而言,運營難度上升。

監管政策影響

(1)從直播平臺本身來說,能夠促進直播平臺加強自律:例如部分直播平臺規定主播需實名驗證、滿18周歲;直播內容存儲時間不少于15天;所有直播房間內添加水??;對于情節嚴重的主播將列入黑名單、對直播內容進行24小時實時監管等。

(2)從直播平臺的發展來說,對于大型企業的發展是比較有優勢的,大型直播平臺對監管成本上升的承受能力比較高,中小型視頻直播平臺將在監控審查成本的提升環境下挑戰增大。

(3)從直播平臺的內容發展來說,依靠色情、暴力等擦邊球的“激進”內容來吸引用戶的道路越來越不可行,未來受歡迎有潛質的主播也許會更加偏向專業化。

內容審核技術

傳統的圖像審核方式主要有兩種:

純人工審核(企業員工“三班倒”工作,人眼鑒別該圖片或視頻是否違規)和傳統智能審核(如識別色情圖像,基本是通過圖片 RGB 值識別膚色比例;通過建模識別異常動作、敏感部位等)。

但是這兩種審核方式都存在較大的漏洞,“三班倒”的人工容易導致審核效率低、誤判漏判多等主觀性問題;傳統智能識別色情圖片準確率低、經常誤報等。而且這幾種審核方式對近兩年熱門的視頻直播審核需求更難以滿足。

AI+直播內容審核

現在主要是利用機器識別結合人工審核的模式進行審核,機器識別是依賴于人工智能領域最新的算法:深度學習算法,通過模擬人腦神經網絡,構建具有高層次表現力的模型,能夠對高復雜度數據形成良好的解讀。通過大數據持續訓練、頻繁的迭代,不斷提高審核鑒黃違法等內容精確度,有效節省人工復審的工作。

機器主要是用來專門判斷哪些圖片是色情的或者需要被過濾掉的違法信息,它在這方面的智能程度是可以替代人力的,經過機器審核后的數據,會分為“確定”和“不確定”的兩個部分,確定部分的可以達到99.5%的準確率,不確定的會誠實地告訴客戶,由客戶做出決斷。不確定的部分可能只占到審核總量的1~2%,原先需要100個人審核,經過機器識別服務,就可以只用1~2個人來完成了。

機器識別內容審核主要包括鑒黃、暴恐識別、廣告識別、敏感人臉過濾等;

AI技術實現

機器學習需要同時滿足三個條件:

1、海量的數據(大家都知道互聯網發展那么多年,已經積累了大量的數據了);
2、高性能計算的能力 (顯卡和GPU因為摩爾定律的發展,也已經積累了很多年);
3、深度學習的算法(是在2012年被一次imagenet的比賽,被業界廣泛注意到,隆重地登上了歷史的舞臺)

簡單來說,可以把深度學習理解為一個空白的人腦,這些大量的數據就是灌輸進來的經驗。深度學習是屬于機器學習的一個范疇,是最新的機器學習的技術,主要體現在“深度”這兩字上。

深度學習可以理解為“深度機器學習”的意思,因為普通或者傳統的機器學習,在神經網絡的復雜度和層數沒有像現在這么高,深度學習就是一層一層的層數變多了,層數和復雜度都加深了許多,所以現在才會叫做深度學習。

譬如說你想訓練一只狗,狗做對了你就給它激勵,為它或者做錯了你就懲罰它,那久而久之它就知道哪些是正向、或負向的激勵,然后就明白自己哪些事情是自己應該去做的,對于錯誤的事情的想法也會逐漸被抵消。

當我們把大量的色情、性感、正常的樣本的屬性告訴深度學習的引擎, 然后讓引擎不斷學習,然后把他們做對的進行獎勵,做錯的就懲罰,當然這些獎勵和懲罰都是數學上的,最后空白的腦袋就會學成了一種連接的模型,這種模型就是為了鑒別色情與非色情而生的。

深度學習,恰恰就是通過組合低層特征形成更加抽象的高層特征(或屬性類別)。然后在這些低層次表達的基礎上,通過線性或者非線性組合,來獲得一個高層次的表達。此外,不僅圖像存在這個規律,聲音也是類似的。

深度學習的一個主要優勢在于可以利用海量訓練數據(即大數據),在學習的過程中不斷提高識別精度,但是仍然對計算量有很高的要求。而近年來,得益于計算機速度的提升、大規模集群技術的興起、GPU 的應用以及眾多優化算法的出現,耗時數月的訓練過程可縮短為數天甚至數小時,深度學習才逐漸可以用于工業化。

對于開發團隊來說,做該領域產品的困難在于如何獲取大規模已標注數據、集成有 GPU 的計算集群以及針對自己的項目調參數,團隊需要不斷地輸入新數據,持續迭代以提高機器識別準確率。

業內概況

在智能審核垂直領域的有騰訊優圖、阿里綠網,他們主要為自身的平臺客戶提供審核服務,不屬于第三方。

第三方公司如圖普科技,目前服務的直播客戶包括花椒、在直播、映客、17直播、悟空TV等等。

AI+直播應用場景二:個性化推薦

個性化推薦可以說是內容審核的延伸。

如果不將AI局限在“鑒黃”或內容審核內,我們還可以視頻時代的內容建立連接。文字時代,有了計算機對文字的理解就有了內容間的連接,同樣,圖像和視頻被計算機理解后,也能形成內容間的連接。因此,除了內容審核,還可以發力視頻和直播的大數據標簽和個性化推薦服務。

大數據標簽主要用于短視頻和直播平臺,系統會通過對海量的標注過的數據的學習,根據主播的行為、場景、人物風格、年齡、性別等,自動為當前直播建立標簽。例如,一個喜歡做嘟嘴表情的年輕女孩,會有很大可能被打上“萌妹子”的標簽。而通過對人工標注的系統的學習,我們甚至可以判斷主播的顏值。當然,和有硬性指標的鑒黃不同,“萌妹子”、“顏值”這些標簽很多時候帶有很大的主觀因素。

但是,對于做視頻推薦來說,這些基本符合主流審美標準的標簽已經足夠了:新用戶注冊后,直播平臺可以根據該用戶選擇關注的標簽,在他的首頁呈現相應的直播;直播平臺還可以根據顏值和熱門等綜合因素,在首頁推薦直播內容;另外,當用戶關注的主播不在線時,系統還可以推薦一些和他關注的直播類型相似的主播。

應用一:場景推薦。比如在場景的精準推送上,可以基于人臉、場景、商品識別與分析技術,抓取視頻內的價值信息,實現最精準的內容匹配。例如主播正在做什么,唱歌、跳舞、抽煙、化妝、睡覺或其他。在將來全民生活直播,可以挖掘的信息量就更大,包括萬事萬物的識別,視頻內出現的車、手機、玩具或其他的,這都是反映了一個人的生活習慣、行為習慣,機器可以根據用戶偏好,智能推送相應直播視頻,幫助直播企業更好地進行用戶互動運營。

應用二:搜索推薦。搜索的標簽欄,用戶可以直接根據標簽去搜索。例如用戶喜歡跳舞的、場景在KTV里的直播,都可以根據相應標簽搜索。直播的視頻內發出的所有圖像信息,包括人物、地點、活動、事物、背景等,在以人工智能技術作為基本支撐下,可以幫助用戶智能搜索所需信息,像KTV、餐廳、教室等,這些都是可以提高產品和用戶體驗,或者企業想將這些信息流量變現,均可按企業需求定制。

應用三:風格推薦。在主播風格推薦上,通過圖像識別對主播進行分類,可以得出直播平臺的內容是否健康,或者給主播打上標簽,平臺是否需要培養和扶持一些比較稀缺、受歡迎的主播??梢宰詣臃诸惒煌L格的男神女神,根據用戶平臺資料和興趣,智能推送偏好類型。

應用四:顏值推薦。還可以建立顏值推薦系統,基于人臉識別,機器自動將高顏值主播推薦給用戶等?;谌说闹悄芩阉鳎瑤椭辈テ脚_把用戶和內容串連起來,把相似的主播串連起來,讓用戶找出自己想要的人物形象。例如用戶可以描述自己夢中情人的形象然后進行智能搜索,或上傳自己的照片即找出與自己最有夫妻相的主播等,這都是目前同質化直播平臺沒有做到的事情。

僅這個推薦功能,應用表較好的平臺,可以使新用戶的留存增加一倍以上;對老用戶,也能使其停留時長至少增加30%-40%。對短視頻和直播平臺來說,留存增加意味著用戶體驗的提升,更重要的是,廣告、打賞等收入會得到顯著提升。如果說之前的內容審核是節約人力成本,為企業省錢的話,視頻推薦則是在實打實地幫企業賺錢。

個性化推薦技術

包括人臉識別(主播顏值、風格、表情、年齡、性別、其他外在特征等)、場景識別(主播直播時所在環境)、物體識別(直播平臺中出現的物體)等各種圖像的識別。直播平臺的個性化推薦,是在傳統推薦系統的基礎上,融入圖像識別技術,以用戶的即時興趣為基礎,智能推薦符合用戶心理預期的內容。

舉例:顏值推薦接口

用戶通過該顏值接口上傳一定數量的圖片,我們會返回這些圖片里的人物是好看,普通,難看或其他,并給出相應的判斷分數,分數越高,判斷為該類別的概率越大。

顏值接口1天可以處理一億張圖片,并且24小時不間斷工作。準確度超過99.5%,可以替代80%以上的人工審核,并且可以不斷學習提高準確度。

圖片區分標準主要以人的正臉樣貌為主進行判斷,由于對樣貌的評比標準是主觀的,所以我們讓機器學習大眾審美的評比標準后作出判斷,標準因人而異。

AI+直播應用場景三:廣告、營銷、互動

硬創公開課:人工智能在消費級視頻場景中的應用
Video++張奕:人工智能在消費級視頻場景中的應用丨硬創公開課(附PPT)

技術框架

Video++產品體系架構

Video++,作為國內領先的專注于消費級視頻大流量場景的AI科技公司,其主要產品有Video OS、Live OS、Video AI、魔法植入、Video Data、V Mall。

Video OS:為點播平臺提供視頻互動和智能識別操作系統,為傳統視頻創建多維度互動形式結合視頻內容打造用戶體驗與創新營銷,開創內容營銷打造多元化互動產品,并通過自動化廣告投放系統幫助視頻平臺進行流量變現。使用Video OS的綜合平臺包括芒果、中國藍TV、樂視、PPTV、風行等,垂直社區包括日日煮,Zealer,鳳凰網等。

Live OS:為直播平臺提供直播互動系統,包含紅包、圖片、中插、圖文鏈、投票、點贊、抽獎等7大基礎強互動功能,并都涉及內容和廣告兩方面,貼合各個階層的用戶群體,同時打造了完善的直播廣告電商分成系統,幫助直播平臺進行流量變現。使用Live OS的直播平臺包括斗魚、戰旗、熊貓、龍珠等。

Video AI:基于人工智能辨識技術,在影視劇中挖掘最具商業價值的視頻信息,通過建立品牌廣告、視頻內容、用戶情感之間的關聯性進而優化廣告投放邏輯,大大提升品牌產品的使用場景聯想,提升品牌好感度與用戶記憶。例如識別到視頻中出現周杰倫則自動投放周杰倫代言的商品廣告,識別到出現聚餐場景則自動投放啤酒廣告等。

魔法植入:根據視頻播放的場景,將廣告與視頻場景融合,模擬拍攝視頻時廣告已經在此場景中的效果,從而達到不打擾用戶體驗的全新廣告形式。

**Video Data: **為視頻廣告提供豐富全面的互動產品數據分析服務以外,以Video++特有的跨平臺視頻觀眾互動數據為基礎,通過大數據算法,將用戶標簽化,實現廣告精準投放。


V Mall:Video++ 為視頻平臺搭建原生電商系統助力平臺內容電商發展,一站式解決供貨、物流、客戶等運營問題,幫助平臺降低運營成本提升創收效率。

我們將看到更多Video++的產品應用到視頻節目中,為平臺方和品牌方提供更多的廣告商業機會。

Video++官網
Video++植入案例

AI+直播應用場景四:直播美顏

幾年前圖片美顏教育了市場,到了直播時代,美顏同樣成為直播平臺的標配。女主播要是在直播中不能自動美顏,那只能靠更精致的妝容來補,而實時直播美顏技術恰好解決了這個問題。

目前最新的美顏技術已經發展到了 2.0 階段,打個比方,如果美顏 1.0 只是化妝(磨皮、祛痘、膚色調整)的話,美顏 2.0 基本就能達到整容的效果——把眼睛變大,把圓臉變成瓜子臉。而實現這一效果的基礎就是人臉識別。

涂圖 CTO 邱彥林為大家講述 《解密 AI 在直播美顏中起到哪些你看不到的作用》。

**一、美顏中最常見的祛痘、磨皮技術原理是什么樣的? **

從圖像處理的角度看,什么是“痘”和“斑”?

一張圖像可以看作是一個二維的數據集合,其中每個元素都是一個像素點。如果將這些數據用幾何的方式來呈現出來,“痘”就是和周圍點差異較大的點。在圖像處理領域,這個差異是通過灰度值來衡量的灰度,也叫“亮度”?;叶葓D,也就是黑白圖。將彩色圖轉換為灰度圖,圖像的關鍵特征不會丟失。

事實上,人的眼睛在觀察物體時,首先注意的是物體的邊緣。而在一張圖像里面,邊緣,即與周邊灰度差異較大的點。類似的,“痘”也是與周邊點的灰度差異較大的點。相比色彩,人的眼睛對灰度更敏感。這也是為什么對視頻進行壓縮的時候,會偏向于丟棄色彩部分的數據,而盡量保留亮度數據。

磨皮祛痘,就是要平滑點與點之間的灰度差異,同時還要保持皮膚原有的一些細節。所以,美顏一般選擇邊界保持類平滑濾波算法。

二、直播美顏(動態)和圖片美顏(靜態)的區別在哪里?動態美顏要解決哪些技術難題?

最重要的區別在于:直播美顏要求實時處理,而靜態的圖像處理對實時性沒有要求,比如最近比較火的 Prisma,大家會發現處理一張圖像的速度可能需要 1~2 分鐘,甚至更長。

直播的實時性,最直接的體現就是在很短的時間內,完成一系列任務。所以直播中的美顏,對性能有很高的要求,無法使用特別復雜的算法。我們只能在算法和美顏效果之間找個平衡點。

在圖片處理應用中,沒有實時性的要求,所以對算法沒有什么限制。只要能實現好的效果,再復雜的算法也可以用。

在第一個問題中,我提到了邊界保持類平滑濾波算法。這類算法有很多種,但在直播中一般均選擇雙邊濾波算法。這個算法性能高,效果也比較好,非常適合直播場景。除了磨皮算法外,調整皮膚膚色也是美顏的一個關鍵環節。關于調整膚色:一方面實現美白、紅潤的效果;另一方面則通過控制膚色,可以弱化“痘”和“斑”等,因為磨皮算法只能在一定程度上消除噪點。調整膚色個環節,還能夠讓設計人員參與進來,來設計出更符合我們審美觀的效果來。

**三、如何解決美顏后畫面像素變差的問題,可通過什什么辦法在保證美顏效果和畫質之間的平衡? **

從技術上講,美顏和畫質沒有關系。直播的畫質由主播端的輸出碼率決定,碼率越高,畫質越好,反之越差。 一般來說,在直播應用中,主播端輸出的碼率是固定的,或者說限制在一定范圍內。如果網絡情況好,輸出的碼率高,反之則低。目前主流的直播平臺都采用 RTMP 協議,采用其它技術比如 webRTC。此外直播畫質和直播平臺的穩定性也有一定關系。

四、如何實現直播時添加臉部貼圖,甚至實時整容:如把眼睛變大,把圓臉變成瓜子臉?

這類效果的核心是人臉識別技術。在直播時,從相機采集到每一幀的畫面,然后進行人臉識別,再標示出關鍵點的位置,結合圖像技術得到最終的效果。

我先深入講下人臉識別,目前在人臉識別領域可分為機器學習與深度學習兩類方案。

機器學習方案:

機器學習識別物體是基于像素特征的我們會搜集大量的圖像素材,再選擇一個算法,使用這個算法來解析數據、從中學習,然后對真實世界中的事件做出決策和預測。

深度學習方案:

深度學習與機器學習不同的是,它模擬我們人類自己去識別人臉的思路。比如,神經學家發現了我們人類在認識一個東西、觀察一個東西的時候,邊緣檢測類的神經元先反應比較大,也就是說我們看物體的時候永遠都是先觀察到邊緣。就這樣,經過科學家大量的觀察與實驗,總結出人眼識別的核心模式是基于特殊層級的抓取,從一個簡單的層級到一個復雜的層級,這個層級的轉變是有一個抽象迭代的過程的。

深度學習就模擬了我們人類去觀測物體這樣一種方式,首先拿到海量數據,拿到以后才有海量樣本做訓練,抓取到核心的特征建立一個網絡。因為深度學習就是建立一個多層的神經網絡。有些簡單的算法可能只有四五層,但是有些復雜的,谷歌里面有一百多層,不同的層負責不同的處理方式,如磁化層等等。

當然這其中每一層有時候會去做一些數學計算,有的層會做圖象預算,一般隨著層級往下,特征會越來越抽象。比如我們人認識一個東西,我們可能先把桌子的幾個邊緣抓過來,結果每個邊緣和輪廓組成的可能性都很多?;谳喞慕M成,我們可把這個桌子抽象成幾層,可能第一層是這里有個什么線,然后逐漸往下抽象程度會由點到線到面,或者到更多的面等等這樣的過程。這是一個抽象的過程。

機器學習方案和深度學習方案的區別:

而這兩種“學習”的區別,舉個例子來說:比如要識別具體環境中的人臉,如果遇到云霧,或者被樹遮擋一部分,人臉就變得殘缺與模糊,那基于像素的像素特征的機器學習就無法辨認了。它太僵化,太容易受環境條件的干擾。

而深度學習則將所有元素都打碎,然后用神經元進行“檢查”:人臉的五官特征、人臉的典型尺寸等等。最后,神經網絡會根據各種因素以及各種元素的權重,給出一個經過深思熟慮的猜測,即這個圖像有多大可能是張人臉。

移動平臺上用深度學習替換機器學習算法:

具體到應用層面,在移動設備上,采用機器學習進行人臉識別,是目前的主流做法。將深度學習遷移到移動設備上,這算是時下的研究熱點。深度學習的效果很好,但是前提是建立在大量的計算基礎上。雖然現在的手機硬件性能已經很好,但如果要運行深度學習的模型,手機的電量會是個問題。

據我了解,目前已經有一些公司已經成功在手機上實現了低能耗的深度學習算法。目前我們也在做相關研究,在移動平臺上用深度學習替換機器學習算法。

再回到直播中的給人臉實時貼圖或者“整容”,實現這一效果主要應用我上面提到的人臉識別技術,檢測并識別出人臉的關鍵點再進行圖像處理即可。

**五、改變眼睛和臉型涉及到美丑的問題,如何讓計算機懂得“審美”? **

改變眼睛與臉型這類美顏,因為要涉及到人臉識別的問題,就像我剛才說的原理,非常復雜,對計算量的要求也非常大。

目前這類美顏一般都是基于機器學習的,參數在編寫程序時已經確定好,并沒有計算機“自己”調整的過程。所以,目前的美顏的“美”,都是我們人為的來控制。當然,這個人為也不是說程序員自己可以隨便編,而是要與美工人員共同參與來完成的。

舉例來說:在一些比較專業的圖象處理論壇里面,有設計師會發一些經過處理的美女圖片來。一般是發張原圖,發張經過處理之后出來一個效果圖,原圖跟效果圖之間有個差異,我們可以通過技術手段得到這個差異。然后把這個差異應用在我們做美膚里面去,這就是調整膚色的做法。

圖片跟圖片之間可以通過一些手法去模擬到這個效果,這中間的過程都是可以計算出來的。然后在濾鏡、PS,或者是圖象處理里的一項技術,去控制一張圖片的顏色表現。通過把技術人員跟美工人員結合起來,技術只管技術,美工只管美工,這樣就能夠開發與設計結合起來,實現所謂的“美”。

所以你看很多平臺算法都大同小異,但是為什么最終出來的美顏效果讓人感覺還是有差異,其實就是說里面有很多細節在,需要花時間優化,特別是用戶的需求是什么,怎樣更漂亮。

未來深度學習的技術更為成熟時,電腦也許就可以憑借海量的數據來總結出美來,進而按這種總結出的“審美”來處理圖像。但話說回來,“美”終究還是一種很主觀的事,就像之前有人通過大量美女圖片合成過各個國家標準的美女臉來,還是很多人覺得不好看,就是這個原因。

六、直播美顏目前面臨最大的技術難題是什么?

暫時沒有很大的技術難題,Android 設備適配可以算一個。由于 Android 設備和系統類型較多,導致在 Android 平臺上,直播美顏很難做到兼容所有設備。Android 直播,從技術上分為硬編和軟編兩種方案。

硬編:即采用硬件加速,通過 GPU 進行視頻編碼。特性是省電、性能好,是目前最佳的方案。但無法支持個別機型。Android 4.3 + 以上的系統才支持這個方案。(這其實不是問題了,現在主流的設備都是 Android 5.0 以上);另一方面,一些廠商在硬件層和軟件層做適配時,缺乏相關支持。

軟編:通過 CPU 進行視頻編碼,比較耗電、性能差,但能兼容絕大部分設備。主流的直播平臺一般是根據進行來自動適配,保證最佳效果。

涂圖直播美顏產品簡介

AI+直播應用場景五:直播云服務

即構科技

ZEGO直播技術服務
ZEGO產品框架

說到音視頻云服務,大多數人可能聯想到的是網絡直播應用場景,實際上,硬件對音視頻云服務的需求也在逐漸提升。而這樣的市場需求也推動了整個行業的發展,目前,阿里云、騰訊云和網易云等巨頭都已入局,除此之外還有即構科技這樣的新興企業加入了這一競爭行列。毫無疑問,音視頻云服務將會是云服務市場的下一個熱點。

大家都知道,音視頻云服務降低了硬件接入音視頻的門檻,但是,在使用這一服務的過程中難免踩坑,這是音視頻云服務提供商以及硬件團隊都格外重視的,但問題是具體有哪些坑以及如何避免呢?

深圳即構科技市場運營總監冼牛為大家講述 《關于視頻直播云服務,這幾點你不得不知》。

嘉賓簡介:冼牛,即構科技市場運營總監,資深技術人,市場營銷新兵,客串投資顧問,骨灰級游泳者。北京郵電大學計算機碩士,香港大學工商管理碩士,一直秉承人丑應該多讀書的理念,讀書不斷。2008年起旅居香港至今,2015年回流深圳南山創業,服務過愛立信香港,摩根大通香港,和分期樂集團等老東家。2002年北郵碩士期間開始專研視頻會議,現深耕語音視頻云服務,直播技術應用和直播行業研究。

一、音視頻直播云服務的硬件應用場景

實際上,音視頻直播云服務的硬件應用場景并不少:車聯網,智能家居,遠程醫療和戶外活動等。這是正在發展的場景,還有很多潛在的場景,會在未來幾年逐漸展現。智能終端對音視頻云直播服務的需求在不斷增加。舉個栗子,目前在國外玩得比較熱的戶外直播、無人機直播,都是智能硬件的一些典型應用場景。

通俗點說,音視頻直播云解決的最終極問題就是:讓你聽見,看見,就像在面前一樣。然而,這個簡簡單單的問題,在復雜的網絡環境,硬件平臺,操作系統,海量并發運維等等因素綜合加在一起,就變成了一個十分復雜的問題。

以即構科技為例,在做音視頻直播云服務的過程中針對智能終端解決了以下問題:

  • 延遲比較大,做不到連麥互動多人對講的效果。
  • 無法全面兼容眾多安卓機型,長尾用戶群體無法全面覆蓋。
  • 硬件場景聲音環境復雜,噪音抑制和回聲消除的效果不好。
  • 視頻畫面卡頓不流暢,觀看效果不好。
  • 如果使用基于udp的私有協議,無法被CDN網絡支持;如果使用基于RTMP的標準協議,無法獲得理想的低延遲。
  • 無法支撐海量用戶并發,或者在海量并發情況下,效果不穩定。
  • 多個人同時說話,甚至出現搶話(所謂雙講)的情況下,語音效果不好。
  • 對系統內部運作可見度不高,不可管控,出現緊急問題的時候很難快速定位。

二、音視頻通信的原理以及技術難點是什么?

上文提到,音視頻直播云服務要做的事情就是讓用戶在任何一個地方任何一個時候可以聽見看見。由此可見,核心的問題就是對音視頻數據的處理和傳輸。

音視頻通信的整個流程包括:采集,編碼,推流,轉碼,存儲,拉流,解碼,渲染(播放)。每一個環節都會有很多的坑,都需要投入很多人力和時間去填平這些坑,都需要時間去試錯。因此,要做好音視頻,除了靠技術的積累還要靠多年的經驗。

采集和渲染:音視頻信息是從通話的發起端,進行語音和視頻的采集;在通話的接收端進行語音和視頻的渲染。而采集和渲染兩個環節會涉及到具體硬件的音視頻設備的性能。需要注意的是,采集和渲染都會用到具體硬件平臺的接口,這和具體硬件設備的接口、設計和性能等密不可分。因此,在系統設計階段,就要考慮硬件設備的兼容性和跨平臺。

編碼和解碼:編解碼環節會涉及到具體硬件芯片的處理能力。我們可以將其分為兩類:一類是采用硬編硬解,另一種是采用軟編軟解,二者各有各的優缺點。

硬編硬解要用到GPU的處理能力,優點是效率高,速度快,分擔CPU的壓力,減少CPU發熱;缺點就是不同的硬件平臺的芯片性能和接口參數不一樣,要進行適配。軟編軟解不使用GPU,而使用的是CPU的計算能力,優點是對各個硬件平臺的兼容性好,缺點就是計算的壓力都放在CPU上了,速度慢,效率低,而且CPU會發熱。需要注意的是,有些設備CPU和攝像頭離得比較近,CPU發熱可能會導致攝像頭采集的時候丟幀。

除了采集、渲染、編碼解碼這幾個終端環節以外,其它環節的和硬件平臺不相關,屬于后端的范疇,和目前在娛樂直播行業、在線教育行業、游戲語音行業、大規模游戲語音直播行業的方案都沒有差異。下面對后端的原理簡單闡述。

推流是發起音視頻通訊的智能終端設備把音視頻流推送到音視頻服務器集(注:音視頻服務器集群是一個統稱,里面比較復雜,包括音視頻流服務器,信令調度服務器和混流服務器等,可以簡單的理解為云端)。推流是能否做到低延遲的關鍵。智能終端所在的環境十分的復雜,要適應這些復雜的環境,要做很多工作。例如,一般情況下上下行的網絡不對稱,上行網絡遠遠小于下行網絡,而且用戶的設備質量參錯不齊,所在區域的接入點服務質量良莠不齊。推流可以分為兩步:1)選路,選擇一條最優的路徑;然后2)推流,在該路徑上做到最優。在服務器集群上的處理包括混流(如果需要)和存儲等,然后把音視頻流轉推到CDN網絡去。

拉流的用戶分為兩類,一類是普通的觀眾,一類是參與到多人互動對講中的用戶。相對來說,普通的觀眾對低延遲要求不高,只要求流暢和高質量,所以可以使用CDN網絡來均衡質量和成本。觀眾端從就近的CDN網絡進行拉流,在智能終端進行解碼和播放。使用的協議是RTMP, HLS或者HTTP-FLV協議,多種協議可以適配不同的環境。有些智能硬件場景是沒有普通觀眾的,那么就只有參與音視頻互動對講的用戶了。對于進行互動對講的核心的參與者,音視頻流是不經過CDN網絡的。各個參與者是直接從音視頻流媒體服務器上拉流來的播放。音視頻流媒體服務器的質量相對比較好,網絡資源也比較好,能夠提供低延遲和高質量的音視頻服務。

這是一個典型的音視頻直播云服務的系統架構,同樣可以應用到智能硬件的場景中。比如說無人機航拍直播。舉個例子,即構科技有個客戶是做房地產銷售的,他們組織幾個房地產專家進行連麥互動談話,討論樓盤的各種情況,并對實況進行直播,場外有上萬的觀眾在線觀看直播。推流端包括幾個身處各地的房地產專家還有幾個在樓盤現場航拍的無人機上的攝像頭,拉流端就是觀看直播的觀眾和各位房地產專家。從系統架構的角度來說,房地產專家的音視頻通訊是在音視頻流媒體服務器集群上完成的,沒有轉推流到CDN;而觀看直播的觀眾,就會從CDN網絡上拉流。

關于開發上的難點,已經包含在上面我們所解決的問題列表里。這里重復了一下:

  • 延遲比較大,做不到連麥互動多人對講的效果。
  • 無法全面兼容眾多安卓機型,長尾用戶群體無法全面覆蓋。
  • 硬件場景聲音環境復雜,噪音抑制和回聲消除的效果不好。

除了開發上的難點,還有運維上的難點:

  • 對系統內部運作可見度不高,不可管控,出現緊急問題的時候很難快速定位。
  • 當緊急問題出在網絡運營商,基礎云商,或者CDN網絡那邊的時候,無法及時得到事故通知,也無法得到及時而深度的配合。
  • 在一些邊遠的地理區域,網絡覆蓋不足,用戶體驗比較差或者不穩定。
  • 來自不同的網絡的用戶得到的體驗不一樣,造成某些網絡的用戶體驗比較差。

運維上的難點更多的偏向于經驗的積累,只有踩過足夠多的坑,只有經歷過長時間的試錯,才能夠把系統打磨得比較順溜。

三、低延遲、高音質和高畫質怎么保證?

低延遲是一個比較難的技術點,這也是即構科技解決得比較好的一個問題。目前,使用即構科技的音視頻直播SDK,參與連麥互動直播各方的延遲達到400毫秒,觀眾端的延遲達到1秒左右。這個低延遲指標在市場上是十分有競爭力的。舉個例子,花椒直播(奇虎360投資的企業,日活超過500萬)采用了即構科技的直播技術方案,原因是即構科技的視頻直播SDK延遲極低,能做到移動端六路連麥互動,能讓明星主播進行“同框”互動直播。

要降低延遲也是要從采集,編碼,推流,拉流,解碼和渲染整個鏈接來解決的,可以從下面幾個點進行探索:

  • 采集、視頻處理和編碼盡量減少內存多處拷貝,減少CPU和GPU處理多次切換;
  • 解碼、視頻后處理和渲染也是類似的方式;
  • 另外就是推拉流的鏈路上的優化,包括就近接入,和減少多層級server的轉發等。這些都要根據實際用戶策略來做。

關于高音質和高畫質怎么保證,可以從以下幾點來探索:

  • 音頻的數據量比較小,對帶寬的要求比較低,一般不會限制音頻,要優先保證音頻數據可以發送。畢竟,在極端差網的情況下,即使視頻不好,只要音頻清晰流暢,互動溝通還是可以繼續的。
  • 為了獲得低延遲同時保證視頻的質量,要平衡流暢和清晰度,現在通常采用VBR或者CBR來處理。在保證畫面質量不至于太差的情況下,可以選擇性性地丟幀。這樣可以避免推流端因為TCP擁塞導致于推流質量越來越差,否則除了引起卡頓也會引起畫面質量下降嚴重。在網絡確實太差的情況下,通常為了保證視頻流暢,可以適當地降低推流碼率,這樣畫面質量會有不可避免的下降。通常的做法是設置一個極限值,避免視頻質量太低無法觀看。

四、怎么優化音視頻云服務對CPU和帶寬資源耗費?

CPU資源

使用智能硬件設備的芯片進行音視頻的編碼解碼的時候會面臨兩個選擇:硬編硬解,還是軟編軟解。要降低對CPU的消耗,就要充分的利用GPU的能力。使用GPU就要進行硬編硬解,優點是速度快,效率高,CPU的占用低,缺點對兼容性有要求,需要對具體硬件平臺進行深度兼容,才能做好硬編硬解。

帶寬資源

要解決帶寬資源消耗的問題,可以從兩個角度入手:碼率自適應,和云端混流。
碼率自適應,就是讓音視頻流的碼率能夠自動適應復雜的網絡環境,比如說網絡抖動。我們都知道,在中國,用戶端的上下行網絡帶寬是不對稱的。比如說,下行如果是100Mbps,那么對應的上行就是1Mbps, 這樣上行就成了瓶頸,下行反而問題不大。因此,要確保推流成功而且質量好,那么就要利用好上行的網絡帶寬。推流端要能夠做到根據各種維度的因素,包括個體歷史數據,群體歷史數據,網絡探測數據等等,去分析和預測網絡的情況,從而決定推流應該采用多大的碼率。關鍵點就是要找出在目前上行帶寬的情況下小于上行帶寬的最大碼率。

云端混流,就是把多路的音視頻流在服務器集群里面混合成一路流,然后轉推到CDN去,讓觀眾拉單流來觀看。這樣可以節省一部分帶寬成本。拉流端拉流的時候有兩個選擇,一個是把所有推流端的音視頻流單獨拉下來播放,另一個就是把在云端混合好的單一一路流拉下來播放。如果采用不混流的方案,優點是拉流端可以靈活地操控多路流,比如說讓畫中畫中的畫面靈活對調, 缺點就是多占用了網絡帶寬。如果采用混流的方案,優點就是拉流端只需要拉一路流,可以大大的節省從流媒體服務器到CDN網絡和CDN網絡到拉流端所占的網絡帶寬,缺點就是多路音視頻經過混流以后,畫面的布局就固定了,在拉流端無法再進行靈活操控了。

五、音視頻SDK怎么適配智能終端,如何做到跨平臺和廣泛兼容?

目前智能終端主流的操作系統包括iOS和安卓。iOS是蘋果的智能終端操作系統,蘋果的機型數目有限,而且設計和質量都比較好,要適配蘋果的設備和iOS問題不大。比較難的是如何適配安卓操作系統。安卓是谷歌的開源智能終端操作系統,正因為是開源的,所以各個廠商可以做各種大尺度的裁剪和修改。特別是在中國國內市場,安卓機型十分繁多,而且架構設計,硬件質量良莠不齊;安卓操作系統也做了很多的裁剪和修改。我這里舉的安卓智能手機的例子,其實也適用于采用了安卓操作系統的其它智能終端,比如說無人機或者智能電視。因此,我們說要全面兼容各種智能終端,其實說的就是如何全面兼容安卓操作系統和各種各樣的智能終端硬件平臺。

眾所周知,安卓是開源的操作系統,底層提供c接口,上層提供java接口。國內的廠商在對安卓系統進行裁剪和修改的時候,為了提高效率和降低成本,大部分都是直接調用java接口進行修改的。

在即構科技創業初期,我們也考慮過調用java接口進行優化,來開發音視頻引擎和其它各種適配工作,后來發現行不通。這條路雖然看起來節省成本而且提高效率,但是損失的是兼容性和穩定性。一套代碼無法在各種各樣的安卓平臺上穩定運行,反而是提高了成本和降低了效率。于是我們采用比較笨,也是最基礎的方法,從最底層做起,盡量地調用c接口,去做深層優化,去實現音視頻終端引擎。這個過程雖然十分痛苦十分的累,但是最終一套代碼可以在各種各樣的平臺上使用,終端音視頻引擎的穩定性和兼容性也是真心的好,因此我們認為十分值得。所以,在兼容全終端、做到跨平臺這一點上面,建議大家用比較笨的基礎的方法,從最底層進行優化,這樣才能保證兼容性和穩定性。

由于即構科技的音視頻SDK是進行端對端集成的,而后端是完全解耦的,所以只要智能終端實現了全面的兼容性,后端就完全沒有兼容性問題了?,F在,即構科技的音視頻直播方案,能夠跨越iOS、安卓、WP和H5四個平臺,能夠兼容PC、各種手機和PAD三種終端類型,用的就是直接從底層深度優化這個笨辦法。

另外一點也值得提一下,在拉流端,為了兼容和適配觀眾端各種各樣的平臺,我們提供了多種協議進行拉流:RTMP, HLS, HTTP-FLV。用RTMP或者HTTP-FLV拉流可以用即構的SDK(APP)或者Adobe Flash Player上觀看,用HLS拉流可以在H5上觀看。這樣可以確保全面覆蓋各種各樣的終端用戶。

六、評價音視頻通信質量好壞的標準

評判一個音視頻云服務質量好不好,要看技術指標,也要看非技術指標。畢竟這是技術服務,是技術也是服務。

技術上的指標包括但是不限于:1)低延遲;2)流暢性;3)回聲消除;4)噪音抑制;5)跨平臺;6)全終端兼容;7)海量用戶并發;8)無感知擴容能力。

低延遲,這個很重要,但是到了一定臨界值以后,就不是最重要的指標了。一般來說低于800毫秒的延遲,就能夠做到多人實時連麥互動,做到比較好的對講,比較好的高頻互動;高于800毫秒的延遲,就只能做監控,只能做單向直播了,這樣的效果和點播的差別不是很大,是做不到連麥互動或者多人實時對講的。

流暢性,這個影響用戶體驗的關鍵指標。但低延遲和流暢性實際上是矛盾的,要獲得最低的延遲,最好就是讓緩沖隊列盡量地短;但是要做到流暢,緩沖隊列就要有一定的長度,才能夠抹平網絡抖動帶來的影響。所以,我們要在低延遲和流暢性這對矛盾的指標上找到一個平衡點。

回聲消除和噪音抑制能力,這兩項最能考驗音視頻技術能力的水平,這也是一流的音視頻直播云服務區分其它競品的利器。在選擇方案的時候,要看能否做到沒有回聲,沒有嘯叫(不帶耳機的哦)。還要看能否有效抑制環境噪音,聲音清晰而且通透。有創業團隊找到我說,他們團隊的技術很厲害,自己花了大半年就把音視頻通訊系統做出來的,就是這兩項怎么做都效果不理想。其實音頻比視頻要難,音頻里面這兩個點是最難的,不是那么容易做得好的。

跨平臺和終端兼容性,上文有介紹,就不再贅述了。

海量用戶并發,這個十分考驗海量并發運維能力。C端的業務,靠的是海量的用戶取勝。音視頻技術很多團隊自己就能做出來,demo跑的時候挺好,一對一效果不錯,但是用戶量一上來就開始不穩定,就要不斷地進行重構和迭代,就要不斷地經歷服務中斷。

無感知擴容能力,這對創業團隊來說很重要。創業團隊處于業務的快速擴展期,往往幾個月用戶就要成倍增長。為了擴容可能要進行版本迭代升級,甚至重構,這樣很可能會終端服務,極其影響用戶體驗。能否做到無感知擴容十分考驗一個音視頻云服務商的運營經驗和網絡資源。這里就不僅僅是技術了,更多的是要考驗是能和網絡運營商,技術云商,CDN網絡合作深度。這些運營經驗都要靠不斷試錯,靠多年運營積累總結出來的。

看完上述技術指標后,讓我們看看非技術指標:

技術服務的深度,要看知道技術支持的是核心技術團隊還是普通客服團隊。如果核心技術團隊能夠主導SDK集成接入和后期的運維支持,他們能夠幫你解決深度的技術問題,幫你提供經驗和建議。如果只是客服團隊經過簡單培訓上崗,對著FAQ文檔回答你的問題,那樣的服務是遠遠不夠的。

運維支持的能力和反應速度,這方面要看一手硬的和一手軟的。所謂硬的,就是看有沒有健全而強大的后臺監控系統,能否全面的看到每一路流,每個節點的各項技術指標,實時監控狀態,一出問題就可以快速定位。所謂軟的,就是要看這個音視頻云服務團隊的市場口碑和自我定位,看它是不是能夠對大小客戶都一視同仁,能夠積極快速反應,積極處理問題,能夠踏實地提供服務。

和網絡運營商以及基礎云商合作的深度,這要看和基礎云商,CDN網絡的關系,能否讓對方配合做一些深度的適配,能否及時地得到事故通知,能否讓對方幫忙解決問題等。

這是都是企業在接入音視頻云服務的時候該十分注意的問題。畢竟,選擇一個云服務可能因為它技術指標好,拋棄一個云服務往往可能因為它非技術指標不好。

七、智能終端的創業公司會快速增長擴容,到后期會要求支持海量用戶并發,音視頻直播云服務如何滿足這樣的要求?

實際上,這是很多創業企業的痛點。這些創業型的團隊直接面對C端的用戶。剛剛啟動的時候,用戶很少,可能只有幾百個; 但是后面幾個月可能會成倍的增長,達到數十萬甚至上百萬個用戶。面向C端的用戶系統在擴容來跟上用戶量增長的過程中,可能會出現擴容周期過長,系統不穩定,甚至服務中斷等問題。

即構科技從兩個方面來解決這個問題:

1)服務端架構能夠進行靈活水平擴容。在信令層面,在架構設計的時候,我們就按照用戶的預期增長,做好了相應的設計,允許水平擴展。在保證多媒體服務器集群業務側無狀態的前提下,結合我們的智能調度系統,保證調度給用戶的資源是足夠的。這個架構支持我們能夠根據客戶的容量需求,水平的把網絡資源十分靈活地鋪開,能夠做到讓C端的用戶感覺不到任何中斷 。

2)有豐富網絡節點資源來做到無感知的擴容。網絡節點資源的支持也十分的重要,即構科技和一線的網絡運營商進行深度對接,儲備足夠的網絡節點資源來滿足創業企業客戶群不斷擴容的需求。

智能終端的創業公司也是面對C端用戶,用戶量發展特別快,靠速度取勝。 C端用戶并發的用戶數到穩定階段會十分龐大。舉個例子,智能終端應用于汽車,也就是所謂的車聯網,具體的應用是音頻直播,也就是現在廣播電臺的替代產品。這一類的產品,最后能存活下來并且發展壯大的靠的是速度和用戶規模。

因此,為了支持創業企業快速發展,音視頻直播云服務要能夠做到以下三點:

1) 在創業早期,要能夠以較低成本,較快的速度,讓早期的產品集成音視頻直播SDK。因為早期團隊缺乏資金,但是又要求快。因此音視頻直播SDK必須是簡單易用的,而且是端對端集成的。

2) 在創業中期,要能夠快速而且無感知的擴容,不能影響到生產環境,不能對用戶體驗造成損害。因此,音視頻直播云服務必須要能夠做到無感知地水平擴容,在云端通過配置增加網絡,基礎云和CDN等資源。

3)在創業后期,要能夠支持海量用戶并發,確保服務持續而且穩定。因此音視頻云服務的架構要能夠支持千萬級別的海量用戶并發,技術團隊要有多年海量運營的經驗,和運營商的基建要能夠深度的結合才行。

ZERO直播云服務產品簡介

ZERO直播云服務功能簡介

八、關于未來

請允許我斗膽判斷一下未來,未來音視頻直播云服務可能有兩個趨勢:

1)公共事業服務化:未來會更加趨向于接受由專業的人做專業的事情,音視頻直播云服務會成為像自來水一樣廣泛而且中立的公共事業服務,就像今天的基礎云服務一樣,誰都可以很便利很放心地使用,沒有人擔心安全性,也沒有必要重復發明輪子。

2)成為互聯網主流互動方式: 音視頻的流量占網絡流量的比例越來越大,VR/AR音視頻的信息量還會有數倍的提升,可以預測音視頻通訊成為網絡流量的主要貢獻者。從用戶的角度來說,要能聽見看見,音視頻互動是最直觀最自然的互動方式。從商業的角度來說,網絡運營商,基礎云商還有CDN網絡,都會特別喜歡這個趨勢,畢竟音視頻的流量比文本的流量大的多,流量多起來了,就意味著更大規模的基建,更大規模的收入流水。因此,網絡運營商、基礎云商、CDN網絡和音視頻直播云服務商都會把音視頻技術作為標配能力。畢竟,控制主要流量的來源,就控制了未來發展的命脈。

當我們在展望未來,未來已經變成了現在。要能聽見看見,這個自然而簡單的需求,會讓音視頻直播云服務在未來跟隨著智能終端深入到互聯網生活的每一個環節中去,深刻地改變人們互動溝通的方式。

七牛云直播

七牛直播云服務產品框架

七牛在視頻直播大爆發時代,推出專為直播平臺打造的全球化直播流服務和端到端直播場景解決方案,完美解決視頻企業的三高之痛:技術門檻高、成本高、卡頓延時率高。

七牛獨有的直播云服務能夠為直播平臺打造全球化直播流服務和端到端直播場景解決方案,完美解決直播行業企業技術門檻高、成本高和卡頓延時率高等痛點。直播流服務采用全新的實時流網絡技術(LiveNet),實時計算全鏈路狀態,按需智能伸縮最佳路徑節點。實現秒開、低延時、不卡頓,和節點故障常態處理等直播需求。就端到端的直播場景解決方案而言,七牛提供多平臺采集SDK和播放SDK,并開放云端API實現透明播控管理,能夠幫助直播企業開發者快速構建直播平臺的核心業務,提高開發效率。此單個至博路外,對于卡頓延時問題,七牛的直播云能夠實現智能化的質量監控,基于單個直播流業務粒度的線路質量智能監控及實時動態的數據統計,提供自動容錯及全方位的數據分析,定位并優化直播卡頓率。

七牛直播云產品簡介

最后編輯于
?著作權歸作者所有,轉載或內容合作請聯系作者
平臺聲明:文章內容(如有圖片或視頻亦包括在內)由作者上傳并發布,文章內容僅代表作者本人觀點,簡書系信息發布平臺,僅提供信息存儲服務。

推薦閱讀更多精彩內容