技術(shù)揭秘視頻行業(yè)降本提效之道：智能視頻云3.0全景圖

2021-05-24 15:19 來源：互聯(lián)網(wǎng) 我來投稿撤稿糾錯

人工智能與5G的飛速發(fā)展，讓各行各業(yè)對視頻的應用、體驗提出了更高的要求。5月13日，百度智能云“2021云智技術(shù)論壇-智能視頻專場”活動在京舉辦，百度智能云重磅發(fā)布了智能視頻云3.0全景圖，融合百度前沿的視頻云和AI技術(shù)能力矩陣，從云智技術(shù)一體化、產(chǎn)品平臺化、應用場景化三個層面全面賦能多場景的視頻應用。作為國內(nèi)AI公有云服務市場第一的百度智能云，正以“云智一體”獨家優(yōu)勢持續(xù)滲透市場中。

視頻具有“重”數(shù)據(jù)的特點，在海量數(shù)據(jù)的情況下，一方面對采集、存儲、傳輸和分發(fā)提出了極高的訴求，另一方面需要強大的智能化分析與處理能力?；诖耍俣戎悄茉?ldquo;云智一體”的全場景視頻技術(shù)中，“云”的部分以云邊端一體、異構(gòu)融合的基礎(chǔ)架構(gòu)提供先進的云計算能力，“智”則以業(yè)界領(lǐng)先且全面的AI能力實現(xiàn)了對視頻語音、圖像、文字等多種信息的多模態(tài)智能分析、理解、生成等處理。

依托“云智一體”推出了視頻創(chuàng)作分發(fā)平臺和視聯(lián)網(wǎng)感知平臺。在消費類視頻方面，將采集到的各種結(jié)構(gòu)化信息、知識信息通過智能視頻云的手段，轉(zhuǎn)化成多媒體的信息進行高效分發(fā)和傳播;而在產(chǎn)業(yè)類視頻方面，將采集到的視頻轉(zhuǎn)變?yōu)榻Y(jié)構(gòu)化信息，通過提取獲得的信息，來幫助業(yè)務進行高效的感知和決策。

“云智一體”的百度智能視頻云3.0究竟在技術(shù)上有什么獨到之處?

(智能視頻云3.0全景圖)

云：高效穩(wěn)定的基礎(chǔ)技術(shù)架構(gòu)，打造強有力的輸出載體

為了更好地應對已經(jīng)來到的海量視頻業(yè)務需求，智能視頻云3.0以云邊端一體的基礎(chǔ)技術(shù)架構(gòu)作為核心依托，進一步拓展算力邊界，端到端、強穩(wěn)定、高性能的視頻云能力，幫助客戶快速實現(xiàn)應用的落地與交付。

百度智能視頻云3.0的云能力主要表現(xiàn)在智能編碼、智感超清、實時音視頻通訊、低延時直播、視頻分發(fā)加速CDN等五大方面：

智能編碼： 基于百度AI深度學習技術(shù)，通過深度學習網(wǎng)絡來提取視頻的特征，結(jié)合BD265生成智能編碼技術(shù)。

算法方面，依靠百度多年積累的技術(shù)優(yōu)勢，通過60+算法的優(yōu)化，在質(zhì)量和效率、速度上取得最優(yōu)解。

效率方面，相比業(yè)界開源的X265編碼器，在編碼速度有2-4倍的提升，同時節(jié)省30%的編碼碼率。

(智能編碼)

智感超清： 視頻體驗的優(yōu)化是一項精細求精、永無止境的工作。百度智能視頻云3.0通過智能超分、智能畫質(zhì)增強、智能插幀、智能修復、智能HDR生成等技術(shù)，在老片修復、真4K生成等典型應用場景上大幅提升畫質(zhì)體驗、彌補超高清內(nèi)容缺失，加速了超高清產(chǎn)業(yè)發(fā)展，相關(guān)技術(shù)在國際權(quán)威比賽中屢次奪冠，具體優(yōu)勢體現(xiàn)在：

超分辨率：通過多層級聯(lián)的U型神經(jīng)網(wǎng)絡架構(gòu)，對視頻空間的分辨率進行從粗到細的提升。

畫面去噪：基于無監(jiān)督去噪聲算法，擺脫了有監(jiān)督神經(jīng)網(wǎng)絡訓練對于成對的噪聲與干凈圖像的依賴;設計了可交互控制參數(shù)，支持用戶調(diào)節(jié)，增加了系統(tǒng)靈活性。

畫質(zhì)增強：通過深度殘差神經(jīng)網(wǎng)絡，將內(nèi)容特征提取與重建，不僅可以優(yōu)化畫質(zhì)飽和度、還原壓縮視頻導致的失真，還能對ROI區(qū)域進行區(qū)域增強和碼率分配優(yōu)化。

高幀率重制：依靠MEMC高幀率提升技術(shù)能力，通過對運動方向預判，據(jù)此進行插幀，提升畫面流暢度與觀屏舒適度。

超高清編碼：采用CPU+GPU+ASIC的異構(gòu)加速計算框架，支持國產(chǎn)昆侖K200芯片，提升AI推理效率和超高清編碼效率，降低用戶成本，提升總體的生成效率。

(智感超清)

實時音視頻通訊： 依靠核心自研的多個算法，實現(xiàn)通訊順暢的超低延時互動體驗，并分為如下幾個方面：

抗弱網(wǎng)支持方面：基于上/下行鏈路智能探測器，根據(jù)上下行網(wǎng)絡鏈路惡化程度因子，調(diào)整FEC、NACK、碼控、超清權(quán)重，選擇因子進行抗弱網(wǎng)抖動算法，使視頻抗弱網(wǎng)可達到60%，音頻80%。

AI能力方面：通過百度多年的AI技術(shù)積累，支持實時美顏、濾鏡、貼紙、AR特效，更多娛樂場景玩法，并提供人臉識別、語音識別等能力，適用于用于身份核驗、學生狀態(tài)監(jiān)測等更多場景。

高質(zhì)量音視頻通話方面：通過大量音視頻場景數(shù)據(jù)AI模型訓練，對音頻進行3A優(yōu)化的同時，并能通過智感超清支撐超高清畫質(zhì)，自動適配多分辨率，實現(xiàn)高質(zhì)量音視頻消息聊天。

性能指標方面：為針對通信節(jié)點路由的選擇，優(yōu)化混沌神經(jīng)網(wǎng)絡算法規(guī)劃最短路徑、實現(xiàn)動態(tài)平衡路由選擇，可使端到端延時穩(wěn)定收斂到200ms左右，并在單個節(jié)點故障時，能自動重建路由，保障server的可用性。依靠WHIP協(xié)議轉(zhuǎn)換裝置解決了傳統(tǒng)RTC通信server由于信令交互復雜、房間管理業(yè)務量大、數(shù)據(jù)庫操作頻繁等影響性能及大規(guī)模搞并發(fā)問題，可支撐每個房間在線人數(shù)達百萬級別。

端到端性能監(jiān)控方面：通過各端大量數(shù)據(jù)收集，依托百度智能云大數(shù)據(jù)分析，能精準的定位問題，對潛在的不可靠服務提前預警，讓潛在風險在萌芽狀態(tài)被解決，保障音視頻實時通信服務的高可用。

(實時音視頻通訊)

低延時直播： 采用了全鏈路SRT協(xié)議，可穩(wěn)定支撐千萬級直播并發(fā)。關(guān)鍵特性包括：

卓越抗弱網(wǎng)：自研mpegts數(shù)據(jù)格式封裝、支持SRT協(xié)議推拉流，將網(wǎng)絡丟包的可能性降到最低，有效改善弱網(wǎng)環(huán)境下的推流及觀看體驗。

首屏秒開：CDN邊緣先將編碼參數(shù)信息發(fā)給播放器，播放器解析到編碼信息，待下個關(guān)鍵幀到達后即可快速播放。

協(xié)議兼容：實現(xiàn)多種視頻流協(xié)議的輸入與輸出，基于SRT低延遲直播協(xié)議的上下行，能無縫接入LSS低延遲直播系統(tǒng)，與主流直播分發(fā)協(xié)議HTTP-FLV/RTMP/HLS結(jié)合，視頻轉(zhuǎn)發(fā)場景更加靈活。

規(guī)模并發(fā)：與HTTP-FLV支持的并發(fā)規(guī)模一致，支持千萬級規(guī)模并發(fā)。

(低延時直播)

視頻分發(fā)基礎(chǔ)設施CDN： 擁有遍布全球1000+節(jié)點、100T帶寬儲備，以強大網(wǎng)絡基礎(chǔ)設施帶來極致視頻分發(fā)體驗和效率。其中具有這幾大能力：

資源儲備的擴展能力：通過云邊端一體，將資源的使用能力持續(xù)下沉，與邊緣計算的資源深度結(jié)合，做到流量加速的同時，也能做到算力的加速。

近似實時的智能調(diào)度能力：具備全網(wǎng)流量與質(zhì)量的感知系統(tǒng)，能實現(xiàn)近似實時的智能調(diào)度。

分場景的協(xié)議調(diào)優(yōu)能力：通過質(zhì)量感知系統(tǒng)Bcats、節(jié)點多級緩存優(yōu)化、分場景協(xié)議棧優(yōu)化滿足客戶多場景的質(zhì)量要求，節(jié)點間使用私有協(xié)議加速，提升加速體驗并保證數(shù)據(jù)安全。

快速便捷的可編程能力：通過易用的可編程邊緣運行環(huán)境EJS，用戶可自主實現(xiàn)個性化業(yè)務控制邏輯，應對業(yè)務變化的敏捷效率挑戰(zhàn)。

(視頻分發(fā)基礎(chǔ)設施CDN)

此外在全民拍攝、泛直播時代背景下，針對輕量化美顏、智能剪輯、低碼率高品質(zhì)推流、沉浸式播放體驗等音視頻終端業(yè)務的基礎(chǔ)需求。百度智能云的視頻云終端能力矩陣，面向不同業(yè)務，提供豐富的SDK解決方案。

受益于終端工程化技術(shù)演進，視頻云終端框架正在經(jīng)歷從模塊化向智能化演進，平臺接入層重點解決多SDK的復用和數(shù)據(jù)管線組合，提高內(nèi)部協(xié)同效率同時，提升產(chǎn)品按需交付的靈活度。輔以橫貫模塊間的數(shù)據(jù)監(jiān)控，運行質(zhì)量一目了然?？缙脚_層重點解決多終端數(shù)據(jù)處理一致性體驗，基于生產(chǎn)消費模型，在終端算力的不斷釋放的情況下，將自研算法抽象成獨立算子(例如PaddleLite的人臉算法)，經(jīng)過管線中不同處理節(jié)點，最終將數(shù)據(jù)消費成業(yè)務效果(如美顏等)。終端數(shù)據(jù)高效率的處理，離不開平臺引擎層提供的持續(xù)動力。終端并行計算技術(shù)讓CPU與GPU在時間和空間上得到更好的協(xié)同。

(All In One能力矩陣)

智：AI能力讓視頻變得更加“聰明”

伴隨著視頻智能化的大潮，AI技術(shù)在視頻行業(yè)轉(zhuǎn)型升級中作用日益凸顯。依托百度云智一體的獨特優(yōu)勢，為滿足產(chǎn)業(yè)對場景的定制化應用需求，百度智能視頻云3.0全景圖的AI技術(shù)能力，基于百度自研業(yè)界最大包含了5500億海量知識的多元異構(gòu)知識圖譜，在視頻的智能理解分析、視頻智能生產(chǎn)與智能交互生成等方面充當了平臺化與場景化的創(chuàng)新應用的技術(shù)基石，助力智能視頻從“刀耕火種”走向“精耕細作”。

(智能視頻云3.0全景圖的AI技術(shù)能力)

智能理解分析

通過圖像、聲音、場景、人物、文本描述等信息，進行視頻智能分析、內(nèi)容智能審核、智能檢索。

視覺模態(tài)理解框架的升級： 提出了一個“預訓練+小型化+定制化”新的框架。該框架基于飛槳提供的大規(guī)模分類框架、PaddleSlim等組件，有效應對理解任務的復雜性，解決場景數(shù)據(jù)的稀缺性。在人臉任務上，全場景下識別相對錯誤率下降40%。在其他一些垂類任務上，訓練的標注量可以減少40%以上。

知識增強的視頻理解： 基于知識的視頻語義理解技術(shù)，充分利用豐富而全面的知識圖譜提升視頻理解效果。該技術(shù)通過對視覺、語音、文本的多模態(tài)內(nèi)容進行解析與融合，再利用知識關(guān)聯(lián)技術(shù)建立與視頻理解知識圖譜的連接，并根據(jù)背景知識以及知識計算與推理技術(shù)，實現(xiàn)對視頻的深度語義理解。這項技術(shù)打破了在傳統(tǒng)技術(shù)中，視頻內(nèi)容分析基于感知的局限性，實現(xiàn)對視頻的深度結(jié)構(gòu)化語義理解，大幅提升視頻理解的效果。

(智能理解分析)

視頻智能生產(chǎn)

通過圖文資訊、數(shù)據(jù)、圖集等多種內(nèi)容載體，進行智能編輯與智能創(chuàng)作。

視覺模態(tài)創(chuàng)新豐富的能力： 可將多種內(nèi)容載體向視頻形式進行自動轉(zhuǎn)換，提升傳播效率。目前百度智能云支持多種視頻生產(chǎn)方式，包括圖文，數(shù)據(jù)，圖集等轉(zhuǎn)視頻，長視頻拆短視頻及Video-in等生產(chǎn)形式。

知識增強的視頻生產(chǎn)： 基于知識圖譜的視頻生產(chǎn)技術(shù)是百度智能云視頻生產(chǎn)的亮點技術(shù)。

其中，借助知識圖譜的海量事實，可生產(chǎn)關(guān)于實體屬性、關(guān)系的各種知識類、趣味性的盤點視頻;通過對影視劇的多模語義理解，可將某一類場景鏡頭進行聚合，呈現(xiàn)作品的精彩片段。

(脈絡視頻生產(chǎn))

事件脈絡生成則是基于知識圖譜中一項核心技術(shù)能力。基于多輪問答技術(shù)，可達到事件監(jiān)測和事件論元抽取的能力;再通過事件識別、聚類、歸一等技術(shù)總體構(gòu)建事件脈絡生成技術(shù)，可以實現(xiàn)對客觀事件的動態(tài)理解。基于事件脈絡能力，可生成關(guān)于熱點事件來龍去脈的報道視頻。

視頻交互與生成

智能視頻云擁有豐富的技術(shù)能力，全新構(gòu)建了交互與生成AI能力矩陣，從AR特效等技術(shù)到新型的驅(qū)動特效，風格特效等，再到多模態(tài)生成，支持各種各樣的泛娛樂場景的視頻交互與生成需求。

(視頻交互與生成)

視覺模態(tài)的任意風格化： 基于元學習、多風格Adaptation技術(shù)、Few-shot Learning等技術(shù)，可根據(jù)需求快速定制不同風格的高質(zhì)量視頻。

多模態(tài)生成的數(shù)字人： 通過多模態(tài)技術(shù)，結(jié)合虛擬數(shù)字人形象與語音合成、唇動等生成技術(shù)，可低成本制作形象豐富靈動、線上線下多端覆蓋的的數(shù)字人，不僅交互自然、聲音動聽，還能夠適配多種業(yè)務場景需求。

目前數(shù)字人的應用載體較為廣泛，除了PC端以及手持移動設備以外，百度智能云自研了智能云屏、智能云席等數(shù)字人的新載體。為了更好的模擬真人交互，在云屏、云席等數(shù)字人載體上集成定制攝像頭以檢測面部動態(tài)，設置了的扇形拾音區(qū)域采集實音，這樣可以更好的識別主說話人，從而解決“雞尾酒會問題”。

今年兩會期間百度智能云與央視網(wǎng)合作推出虛擬數(shù)字人小C，進行“兩會C+真探”的虛擬記者采訪項目，一時收到市場廣泛關(guān)注。

(虛擬數(shù)字人小C)

雙平臺：便捷、高效、面向全場景的應用平臺

基于云智一體，百度智能視頻云3.0的視頻創(chuàng)作分發(fā)平臺和視聯(lián)網(wǎng)感知平臺面向不同場景應用提供一站式服務和平臺化支撐。

視頻創(chuàng)作分發(fā)平臺面向泛互聯(lián)網(wǎng)、泛媒體行業(yè)，聚焦工作流和媒介資源管理，覆蓋視頻接入、生產(chǎn)、處理、審核分析和個性化推薦分發(fā)全流程。核心是媒資管理和工作流，通過媒資結(jié)構(gòu)化處理和多摸精準搜索，媒資利用率可提升40%，盤活媒資，最大發(fā)揮內(nèi)容價值。與傳統(tǒng)采編發(fā)管理軟件的區(qū)別在于，利用AI能力對數(shù)據(jù)進行分析和理解，實現(xiàn)盤活數(shù)據(jù)，加快數(shù)據(jù)流動，提高媒資數(shù)據(jù)的利用率;工作流則提供了可視化控制臺，用戶可以通過簡單靈活的配置編排視頻的處理流程，更靈活的應對個性化業(yè)務需求，并適配移動化、多終端、多形態(tài)業(yè)務場景。

(視頻創(chuàng)作分發(fā)平臺)

視聯(lián)網(wǎng)感知平臺面向傳統(tǒng)產(chǎn)業(yè)，對視頻端設備和泛視頻數(shù)據(jù)流進行統(tǒng)一連接、分析和管理，實現(xiàn)通用的面向生產(chǎn)、控制和治理等場景的鏈接、鏈感、鏈管的基礎(chǔ)平臺。核心是對泛視頻設備和泛視頻數(shù)據(jù)流的統(tǒng)一連接、分析和管理，在企業(yè)生產(chǎn)、園區(qū)管理、城市和社會治理方面能發(fā)揮重要價值。

(視聯(lián)網(wǎng)感知平臺)

三大場景 ：云智一體智能視頻云的訴求

為了更好聚焦產(chǎn)業(yè)應用中的痛點與難點，為技術(shù)深入產(chǎn)業(yè)智能化轉(zhuǎn)型升級發(fā)揮更大價值。在百度智能視頻云的這張全景圖3.0，通過基于云智一體的兩大平臺，打造泛互聯(lián)網(wǎng)、泛媒體和泛產(chǎn)業(yè)方向的智能視頻方案與應用案例，覆蓋互動娛樂、內(nèi)容生產(chǎn)、智能分析、遠程實時通訊、生產(chǎn)管理、安全管理等場景。

泛媒體場景 ：百度智能視頻技術(shù)通過媒體大腦平臺，賦能產(chǎn)業(yè)三大升級，打造智媒產(chǎn)業(yè)互聯(lián)網(wǎng)生態(tài)圈。智能視頻云將云智一體的視頻技術(shù)和媒介中臺里的媒體AI中臺、媒體知識中臺、媒體經(jīng)營中臺相結(jié)合，從智能媒資管理、智能內(nèi)容生產(chǎn)、智慧媒體經(jīng)營三個層面解決智能視頻云技術(shù)在多種場景下的需求。

媒體AI中臺：通過智能內(nèi)容匯聚、智能內(nèi)容生產(chǎn)、智能媒資一體，全面覆蓋媒體內(nèi)容產(chǎn)出的測、采、編、審、發(fā)全流程。

媒體知識中臺：通過多元知識圖譜，把內(nèi)容資產(chǎn)知識化、資產(chǎn)化。將媒體自研和采購產(chǎn)生大量媒體資源，做標簽索引，形成一種資源。

媒體經(jīng)營中臺：所有內(nèi)容生產(chǎn)都是為了消費，都是為了觸達用戶，實現(xiàn)傳播的效果，或者商業(yè)的變現(xiàn)，百度有多元的媒體內(nèi)容經(jīng)營分發(fā)這樣的經(jīng)驗，我們也形成媒體的智能經(jīng)營的一套中臺體系。

(百度智能云泛媒體產(chǎn)品和解決方案全景圖)

泛互聯(lián)網(wǎng)場景 ：內(nèi)容和用戶是互聯(lián)網(wǎng)企業(yè)增長核心要素，百度智能視頻技術(shù)助力優(yōu)秀內(nèi)容創(chuàng)作者，深入垂類賽道，用AI技術(shù)幫助客戶降低碼率提升畫質(zhì)，以低成本分發(fā)的方式，精準觸達到目標受眾群，形成裂變增長。

智能小視頻一站式解決方案：提供全套智能視頻拍攝工具，在拍攝器上提供100+的AR技術(shù)拍攝編輯玩法;通過一站式工作流，直接將拍攝到的視頻傳輸至存儲系統(tǒng)，后臺流式處理視頻、審核發(fā)布并做分發(fā)加速;開放APP樣本及服務端部分代碼給客戶，用戶可通過自身需求定制開發(fā)，實現(xiàn)快速打造視頻應用。

全鏈路編解碼優(yōu)化解決方案：基于采集端的BD265方案，支持兼容軟硬編碼的能力，相比硬編265，節(jié)省了50%碼率。在服務端，結(jié)合BD265以及智感超清AI能力，提升畫質(zhì)降低碼率，節(jié)省用戶的傳輸?shù)膸捄痛鎯Φ某杀?。在分發(fā)端，提供實時視頻增強的SDK技術(shù)，只需下發(fā)低碼率視頻，就可以將整個視頻的畫質(zhì)優(yōu)化提升。

新零售的直播SaaS解決方案：通過一鍵式的導購直播能力，提升客戶的觸達率，實現(xiàn)線上的營銷變現(xiàn)，裂變引流，得到更多的轉(zhuǎn)化;并提供了分銷系統(tǒng)，實現(xiàn)訂單的追蹤，保證用戶的歸屬和轉(zhuǎn)化;同時具有數(shù)據(jù)分析能力，幫助客戶做出直播決策。

在線社交解決方案：支持IM聊天，實時音視頻通話，以及虛擬AI技術(shù)，通過三位一體的技術(shù)支撐，幫助用戶打造文字、語音、視頻內(nèi)容等社交的屬性。并且可以使用動畫制作功能，讓用戶去打造獨一無二的虛擬形象，通過真人實時驅(qū)動，構(gòu)造定制化IP。

(百度智能云泛互聯(lián)網(wǎng)產(chǎn)品和解決方案全景圖)

泛產(chǎn)業(yè)場景 ：百度智能視頻云以云邊端一體為基礎(chǔ)架構(gòu)，平臺+數(shù)據(jù)主導，解決業(yè)務對接系統(tǒng)和數(shù)據(jù)平臺化的需求。

智能技術(shù)：通過百度全棧式自主人工智能平臺，提供多場景的智能視覺應用，核心為識別常見的人臉、人體、車輛等具有豐富的特征值信息，同時提供豐富的庫內(nèi)的查詢能力。在各類業(yè)務場景中，覆蓋比如交通、政府、能源、城市治理和農(nóng)林等場景，此外還具有視頻修復能力，對提升整個視頻的理解能力有著極大的幫助。

云邊端架構(gòu)：在端側(cè)，為快捷獲取數(shù)據(jù)，部署了主要的算力和算子。邊側(cè)，通過閉環(huán)的能力，可以實現(xiàn)快速的邊緣的業(yè)務場景的整個閉環(huán)。云側(cè)，通過關(guān)鍵信息、關(guān)鍵數(shù)據(jù)傳送到云端，通過數(shù)據(jù)匯集，加強云計算和平臺的能力，為業(yè)務提供服務，實現(xiàn)更多的業(yè)務場景的應用。

開放能力：在端側(cè)，開放端云協(xié)同的SDK和AI的SDK，實現(xiàn)統(tǒng)一管理，同時在公網(wǎng)環(huán)境下，實現(xiàn)低延時效果;平臺側(cè)，開放所有模塊，實現(xiàn)SaaS和PaaS的結(jié)構(gòu)，用戶可以更快捷的利用業(yè)務需求，利用PaaS能力快速迭代，提升整個SaaS的開發(fā)效率。應用方面，推出智能全感知系統(tǒng)，利用云邊端一體的技術(shù)架構(gòu)，可以快速實現(xiàn)業(yè)務層的開發(fā)。

憑借“云智一體”的獨特優(yōu)勢，除智能視頻方向以外，百度智能云已在智能制造、智慧金融、智慧城市、智慧能源、智慧醫(yī)療等領(lǐng)域擁有領(lǐng)先產(chǎn)品、技術(shù)和解決方案，與多家行業(yè)翹楚合作推進企業(yè)數(shù)字化、智能化升級。百度將持續(xù)以深耕多年的AI技術(shù)能力深入各行各業(yè)，夯實智能化基礎(chǔ)，助力產(chǎn)業(yè)智能化升級實現(xiàn)新突破。

申請創(chuàng)業(yè)報道，分享創(chuàng)業(yè)好點子。點擊此處，共同探討創(chuàng)業(yè)新機遇！