1. 創(chuàng)業(yè)頭條
  2. 前沿領(lǐng)域
  3. 人工智能
  4. 正文

遠傳科技“數(shù)字主持人”誕生記:不是復(fù)制,而是創(chuàng)造一個新模態(tài)

 2021-05-31 14:27  來源:互聯(lián)網(wǎng)  我來投稿 撤稿糾錯

  域名預(yù)訂/競價,好“米”不錯過

遠傳科技從未停止“造人”的腳步。

除了有“AI虛擬主播”之外,現(xiàn)在連“數(shù)字主持人”也來了,“數(shù)字主持人”到底是什么呢?

遠傳科技的“數(shù)字主持人”是通過語音合成、唇形合成、表情合成以及深度學(xué)習(xí)等技術(shù),克隆出具備和真人主播一樣播報能力的數(shù)字人。通過語音合成技術(shù)和視頻驅(qū)動技術(shù),只需要輸入一段文本,它就能在屏幕展現(xiàn)虛擬數(shù)字人形象并進行新聞播報,且唇形動作能與播報聲音實時同步。

或許在不久的未來,你再也分不清視頻中的主持人,究竟是真人還是虛擬人,而這一天正在到來。

一、根源探究:「高逼真」的背后

遠傳科技“數(shù)字主持人”以真人為原型,通過將真人形象數(shù)字化掃描技術(shù),建立超寫實 3D 數(shù)字人建模,多模態(tài)識別及生成、實時面部動作生成及驅(qū)動、遷移學(xué)習(xí)等技術(shù)「熔爐」,煉就而成。

從效果上來說,3D AI 合成主播給人的最大印象便是高逼真,它較好的還原了真人的發(fā)膚、表情;同時,靈活性、可塑性更強,擁有的豐富的面部表情動作,嘴部唇動,以及身體的輕微擺動,具備在更廣闊空間使用的潛力。

透過 3D AI 合成主播技術(shù)實現(xiàn)過程,我們探究它為何擁有如此逼真的效果。

1.數(shù)字化掃描技術(shù)還原真人形象

建立人物模型必須要有海量數(shù)據(jù),遠傳科技數(shù)字化掃描技術(shù)通過攝像頭對真人原型的身體各個部位進行全方位「打點」掃描,采集每一處細節(jié),并對其多種形態(tài)的面部表情動作,嘴部唇動,以及身體的輕微擺動進行細致入微地捕捉記錄,還原真人形象。

2.深度學(xué)習(xí)算法生成3D數(shù)字人模型

遠傳科技算法工程師熟練應(yīng)用深度學(xué)習(xí)算法,對算法里的大量參數(shù)進行調(diào)優(yōu),確保生成的3D數(shù)字人模型能夠精確的還原真人在正常說話時候的唇部動作,臉部表情及微動作,對3D數(shù)字人模型進行實時驅(qū)動、渲染,使其面部肌肉驅(qū)動、表情肢體和語言表達能力達到一個較高的度契合。確保非專業(yè)人士無法分辨出是真人拍攝的視頻還是通過數(shù)字技術(shù)合成出來的視頻。

二、核心亮點: AI 驅(qū)動、多模態(tài)交互

1.AI 驅(qū)動的 3D 數(shù)字人

遠傳科技“數(shù)字主持人”是一種由AI所驅(qū)動的虛擬存在,擁有和真人一致的音容、笑貌和言談舉止,擁有表達情感和智慧的能力。仔細觀察你會發(fā)現(xiàn), 3D AI 合成主播是基于 AI 算法實現(xiàn)驅(qū)動。

具體來說,3D “數(shù)字主持人”靠 AI 算法實時驅(qū)動,輸入一個文本就能輸出一個視頻,往往生成一個 1 分鐘的視頻,僅只需要 1 分鐘,幾乎可以看作實時生成。

2.關(guān)鍵技術(shù)賦能多模態(tài)交互創(chuàng)新

唇動算法、3D建模技術(shù)、深度學(xué)習(xí)算法、5G通信等關(guān)鍵技術(shù)探索文本、語音和視覺多模態(tài)交互創(chuàng)新的無限可能。

遠傳科技利用唇動算法分析出數(shù)字人應(yīng)顯示的口型標(biāo)記,突破語言交流過程的表情和唇動的無縫鏈接;根據(jù)給定人物形象要求,建立數(shù)字人3D模型,綁定骨骼,創(chuàng)立動作動畫和口型動畫;基于深度學(xué)習(xí)算法、肢體捕捉技術(shù),將文本、音頻和圖片實時生成數(shù)字人視頻;5G通信技術(shù)則讓用戶跟數(shù)字人進行語音視頻互動成為可能,麥克風(fēng)和攝像頭捕捉用戶的語音和動作,數(shù)字人的后端人工智能算法根據(jù)場景生成對應(yīng)的數(shù)字人交互動作、表情和語音。

三、未來已來,你準(zhǔn)備好了嗎?

遠傳科技“數(shù)字主持人”雖然基于真實的人進行建模,但呈現(xiàn)在人們面前的行為都是完全逼真的,能像真實主播一樣,去笑,去哭,去表達,是被創(chuàng)造出來的一個“數(shù)字人”。

數(shù)字人的未來將會作為主體人的一個副本形式存在于數(shù)字世界中,在未來的數(shù)字世界中我們將無法分辨出真人和數(shù)字人,大量在數(shù)字世界的服務(wù)將都會由數(shù)字人來代替,在電話客戶服務(wù)、線上產(chǎn)品講解、電商直播甚至線上演唱會等眾多場景都將會有數(shù)字人的角色參與,數(shù)字化終極未來也許就是數(shù)字人的世界。

你準(zhǔn)備好接受一個數(shù)字世界了嗎?

申請創(chuàng)業(yè)報道,分享創(chuàng)業(yè)好點子。點擊此處,共同探討創(chuàng)業(yè)新機遇!

相關(guān)標(biāo)簽
vr虛擬現(xiàn)實
數(shù)字技術(shù)

相關(guān)文章

  • “創(chuàng)造市場”與“算法進化”,中美AI競速的岔路口

    “人工智能的商業(yè)模式,是要創(chuàng)造一個市場,而非一個算法”。這是世界AI泰斗MichaelI.Jordan的觀點。而當(dāng)前的全球AI市場,占據(jù)主導(dǎo)地位的中美雙方,卻也走出了兩條截然不同的技術(shù)路徑,前者執(zhí)著于前沿技術(shù)的探索,后者則發(fā)力應(yīng)用優(yōu)化和商業(yè)化落地。南轅北轍的兩個方向,或許已經(jīng)無法直接進行排位先后、優(yōu)

    標(biāo)簽:
    ai智能
  • 智能體進化發(fā)展了一年,現(xiàn)在的RPA Agent迭代到什么程度了?

    智能體進化發(fā)展了一年,現(xiàn)在的RPAAgent迭代到什么程度了?從實在智能最新發(fā)布的實在Agent7.0,看RPAAgent的迭代升級抓取豆瓣信息、自己制作PPT,這款A(yù)IAgent真的實現(xiàn)了流程全自動化AIAgent構(gòu)建到執(zhí)行全自動化,持續(xù)進化RPAAgent再次降低智能體應(yīng)用門檻實在智能重磅發(fā)布實

  • 崔大寶:大模型降溫背后的難點、卡點、節(jié)點

    崔大寶|節(jié)點財經(jīng)創(chuàng)始人進入2024年,大模型似乎有熄火之勢:資本市場,與之關(guān)聯(lián)的概念炒不動了,英偉達股價動輒暴跌重挫,引發(fā)“泡沫戳破”的擔(dān)憂;消費市場,BATH們的推新活動少了,產(chǎn)品更新迭代的速度慢了,民眾的關(guān)注度降了……熱鬧的大概只剩下兩場酣仗:自5月15日字節(jié)跳動宣布“以厘計費”,打響國內(nèi)大模型

    標(biāo)簽:
    大模型
  • 這一屆“出道”的數(shù)字人,已經(jīng)拿捧上了“鐵飯碗”

    文|智能相對論作者|陳泊丞好消息!你心心念念的事業(yè)單位發(fā)錄取公告了!壞消息!他們沒錄你,錄了個數(shù)字人。圖片來源網(wǎng)絡(luò)隨著數(shù)字人技術(shù)的突破,越來越多的傳統(tǒng)企業(yè)和機構(gòu)開始用上了“數(shù)字員工”。甚至很多中國人心心念念的“鐵飯碗”,也被這些數(shù)字人給捧上了。數(shù)字人捧上了“鐵飯碗”簡單翻看一下全國各地事業(yè)單位的“錄

    標(biāo)簽:
    數(shù)字人
  • 來到IPO關(guān)口,地平線離“三分天下”還有多遠?

    黑芝麻智能敲鐘后,港交所門口又有一些智駕芯片企業(yè)引發(fā)關(guān)注。據(jù)悉,近日地平線已通過中國證監(jiān)會IPO備案,擬發(fā)行不超過11.5億股境外上市普通股并在香港聯(lián)合交易所上市,預(yù)計籌集約5億美元資金。從天眼查可以了解到,該公司成立于2015年,是一家乘用車高級輔助駕駛(ADAS)和高階自動駕駛(AD)解決方案供

  • 機器人大會引領(lǐng)產(chǎn)業(yè)動向,卓翼飛思繪制無人系統(tǒng)教科研新藍圖

    8月21日,萬眾矚目的2024世界機器人大會暨博覽會在北京亦創(chuàng)國際會展中心盛大開幕。這場為期5天,集“展覽”“論壇”“賽事”于一體的機器人盛會,反映了當(dāng)下機器人領(lǐng)域的繁榮生態(tài)。據(jù)官方統(tǒng)計數(shù)據(jù),今年現(xiàn)場逛展觀眾高達25萬人次,比去年增加25%。機器人行業(yè)有多火?看看2024世界機器人大會火爆程度便可知

  • 卓翼智能:超大載重高烈度環(huán)境特種智能系留無人平臺的應(yīng)用與未來

    瞄準(zhǔn)場景需求,打造國內(nèi)領(lǐng)先的自主可控、高質(zhì)量超大載重高烈度環(huán)境特種智能系留無人平臺。卓翼智能亮相HICOOL峰會以科技實力榮摘創(chuàng)業(yè)大賽一等獎這個比賽5年培育出16家“獨角獸”HICOOL2024全球創(chuàng)業(yè)者峰會暨創(chuàng)業(yè)大賽已于8月25日在北京圓滿落下帷幕,大賽共吸引了124個國家和地區(qū)的7406個創(chuàng)業(yè)項

  • 60萬獎金召喚AI創(chuàng)新者,2024無錫國際人工智能創(chuàng)新應(yīng)用大賽火熱進行中!

    人工智能是新一輪科技革命和產(chǎn)業(yè)變革的重要驅(qū)動力量。無錫市作為中國的科技創(chuàng)新中心之一,正通過構(gòu)建人工智能"算力+算法+數(shù)據(jù)"三要素齊備的產(chǎn)業(yè)生態(tài),為產(chǎn)業(yè)技術(shù)創(chuàng)新應(yīng)用提供強大支撐,通過“AI+”行動推動人工智能與多個產(chǎn)業(yè)交叉融合,實現(xiàn)技術(shù)落地和產(chǎn)業(yè)化,加速形成新質(zhì)生產(chǎn)力,打造具有國際競爭力的產(chǎn)業(yè)創(chuàng)新智造

  • “云+AI”驅(qū)動操作系統(tǒng)創(chuàng)新升級,龍蜥堅持可持續(xù)發(fā)展路線

    近日,2024龍蜥操作系統(tǒng)大會(OpenAnolisConference)在北京圓滿召開,此次大會由中國計算機學(xué)會開源發(fā)展委員會、中關(guān)村科學(xué)城委員會、海淀區(qū)委網(wǎng)信辦、中國開源軟件推進聯(lián)盟指導(dǎo),龍蜥社區(qū)主辦,阿里云、浪潮信息、Intel、中興通訊、Arm、中科方德等24家理事單位共同承辦,主題為“進化

編輯推薦