1. 創(chuàng)業(yè)頭條
  2. 前沿領(lǐng)域
  3. 人工智能
  4. 正文

全雙工就夠了?思必馳聊更強(qiáng)的持續(xù)對話能力

 2019-12-05 16:08  來源:互聯(lián)網(wǎng)  我來投稿 撤稿糾錯

  域名預(yù)訂/競價,好“米”不錯過

AI語音已逐步滲透到了大眾的生活中,但是刻板的對話方式似乎還困擾著廣大用戶。

全雙工這個概念對人工智能行業(yè)從業(yè)者來講,并不陌生。談到全雙工,此前,谷歌Duplex幫助人們通過電話預(yù)約餐廳和理發(fā)師的功能,帶來了有趣的觀感體驗,在I/O 2019上,谷歌宣布對Duplex進(jìn)行重大擴(kuò)展。

谷歌Duplex

在推進(jìn)對話交互智能的市場化應(yīng)用過程中,思必馳同樣發(fā)現(xiàn),自然流暢的對話體驗、類人化的交互體驗成為了絕對的剛需。

因此,具備以上兩個特點(diǎn)的全雙工語音交互技術(shù),成為了關(guān)注的焦點(diǎn)。思必馳聯(lián)合創(chuàng)始人、首席科學(xué)家俞凱,早在劍橋大學(xué)期間主導(dǎo)開發(fā)了全雙工口語對話系統(tǒng),2010年參加國際對話系統(tǒng)研究挑戰(zhàn)賽時,獲得可控測試的冠軍,這也是世界上最早的全雙工端到端口語對話系統(tǒng)之一。區(qū)別在于,與現(xiàn)在廣泛作用于物聯(lián)網(wǎng)智能終端設(shè)備的全雙工交互系統(tǒng)相比,當(dāng)時的主要應(yīng)用,在基于電話信道的人機(jī)交互方面。

全雙工是個系統(tǒng)工程

作為系統(tǒng)工程,全雙工需要綜合利用語音語言技術(shù)的各個模塊,實(shí)現(xiàn)前后聯(lián)動,例如,其對前端信號處理、AEC回聲消除有強(qiáng)相關(guān)依賴,實(shí)時上傳的音頻對噪聲處理、音頻音質(zhì)要求較高,同時,作為系統(tǒng)工程,全雙工涉及到全鏈路語音交互的各個模塊,其同樣需要對識別后的識別信息、語義信息等進(jìn)行綜合判斷及處理,并做出決策。

半雙工&全雙工

因此,全雙工交互技術(shù)的提升涉及到對話系統(tǒng)的各個模塊,不僅各個模塊的功能需要提升,模塊間的配合能力更需要完善。

思必馳在推進(jìn)全雙工交互技術(shù)的市場落地過程中,發(fā)現(xiàn)了一個更有效的事情,“全雙工+語義拒識”讓交互體驗更加優(yōu)化。全雙工固然重要,但語義拒識算法,卻往往容易被人忽視。

語義拒識算法

受限于語音技術(shù)的發(fā)展,現(xiàn)有的對話系統(tǒng)受噪聲條件的影響非常明顯,缺乏穩(wěn)健性。在對話系統(tǒng)中,說話人的檢測和基于語義的拒識是其非常重要的組成部分。當(dāng)說話人的語音模糊不清或者語音數(shù)據(jù)不在已有訓(xùn)練集合中時,識別系統(tǒng)會產(chǎn)生識別錯誤,從而影響對話系統(tǒng)的識別和理解效果。

在半雙工狀態(tài)下,環(huán)境噪聲以及周圍人聲容易引起無效輸入,對話系統(tǒng)或錯誤響應(yīng),或給出“沒聽懂”的呆板播報,并且播報時不能打斷,十分影響交互效率。全雙工狀態(tài)下,對無實(shí)際語義的輸入則不會給出響應(yīng)。

拒識算法主要目的是去除沒有語義意義的音頻片段,節(jié)省后端處理的計算資源,提高整個對話系統(tǒng)的交互魯棒性,提升用戶使用體驗,避免錯誤的語義理解引發(fā)錯誤的反饋到用戶端。

思必馳語義拒識算法

思必馳拒識算法能夠解決的很多噪聲和無語義意義的問題,例如用戶無意義的嗯啊聲、背景噪聲與閑聊聲、純音樂聲、聲音幅度小、各種笑聲尖叫聲,無厘頭聲音等。

語義拒識對全雙工對話交互而言至關(guān)重要,可以說,拒識做不好,全雙工的效果往往也會差強(qiáng)人意。

思必馳全雙工交互技術(shù),更強(qiáng)的持續(xù)對話能力

思必馳全雙工交互技術(shù),讓更流暢的多輪對話成為常態(tài),說法更自由。

l連續(xù)交互免喚醒

過去,半雙工狀態(tài)下,用戶的跨領(lǐng)域交互每次交互都需要重新喚醒,于是,免喚醒技術(shù)成為改善體驗的焦點(diǎn)。近些年,免喚醒技術(shù)已不是新鮮方案,有的采用“便捷喚醒詞定制”,有的采用“喚醒+識別理解一體化”方案,但都存在著諸如“漏字”這類一系列的風(fēng)險:

“你好小馳明天天氣如何?”

漏字通常出現(xiàn)在喚醒詞和后面識別文本連接的地方,也就是句子中段。當(dāng)系統(tǒng)在識別過程中漏掉“明”字時,就會造成時間信息不清晰(“明天”還是“今天”?),系統(tǒng)無法明確用戶的真正時間指令。而現(xiàn)在,思必馳全雙工技術(shù)方案可實(shí)現(xiàn)一次喚醒,在多個領(lǐng)域持續(xù)交互,跨領(lǐng)域指代消解。

l動態(tài)斷句

在日常生活中,很多用戶說話會出現(xiàn)拖音現(xiàn)象,說話過程中,有思考/間斷的過程,因此會出現(xiàn)很多半截句,簡單粗暴的調(diào)整語音端點(diǎn)檢測閾值的做法往往會帶來對話卡頓的現(xiàn)象。

半雙工狀態(tài)下,對話系統(tǒng)設(shè)定了固定的停頓檢測時間,用戶還未表達(dá)完整句子稍微一猶豫/停頓,會被語音端點(diǎn)檢測系統(tǒng)誤斷句,造成輸入內(nèi)容不完整,機(jī)器無法理解。

思必馳全雙工交互技術(shù)則在云端根據(jù)用戶說話節(jié)奏和內(nèi)容,忽略無意義噪聲,動態(tài)斷句,既能保證用戶輸入的完整性,又能保證較快的響應(yīng)速度。在回復(fù)方面,則可以適時的回復(fù)“嗯”等接話話術(shù),系統(tǒng)打破了對用戶說話規(guī)則的要求,用戶可以按照自身的說話習(xí)慣來進(jìn)行交流,交互過程更加人性化。

l語義打斷,避免誤打斷

在半雙工狀態(tài)下,語音合成播放時很難進(jìn)行打斷,在一些終端設(shè)備上,行業(yè)內(nèi)普遍采用的打斷方式是“快捷喚醒詞打斷”,說法十分固定,無法泛化,需要定制多個喚醒詞,當(dāng)用戶想打斷的時候,必須要重復(fù)喚醒詞,容易發(fā)生誤打斷。同時,對話打斷對環(huán)境有較高要求,在有噪聲的時候,也容易被誤打斷。

思必馳全雙工交互技術(shù)可在對話的過程中,實(shí)時語義打斷,不容易出現(xiàn)誤打斷,同時,對沒有語義的輸入,則不會打斷語音合成播放。

這一技術(shù)在智能客服的領(lǐng)域?qū)蟠蟾纳葡M(fèi)者的體驗,消費(fèi)者可以隨時隨刻打斷機(jī)器人客服的無效對話信息,進(jìn)行信息咨詢。

如何判斷什么時候接話,什么時候反問,機(jī)器需要有智能決策的能力,這也是思必馳全雙工技術(shù)的一大特性:主動交互。根據(jù)用戶表達(dá)狀態(tài),如“正常說話”、“主動沉默”、“無意義表達(dá)”等狀態(tài),來給予相應(yīng)的主動反饋。

思必馳全雙工交互技術(shù)支持智能判斷,尤其是能夠主動打斷用戶的復(fù)雜冗長表達(dá),主動打破沉默僵局,實(shí)現(xiàn)流暢自然的用戶口語交流習(xí)慣。當(dāng)識別到用戶正常表達(dá)時,機(jī)器等待說完后答復(fù)反饋;當(dāng)用戶大段無意義輸入或表達(dá)過于復(fù)雜時,會主動打斷并提示反問;在交互過程中,當(dāng)用戶沉默時,則可以主動發(fā)起對話交互。

同時,經(jīng)過反復(fù)打磨和優(yōu)化,該技術(shù)對系統(tǒng)功耗幾乎無影響,實(shí)現(xiàn)低功耗下的最優(yōu)質(zhì)體驗。

思必馳全雙工語音交互

實(shí)踐,是檢驗真理的唯一標(biāo)準(zhǔn)

目前,思必馳全雙工交互技術(shù)已展開全線方案滲透,包括AIOT方案和企業(yè)信息智能服務(wù),深入作用汽車、家居、電子、教育、醫(yī)療、政務(wù)、金融、物流、酒店等場景。以音箱方案為例,接入全雙工系統(tǒng)后,這款“智能助理設(shè)備終端”將更似真人助理,更具備人類親和力的特質(zhì)和邏輯思維能力,整個對話體驗更加自然流暢。

思必馳業(yè)務(wù)場景

云端全雙工中控大腦持續(xù)優(yōu)化

針對全雙工交互技術(shù),思必馳將持續(xù)優(yōu)化云端全雙工中控大腦,持續(xù)進(jìn)行策略優(yōu)化、場景優(yōu)化、單點(diǎn)技術(shù)模塊優(yōu)化,將交互體驗做的更好。

未來,多模態(tài)交互將會讓全雙工交互技術(shù)發(fā)揮更大的能量,配合聲紋識別、圖像處理、虹膜識別等技術(shù),過濾無用信息,人機(jī)交互會變得更加貼合人性,或許不遠(yuǎn)的未來,你甚至分不清與你隔屏對話的,到底是人還是機(jī)器人。

申請創(chuàng)業(yè)報道,分享創(chuàng)業(yè)好點(diǎn)子。點(diǎn)擊此處,共同探討創(chuàng)業(yè)新機(jī)遇!

相關(guān)標(biāo)簽
ai技術(shù)
智能語音

相關(guān)文章

  • 匯聚中國AI頂尖力量 云天勵飛參與華為AI大模型聯(lián)合創(chuàng)新

    2023年7月6日,第六屆世界人工智能大會(WAIC2023)在上海開幕,“人工智能大模型”是本屆大會的備受矚目的話題,據(jù)悉,在昇騰AI大模型的創(chuàng)新研發(fā)中,華為聯(lián)手26家行業(yè)領(lǐng)軍企業(yè),組建了一支協(xié)同創(chuàng)新的“AI明星隊”,云天勵飛作為中國人工智能企業(yè)的杰出代表,和互聯(lián)網(wǎng)大廠、運(yùn)營商、科研院所等優(yōu)秀團(tuán)隊

    標(biāo)簽:
    ai技術(shù)
  • 用友大易:邁入AI招聘2.0時代,讓人力資源回歸本質(zhì)

    這幾個月來,以ChatGPT為代表的生成式AI展現(xiàn)出的能力令世界驚嘆。自從2016年AlphaGo戰(zhàn)勝李世石掀起了一波AI浪潮后,AI仿佛已經(jīng)沉寂了很久,ChatGPT的橫空出世就如同一束耀眼的光芒,讓AI這個名詞重回C位。過去在AI1.0時代,主要通過訓(xùn)練模型來實(shí)現(xiàn)圖像識別、聲音識別、語言處理等特

    標(biāo)簽:
    ai技術(shù)
  • 新發(fā)布的PaaS2.0,能否助力涂鴉智能再起飛?

    文:互聯(lián)網(wǎng)江湖作者:志剛2023年的IoT需要一個新故事。6月29日,涂鴉智能在開發(fā)者大會上,發(fā)布了企業(yè)級戰(zhàn)略PaaS2.0,希望通過一個平臺+四大開發(fā)服務(wù),建立起IoT生態(tài)。對于這場發(fā)布會,市場的態(tài)度是積極的。美東時間6月29日收盤,涂鴉智能美股股價上漲5.6%,來到1.87美元/股。近日股價穩(wěn)定

    標(biāo)簽:
    ai技術(shù)
  • 大模型難掩AI制藥的悲傷:越過山丘,無人等候

    美團(tuán)曾經(jīng)的二號人物王慧文對標(biāo)OpenAI的創(chuàng)業(yè)項目光年之外,以20億賣給美團(tuán),再度引發(fā)市場對大模型的熱議。

    標(biāo)簽:
    ai技術(shù)
  • 拾起王慧文的AI夢,美團(tuán)沖向“光年之外”?

    2020年底,王慧文在朋友圈寫下這句話時,外界本以為這位伴隨中國互聯(lián)網(wǎng)發(fā)展而持續(xù)創(chuàng)業(yè)20年的人物即將告別創(chuàng)業(yè)舞臺。但是,一個曾經(jīng)多次創(chuàng)業(yè),正值壯年的互聯(lián)網(wǎng)老將心中的創(chuàng)業(yè)熱情是難以熄滅的。

    標(biāo)簽:
    ai技術(shù)
  • 通義靈碼AI編程能力再進(jìn)化,說幾句話就能開發(fā)網(wǎng)頁

    9月19日,在2024杭州云棲大會上,隨著通義大模型能力的全面提升,阿里云通義靈碼迎來重磅升級,從一年前只能完成基礎(chǔ)的輔助編程任務(wù),進(jìn)化到幾句話就能完成需求理解、任務(wù)拆解、代碼編寫、修改BUG、測試等開發(fā)任務(wù),最快幾分鐘可從0到1完成應(yīng)用開發(fā),提升數(shù)十倍開發(fā)效率。自去年首次亮相以來,通義靈碼已入職中

    標(biāo)簽:
    通義千問
  • 何小鵬駕駛“全球首款A(yù)I汽車”亮相云棲大會 深化與阿里云AI算力合作

    9月19日,小鵬汽車董事長CEO何小鵬駕駛“全球首款A(yù)I汽車”P7+亮相2024云棲大會,這款車搭載了業(yè)內(nèi)領(lǐng)先的端到端大模型。過去2年,小鵬汽車與阿里云共建的AI算力規(guī)模提升超4倍。何小鵬表示,將繼續(xù)深化與阿里云的AI算力合作,加速推動端到端大模型拓展自動駕駛上限,提升下限。端到端是當(dāng)下最受業(yè)界關(guān)注

  • 阿里CEO吳泳銘:機(jī)器人將是下一個迎來巨變的行業(yè)

    9月19日,阿里巴巴集團(tuán)CEO、阿里云智能集團(tuán)董事長兼CEO吳泳銘在2024云棲大會上發(fā)表主題演講。他認(rèn)為,過去22個月,AI發(fā)展的速度超過任何歷史時期,但我們依然還處于AGI變革的早期。生成式AI最大的想象力,絕不是在手機(jī)屏幕上做一兩個新的超級app,而是接管數(shù)字世界,改變物理世界。阿里巴巴集團(tuán)C

  • “創(chuàng)造市場”與“算法進(jìn)化”,中美AI競速的岔路口

    “人工智能的商業(yè)模式,是要創(chuàng)造一個市場,而非一個算法”。這是世界AI泰斗MichaelI.Jordan的觀點(diǎn)。而當(dāng)前的全球AI市場,占據(jù)主導(dǎo)地位的中美雙方,卻也走出了兩條截然不同的技術(shù)路徑,前者執(zhí)著于前沿技術(shù)的探索,后者則發(fā)力應(yīng)用優(yōu)化和商業(yè)化落地。南轅北轍的兩個方向,或許已經(jīng)無法直接進(jìn)行排位先后、優(yōu)

    標(biāo)簽:
    ai智能
  • 智能體進(jìn)化發(fā)展了一年,現(xiàn)在的RPA Agent迭代到什么程度了?

    智能體進(jìn)化發(fā)展了一年,現(xiàn)在的RPAAgent迭代到什么程度了?從實(shí)在智能最新發(fā)布的實(shí)在Agent7.0,看RPAAgent的迭代升級抓取豆瓣信息、自己制作PPT,這款A(yù)IAgent真的實(shí)現(xiàn)了流程全自動化AIAgent構(gòu)建到執(zhí)行全自動化,持續(xù)進(jìn)化RPAAgent再次降低智能體應(yīng)用門檻實(shí)在智能重磅發(fā)布實(shí)

  • 崔大寶:大模型降溫背后的難點(diǎn)、卡點(diǎn)、節(jié)點(diǎn)

    崔大寶|節(jié)點(diǎn)財經(jīng)創(chuàng)始人進(jìn)入2024年,大模型似乎有熄火之勢:資本市場,與之關(guān)聯(lián)的概念炒不動了,英偉達(dá)股價動輒暴跌重挫,引發(fā)“泡沫戳破”的擔(dān)憂;消費(fèi)市場,BATH們的推新活動少了,產(chǎn)品更新迭代的速度慢了,民眾的關(guān)注度降了……熱鬧的大概只剩下兩場酣仗:自5月15日字節(jié)跳動宣布“以厘計費(fèi)”,打響國內(nèi)大模型

    標(biāo)簽:
    大模型
  • 這一屆“出道”的數(shù)字人,已經(jīng)拿捧上了“鐵飯碗”

    文|智能相對論作者|陳泊丞好消息!你心心念念的事業(yè)單位發(fā)錄取公告了!壞消息!他們沒錄你,錄了個數(shù)字人。圖片來源網(wǎng)絡(luò)隨著數(shù)字人技術(shù)的突破,越來越多的傳統(tǒng)企業(yè)和機(jī)構(gòu)開始用上了“數(shù)字員工”。甚至很多中國人心心念念的“鐵飯碗”,也被這些數(shù)字人給捧上了。數(shù)字人捧上了“鐵飯碗”簡單翻看一下全國各地事業(yè)單位的“錄

    標(biāo)簽:
    數(shù)字人
  • 來到IPO關(guān)口,地平線離“三分天下”還有多遠(yuǎn)?

    黑芝麻智能敲鐘后,港交所門口又有一些智駕芯片企業(yè)引發(fā)關(guān)注。據(jù)悉,近日地平線已通過中國證監(jiān)會IPO備案,擬發(fā)行不超過11.5億股境外上市普通股并在香港聯(lián)合交易所上市,預(yù)計籌集約5億美元資金。從天眼查可以了解到,該公司成立于2015年,是一家乘用車高級輔助駕駛(ADAS)和高階自動駕駛(AD)解決方案供

  • 機(jī)器人大會引領(lǐng)產(chǎn)業(yè)動向,卓翼飛思繪制無人系統(tǒng)教科研新藍(lán)圖

    8月21日,萬眾矚目的2024世界機(jī)器人大會暨博覽會在北京亦創(chuàng)國際會展中心盛大開幕。這場為期5天,集“展覽”“論壇”“賽事”于一體的機(jī)器人盛會,反映了當(dāng)下機(jī)器人領(lǐng)域的繁榮生態(tài)。據(jù)官方統(tǒng)計數(shù)據(jù),今年現(xiàn)場逛展觀眾高達(dá)25萬人次,比去年增加25%。機(jī)器人行業(yè)有多火?看看2024世界機(jī)器人大會火爆程度便可知

熱門排行

編輯推薦