1. 創(chuàng)業(yè)頭條
  2. 前沿領域
  3. 人工智能
  4. 正文

汽車AI語音交互 ?正在讓機器交互更接近真人交互

 2020-05-01 18:09  來源:A5專欄  我來投稿 撤稿糾錯

  域名預訂/競價,好“米”不錯過

文|胡楊 胡皓

來源|智能相對論(ID:aixdlun)

- 今天天氣怎么樣?

- 今日是晴天,氣溫17到22度,東北風3到4級。

- 那周五呢?

- 周五距今天還有2天。

“重復喚醒,答非所問,這不是人工智能,是‘人工智障智障’。”這是大部分智能網聯(lián)汽車用戶對語音交互的抱怨。

現(xiàn)在,情況有了改善。當用戶詢問車機“明天出門需要帶傘么?”,車機就會播報明天的天氣情況,如果需要再查詢其他時間或者城市的天氣,那么用戶不用重新喚醒,也不需要說出完整表達,只需要說“那大后天呢?”、“那杭州呢?”。在用戶和車機在自然連續(xù)對話的過程中,語義理解服務會記住會話的歷史,并結合歷史處理用戶的請求,通過這種方式,用戶的多次連續(xù)交互就可以形成一個會話流,與用戶的交互也更加自然。

自然連續(xù)對話,是車載語音交互從“人工智障”邁向“人工智能”的重要一步。不過斑馬網絡最近推出的斑馬智行VENUS系統(tǒng),打破了對用戶說話規(guī)則的要求,用戶可以按照自身的說話習慣來進行交流,交互過程更加人性化。這會不會是一個跨越?

從科幻到現(xiàn)實,語音交互一直在進化

提到智能語音交互,普羅大眾對于技術刷屏的記憶停留在2018年的Google開發(fā)者大會“Google I/O”開幕式上。當Google Assistant以驚人的流利會話,打電話和店家溝通,預約理發(fā)店、餐廳,并用一句俏皮的“嗯哼”作為回應時,觀眾給予了熱烈的掌聲。這是技術愿景美好、激勵人心的一面。

有趣的是,同年2月的美國第五十二屆超級碗的天價廣告上,亞馬遜賣力黑了自家的智能音箱和智能助手——Alexa。喚醒失誤、識別不準、響應困難等等用戶槽點,被廣告創(chuàng)意表現(xiàn)得淋漓盡致。這是技術的現(xiàn)實。

但不論是基于場景的未來暢想,還是對當下缺陷的大膽自嘲,兩個科技巨頭都將業(yè)務重心的一角,押注在了語音交互賽道上。

亞馬遜首席技術官Werner Vogels斷言:未來,人和數(shù)字世界對的交互,一定是以“人”為核心,而不是機器驅動;我們終將構建出更人性化的交互,讓人機互動更加融合。

在“以人為核心”、“更加融合”的人機交互中,語音交互(簡稱VUI)是核心。VUI允許更自由、高效的人機交互,其本質上比任何其他形式的用戶界面都更“人性化”。斯坦福大學教授,Wired for Speech的合著者,克利福德·納斯寫道:“語音是人類交流的基本手段…….所有文化主要通過語音來說服,告知和建立關系。”

VUI允許用戶使用語音作為媒介與機器進行交互。從《2011太空漫游》中的HAL到《星球大戰(zhàn)》中的C-3PO,人們在科幻電影里暢想著能夠與機器自由溝通。事實上,早在1952年,貝爾實驗室的工程師就開發(fā)出了Audrey(奧黛麗):它可以識別數(shù)字0-9的發(fā)音。盡管奧黛麗能夠以超過90%的精度識別語音輸入,但其體積大,成本高昂,未曾步入大規(guī)模商業(yè)化的發(fā)展通道。

自此,人類開啟了長達半個多世紀的語音交互探索。1962年,IBM推出了第一臺真正意義上的是語音識別機器。工程師William Dersch開發(fā)出的Shoebox可以收聽操作員說出的數(shù)字和命令。例如“5+3+8+6+4-9,總和”,機器將打印出正確答案:17。

1970年,隱馬爾可夫模型(HMM)為語音識別的發(fā)展插上了算法的翅膀,讓語音識別從文字匹配進化到了可預測的高度。20世紀80年代,Covox,Dragon Systems,Speechworks相繼成立,推動了語音識別的商用化進程。

90年代,語音識別技術迎來了大規(guī)模商用和普及。1995年,Dragon發(fā)布了單詞聽寫級的語音識別軟件。這是人類歷史上首個面向廣大消費者的語音識別產品。僅一年之后,Charles Schawab(嘉信理財)和Nuance(紐昂斯)聯(lián)合推出了一套“語音股票經紀人”系統(tǒng),可同時響應360個客戶的股票詢價電話。1997年,如今隸屬Nuance旗下的聲龍系統(tǒng)(Dragon system)推出了“NaturallySpeaking”軟件,這是歷史上第一個可用的“連續(xù)語音”聽寫軟件。它標志著單詞級不停頓語音交互的開始。

最近的20年,Google,Apple,Amazon先后推出了大眾耳熟能詳?shù)闹悄苷Z音助手,并通過智能手機、智能音箱等產品,來到普羅大眾身邊。據(jù)Juniper Research統(tǒng)計,截至2019年2月,全球使用中的語音助手達32.5億;預計到2023年,該數(shù)字將達到80億。

語音交互技術上的高山一:自然連續(xù)對話

隨著軟硬件的快速迭代,如今的ASR(語音識別)技術已近成熟,未來智能語音交互的核心競爭力在于在復雜場景下準確理解用戶的意圖,并為其提供差異化服務。更加智能的自然連續(xù)對話能力,將讓語音交互系統(tǒng)更具人類的親和力特質和邏輯思維能力,能帶給用戶更具情景化、更有溫度的用車體驗和服務潛力。

“智能相對論”認為,自然連續(xù)對話是一個系統(tǒng)的工程,涉及到從車機端的聲學前端處理、語音喚醒、語音識別、語義理解、對話管理、自然語言生成、語音合成等核心交互技術。斑馬智行VENUS的AI語音得益于阿里達摩院的重磅加持以及科大訊飛、思必馳等合作伙伴的大力支持,極大提升了語音能力。斑馬基于AliOS系統(tǒng),可以更好地將語音核心技術能力與系統(tǒng)能力相結合,更大程度地發(fā)揮出語音核心技術的優(yōu)勢,將多種引擎的協(xié)作發(fā)揮到極致,達到“1+1>2”的效果。

語音交互技術上的高山二:個性化,即聲音克隆

如果說自然連續(xù)對話為更自由的交互和差異化服務提供可能,那語音定制化則將個性化、情感化的語音交互率先落地。

2017年9月,一家名為Lyrebird的加拿大初創(chuàng)公司在推特上發(fā)布了一段10秒的錄音。錄音是內容AI模仿美國總統(tǒng)特朗普的話語。在此之前,Google旗下的DeepMind曾經公布了一個用AI合成人聲的研究成果:WaveNet,達到以假亂真的地步。Adobe也發(fā)布過一款名為Project VoCo的原型軟件,在傾聽20分鐘音頻樣本之后可以進行模仿。而Lyrebird將音頻采樣的輸入時間縮短到了60秒。

如今,國內智能網聯(lián)行業(yè)也首次迎來了語音定制——“聲音克隆”產品。斑馬智行VENUS系統(tǒng)“聲音克隆”操作流程非常簡單。用戶只需在斑馬智行APP錄制20句話即可合成私人語音包,一鍵發(fā)送至車機便可全局使用,無論是導航引導、天氣查詢,還是預訂餐廳,和你對話的都是你最想聽的聲音。

聲音是車載AI語音交互功能的“靈魂”,基于“聲音克隆”技術,斑馬智行VENUS系統(tǒng)將為用戶提供“千人千聲”的定制化服務,用戶可以“克隆”親人和愛人的聲音,讓陪伴更長久,讓駕駛更舒心。

據(jù)介紹,斑馬智行VENUS系統(tǒng)“聲音克隆”操作流程非常簡單。用戶只需在斑馬智行APP錄制20句話即可合成私人語音包,一鍵發(fā)送至車機便可全局使用,無論是導航引導、天氣查詢,還是預訂餐廳,和你對話的都是你最想聽的聲音。斑馬網絡AI語音相關負責人表示,斑馬智行VENUS系統(tǒng)能在錄制“傾聽”中“掌握”每個人說話時的字母、音位、單詞和語句的發(fā)音特點,通過深度學習技術推理并模仿聲音中的語音音色、語調,“說”出全新的語句。

攀登技術高山,如何讓機器交互能夠更接近真人交互依然在等待更好答案

語音是人類最舒適,最直觀的交流方式之一。如今的智能語音交互產品,變得越來越像人一樣聰明且富有感情。它可以準確理解信息輸入、高效處理并提供理想的信息輸出。“智能相對論”認為,在人工智能和5G迅速發(fā)展的背景下,語音平臺有機會成為物聯(lián)網時代下新的“操作系統(tǒng)”,連接全新的產業(yè)生態(tài),包括各類服務、應用、硬件等。

在各類應用場景中,除了智能家居,汽車產品對于語音交互的需求顯而易見。不論是點擊、滑動等觸摸交互方式,在車載環(huán)境下都存在安全隱患且并不高效,語音交互是天然適應車載環(huán)境的交互方式。不過想要設計、開發(fā)、應用一套成熟的車載語音交互系統(tǒng),要翻越重重高峰:行車噪音干擾如何處理、方言口音如何適配、自然的表達如何更好支持、系統(tǒng)的誤觸發(fā)如何控制在可用范圍。

而隨著用戶對汽車智能化要求的越來越高,更自然的交互成為語音交互的發(fā)展方向。如何讓機器交互能夠更接近真人交互?多模態(tài)融合理解、自然全雙工對話、自然語義理解成為了新的需要攀登的高峰。

斑馬智行的系統(tǒng)底層——AliOS,在傳統(tǒng)觸控、按鍵交互模式的基礎上,將語音交互能力、視覺交互能力以及場景信息在系統(tǒng)層進行融合互通,更大程度得發(fā)揮了各個交互能力的優(yōu)勢,使得多模態(tài)融合理解、融合交互以及更自然的全雙工對話、擁有更多信號輸入的自然語義理解成為可能。同時在各種交互能力融合后對上層應用進行開放,使得最終呈現(xiàn)給用戶的交互更自然。

語音交互帶來的產業(yè)機遇方興未艾。如果說,未來的主流交互方式存在多樣的可能性,那更高率、更自然、更接近于人本能的方向一定是人機交互的未來。

此內容為【智能相對論】原創(chuàng),

僅代表個人觀點,未經授權,任何人不得以任何方式使用,包括轉載、摘編、復制或建立鏡像。

部分圖片來自網絡,且未核實版權歸屬,不作為商業(yè)用途,如有侵犯,請作者與我們聯(lián)系。

申請創(chuàng)業(yè)報道,分享創(chuàng)業(yè)好點子。點擊此處,共同探討創(chuàng)業(yè)新機遇!

相關標簽
ai技術
ai智能

相關文章

  • 匯聚中國AI頂尖力量 云天勵飛參與華為AI大模型聯(lián)合創(chuàng)新

    2023年7月6日,第六屆世界人工智能大會(WAIC2023)在上海開幕,“人工智能大模型”是本屆大會的備受矚目的話題,據(jù)悉,在昇騰AI大模型的創(chuàng)新研發(fā)中,華為聯(lián)手26家行業(yè)領軍企業(yè),組建了一支協(xié)同創(chuàng)新的“AI明星隊”,云天勵飛作為中國人工智能企業(yè)的杰出代表,和互聯(lián)網大廠、運營商、科研院所等優(yōu)秀團隊

    標簽:
    ai技術
  • 用友大易:邁入AI招聘2.0時代,讓人力資源回歸本質

    這幾個月來,以ChatGPT為代表的生成式AI展現(xiàn)出的能力令世界驚嘆。自從2016年AlphaGo戰(zhàn)勝李世石掀起了一波AI浪潮后,AI仿佛已經沉寂了很久,ChatGPT的橫空出世就如同一束耀眼的光芒,讓AI這個名詞重回C位。過去在AI1.0時代,主要通過訓練模型來實現(xiàn)圖像識別、聲音識別、語言處理等特

    標簽:
    ai技術
  • 新發(fā)布的PaaS2.0,能否助力涂鴉智能再起飛?

    文:互聯(lián)網江湖作者:志剛2023年的IoT需要一個新故事。6月29日,涂鴉智能在開發(fā)者大會上,發(fā)布了企業(yè)級戰(zhàn)略PaaS2.0,希望通過一個平臺+四大開發(fā)服務,建立起IoT生態(tài)。對于這場發(fā)布會,市場的態(tài)度是積極的。美東時間6月29日收盤,涂鴉智能美股股價上漲5.6%,來到1.87美元/股。近日股價穩(wěn)定

    標簽:
    ai技術
  • 大模型難掩AI制藥的悲傷:越過山丘,無人等候

    美團曾經的二號人物王慧文對標OpenAI的創(chuàng)業(yè)項目光年之外,以20億賣給美團,再度引發(fā)市場對大模型的熱議。

    標簽:
    ai技術
  • 拾起王慧文的AI夢,美團沖向“光年之外”?

    2020年底,王慧文在朋友圈寫下這句話時,外界本以為這位伴隨中國互聯(lián)網發(fā)展而持續(xù)創(chuàng)業(yè)20年的人物即將告別創(chuàng)業(yè)舞臺。但是,一個曾經多次創(chuàng)業(yè),正值壯年的互聯(lián)網老將心中的創(chuàng)業(yè)熱情是難以熄滅的。

    標簽:
    ai技術
  • “創(chuàng)造市場”與“算法進化”,中美AI競速的岔路口

    “人工智能的商業(yè)模式,是要創(chuàng)造一個市場,而非一個算法”。這是世界AI泰斗MichaelI.Jordan的觀點。而當前的全球AI市場,占據(jù)主導地位的中美雙方,卻也走出了兩條截然不同的技術路徑,前者執(zhí)著于前沿技術的探索,后者則發(fā)力應用優(yōu)化和商業(yè)化落地。南轅北轍的兩個方向,或許已經無法直接進行排位先后、優(yōu)

    標簽:
    ai智能
  • 智能體進化發(fā)展了一年,現(xiàn)在的RPA Agent迭代到什么程度了?

    智能體進化發(fā)展了一年,現(xiàn)在的RPAAgent迭代到什么程度了?從實在智能最新發(fā)布的實在Agent7.0,看RPAAgent的迭代升級抓取豆瓣信息、自己制作PPT,這款AIAgent真的實現(xiàn)了流程全自動化AIAgent構建到執(zhí)行全自動化,持續(xù)進化RPAAgent再次降低智能體應用門檻實在智能重磅發(fā)布實

  • 崔大寶:大模型降溫背后的難點、卡點、節(jié)點

    崔大寶|節(jié)點財經創(chuàng)始人進入2024年,大模型似乎有熄火之勢:資本市場,與之關聯(lián)的概念炒不動了,英偉達股價動輒暴跌重挫,引發(fā)“泡沫戳破”的擔憂;消費市場,BATH們的推新活動少了,產品更新迭代的速度慢了,民眾的關注度降了……熱鬧的大概只剩下兩場酣仗:自5月15日字節(jié)跳動宣布“以厘計費”,打響國內大模型

    標簽:
    大模型
  • 這一屆“出道”的數(shù)字人,已經拿捧上了“鐵飯碗”

    文|智能相對論作者|陳泊丞好消息!你心心念念的事業(yè)單位發(fā)錄取公告了!壞消息!他們沒錄你,錄了個數(shù)字人。圖片來源網絡隨著數(shù)字人技術的突破,越來越多的傳統(tǒng)企業(yè)和機構開始用上了“數(shù)字員工”。甚至很多中國人心心念念的“鐵飯碗”,也被這些數(shù)字人給捧上了。數(shù)字人捧上了“鐵飯碗”簡單翻看一下全國各地事業(yè)單位的“錄

    標簽:
    數(shù)字人
  • 來到IPO關口,地平線離“三分天下”還有多遠?

    黑芝麻智能敲鐘后,港交所門口又有一些智駕芯片企業(yè)引發(fā)關注。據(jù)悉,近日地平線已通過中國證監(jiān)會IPO備案,擬發(fā)行不超過11.5億股境外上市普通股并在香港聯(lián)合交易所上市,預計籌集約5億美元資金。從天眼查可以了解到,該公司成立于2015年,是一家乘用車高級輔助駕駛(ADAS)和高階自動駕駛(AD)解決方案供

  • 機器人大會引領產業(yè)動向,卓翼飛思繪制無人系統(tǒng)教科研新藍圖

    8月21日,萬眾矚目的2024世界機器人大會暨博覽會在北京亦創(chuàng)國際會展中心盛大開幕。這場為期5天,集“展覽”“論壇”“賽事”于一體的機器人盛會,反映了當下機器人領域的繁榮生態(tài)。據(jù)官方統(tǒng)計數(shù)據(jù),今年現(xiàn)場逛展觀眾高達25萬人次,比去年增加25%。機器人行業(yè)有多火?看看2024世界機器人大會火爆程度便可知

  • 卓翼智能:超大載重高烈度環(huán)境特種智能系留無人平臺的應用與未來

    瞄準場景需求,打造國內領先的自主可控、高質量超大載重高烈度環(huán)境特種智能系留無人平臺。卓翼智能亮相HICOOL峰會以科技實力榮摘創(chuàng)業(yè)大賽一等獎這個比賽5年培育出16家“獨角獸”HICOOL2024全球創(chuàng)業(yè)者峰會暨創(chuàng)業(yè)大賽已于8月25日在北京圓滿落下帷幕,大賽共吸引了124個國家和地區(qū)的7406個創(chuàng)業(yè)項

  • 60萬獎金召喚AI創(chuàng)新者,2024無錫國際人工智能創(chuàng)新應用大賽火熱進行中!

    人工智能是新一輪科技革命和產業(yè)變革的重要驅動力量。無錫市作為中國的科技創(chuàng)新中心之一,正通過構建人工智能"算力+算法+數(shù)據(jù)"三要素齊備的產業(yè)生態(tài),為產業(yè)技術創(chuàng)新應用提供強大支撐,通過“AI+”行動推動人工智能與多個產業(yè)交叉融合,實現(xiàn)技術落地和產業(yè)化,加速形成新質生產力,打造具有國際競爭力的產業(yè)創(chuàng)新智造

  • “云+AI”驅動操作系統(tǒng)創(chuàng)新升級,龍蜥堅持可持續(xù)發(fā)展路線

    近日,2024龍蜥操作系統(tǒng)大會(OpenAnolisConference)在北京圓滿召開,此次大會由中國計算機學會開源發(fā)展委員會、中關村科學城委員會、海淀區(qū)委網信辦、中國開源軟件推進聯(lián)盟指導,龍蜥社區(qū)主辦,阿里云、浪潮信息、Intel、中興通訊、Arm、中科方德等24家理事單位共同承辦,主題為“進化

編輯推薦