1. 創(chuàng)業(yè)頭條
  2. 前沿領域
  3. AI智能
  4. 正文

對標GPT-4o,科大訊飛正以大模型重塑語音產(chǎn)業(yè)

 2024-09-02 16:58  來源:A5專欄  我來投稿 撤稿糾錯

  域名預訂/競價,好“米”不錯過

每個科技時代,都有每個時代的“入口”和“推手”。

在PC時代,瀏覽器和搜索引擎是主要入口,用戶通過鍵盤和鼠標進行交互。移動互聯(lián)時代,APP和應用商店成為典型入口,用戶用手指和觸摸屏進入互聯(lián)網(wǎng)世界。而在眼下的AI時代,業(yè)內(nèi)已經(jīng)把語音交互當做重要入口,它提供了一種更為豐富、自然和便捷的交互體驗。

縱觀歷史,每一個抓住入口、推動時代發(fā)展的企業(yè),反過來也能掌握競爭主動權,獲得長期發(fā)展動力。比如,PC時代的谷歌,移動互聯(lián)時代的蘋果等等。

因此,如今很多大廠都在圍繞語音交互展開深度布局,力圖搶占AI時代的戰(zhàn)略要地。其中,就國外和國內(nèi)而言,OpenAI和科大訊飛成為最受關注的兩家企業(yè)。

今年5月,OpenAI 發(fā)布GPT-4o,展現(xiàn)出更為強勁的語音交互能力。比如,更快的響應速度、更自然的語音等等。但遺憾的是,GPT-4o目前還沒有向國內(nèi)用戶開放,大部分人無法親自感受各種體驗。

很多人不知道的是,國內(nèi)的科大訊飛不僅做到了對標GPT-4o的語音交互體驗,而且還能讓人搶先體驗。

今年8月19日,科大訊飛發(fā)布了星火極速超擬人交互技術,在響應和打斷速度、情緒感知情感共鳴、語音可控表達、人設扮演四個方面實現(xiàn)巨大突破。這項技術將于今年8月底在訊飛星火App上全民開放使用,普通用戶也能親自感知。

在最近的科大訊飛2024年上半年業(yè)績說明會上,《一點財經(jīng)》觀察到科大訊飛董秘江濤親自演示星火極速超擬人交互技術,由此更直觀地看到了這項技術的操作體驗。

不得不說,科大訊飛雖然在研發(fā)上大力投入,但在宣傳上的力度著實不夠。其實,這項技術能對行業(yè)變革產(chǎn)生深度影響。與此同時,科大訊也在積攢技術勢能,未來預計會釋放出強勁的發(fā)展動能。

語音交互的“理想”與“現(xiàn)實”

2014年,一部講述人類與AI愛情的電影《Her》收獲了超高人氣,還獲得了奧斯卡最佳原創(chuàng)劇本獎。

電影中,男主角西奧多的工作是給不善表達感情的人代寫情書。他有語音操控的隨身設備,能夠直接用語音輸入信件內(nèi)容、進行打印等等。日常生活中,他還能通過語音收聽歌曲、接收郵件和新聞。

讓很多觀眾浮想聯(lián)翩的是,西奧多遇到了一個AI機器人“薩曼莎”,她擁有溫情的聲線,不僅非常體貼還很懂西奧多。在跟“薩曼莎”的長期語音交流中,西奧多墜入愛河,開始了一段“人機戀”。

十年以來,這部電影里的科幻場景不斷照進現(xiàn)實,各種語音交互產(chǎn)品和技術持續(xù)迭代,豐富著用戶的語音交互體驗。

不過,很多用戶還是感覺跟想象中的體驗有落差。因為市面上語音交互技術普遍存在痛點,包括響應遲鈍、難以共情、個性化不足、端點檢測困難等問題。

簡而言之,現(xiàn)在許多語音交互技術機器的味道還是太重,擬人的感覺不足,沒能提供足夠的情緒價值。這一方面導致用戶體驗不佳,另一方面阻礙了行業(yè)發(fā)展,需要有企業(yè)來破除痛點,充當行業(yè)發(fā)展的推手。

目前來看,科大訊飛就是一個重要的推手。其推出的星火極速超擬人交互技術在四個方面極大提升了用戶體驗——“響應和打斷速度、情緒感知情感共鳴、語音可控表達、人設扮演”,總結(jié)下來就是:

不僅在響應上有速度,而且在情感上有溫度,能夠提供更多的情緒價值。

1、響應上的速度

用戶進行語音交互的過程中,都想獲得更快的響應,達到“召之即來”的效果。并且在中途頻繁打斷的情況下,希望能夠迅速重新響應。

然而,目前主流的語音交互應用中,從用戶提出問題到應用響應大多需要2-2.5秒,會明顯感覺到停頓,中途打斷后響應的時間更長,這就會影響用戶的交互節(jié)奏和智能體驗。

而星火極速超擬人交互技術帶給人的首個感受就是“快”,其讓響應時間縮短到了0.9秒,幾乎感覺不到停頓。另外,用戶還可以隨時打斷、插話,它依然能做到迅速響應。

這意味著,通過星火極速超擬人交互技術,用戶可以獲得更加貼近日常對話的現(xiàn)實體驗。

2、情感上的溫度

在語音交互過程中,如果能夠及時響應,但回應的卻是冷冰冰的話語,用戶的交互欲望和熱情必然會降低,因為沒有人愿意面對一個沒有溫度的機器。

傳統(tǒng)指令型語音技術,只能通過對某些特定發(fā)音的識別給出響應,情緒感知能力不足,而星火極速超擬人交互技術進行了明顯的提升。其不僅能夠根據(jù)語音判斷用戶情緒,包括高興、悲傷、生氣、害怕等等,還能識別咳嗽、寵物叫聲等非語言信號,跟用戶之間產(chǎn)生更深層次的情感共鳴。

如果只能分別情緒,不能情緒化地回應,用戶的感知度也不會很明顯。星火極速超擬人交互技術在表達方式上更加靈活,可以根據(jù)用戶的指令控制數(shù)十種情感、風格、方言,甚至自動調(diào)節(jié)語速、語氣和情緒,讓對話更有溫度從而直入人心。

另外,星火極速超擬人交互還有一個優(yōu)勢就是能夠“選角色”,其支持多種人設的任意切換,用戶可以與孫悟空、蠟筆小新、小豬佩奇等角色進行互動,感受到跟不同角色對話的樂趣。

可以說,以往的語音交互技術體驗起來更像機器,而星火極速超擬人交互更像人類,大大提升了用戶體驗。這種進化背后,在于科大訊飛進行了長期的技術研發(fā)和積累。

語音交互進化史:技術才是硬道理

語音交互進化史,就是一部技術迭代史。

最早的語音交互技術,可以追溯到上世紀60年代。當時的語音交互技術主要基于規(guī)則,也就是將語音按照語法等規(guī)則進行分析和生成,然后根據(jù)設定好的語句進行回應。

這種方法的智能度和靈活度都很低,只能進行某些特定任務,比如查詢天氣、訂票等,稍微復雜一些的指令就無法操作。

上世紀90年代,語音交互技術進入新的階段,也就是基于統(tǒng)計模型。這種方法不再依賴于固定規(guī)則,而是利用概率論建立交互模型,根據(jù)上下文生成最合適的回應。這種方法相對可以處理更多指令,也能適應不同的場景需求。

2006年,隨著深度學習技術興起,語音交互技術有了質(zhì)的飛躍,可以自動學習語音信號的復雜特征,從而進入DNN(深度神經(jīng)網(wǎng)絡)時代。比如,RNN(循環(huán)神經(jīng)網(wǎng)絡)是一種能夠處理序列數(shù)據(jù)的神經(jīng)網(wǎng)絡。它具有長期記憶能力,可以用于處理連續(xù)的語音特征,從而提高識別準確率。

此后,語音交互技術在持續(xù)進化,比如CNN(卷積神經(jīng)網(wǎng)絡)、DFCNN(深度全序列卷積神經(jīng)網(wǎng)絡)等等,用戶體驗也在持續(xù)升級。在技術進化浪潮中,科大訊飛一直站在潮頭浪尖。

早在2012年,科大訊飛就將BN-feature和NDD-HMM兩套深度學習方案上線了訊飛輸入法和語音開放平臺,由此成為國內(nèi)首個上線深度學習語音識別商業(yè)系統(tǒng)的機構(gòu),將實際場景中語音識別的準確率從60%提升到了88%左右。

到現(xiàn)在,星火極速超擬人交互采用的是統(tǒng)一神經(jīng)網(wǎng)絡,直接實現(xiàn)語音到語音端到端建模,這是一種被驗證為能力更強的技術方案。

因為傳統(tǒng)的語音識別系統(tǒng)一般由多個模塊組成,包括聲學模型、語言模型和發(fā)音詞典等。而端到端建模將這些模塊合并為一個整體,實現(xiàn)了原始語音信號到最終文本的直接映射,這就給語音交互帶來了許多提升。

首先,端到端建模簡化了傳統(tǒng)語音識別系統(tǒng)的復雜度、減少了模塊之間的集成難度。其次,它可以更好地外理語音信號中的噪聲和變異,提高了系統(tǒng)的魯棒性,即抵御外界干擾和保持穩(wěn)定的能力。此外,它還具有更快的訓練和推理速度,適用于實時場景。

星火極速超擬人交互的技術優(yōu)勢背后,在于科大訊飛持續(xù)進行研發(fā)投入和積累。

根據(jù)科大訊飛最新發(fā)布的2024年上半年財報,報告期內(nèi)其營收93.25億元,比上年同期增長18.91%。值得注意的是,公司研發(fā)投入21.9億元,同比增長32.23%,占營收比重達23.5%。

在企業(yè)發(fā)展因子中,營銷、宣傳等淺層次的是“快變量”。短期內(nèi),它們能夠發(fā)揮一時的成效,但也會呈現(xiàn)不穩(wěn)定和低門檻的特征。

深層次則是“慢變量”,比如技術、研發(fā)等等。它們前期需要大量的投入,就像推動一個靜止的輪子,投入到一定程度后輪子會越轉(zhuǎn)越快,從而迸發(fā)出“飛輪效應”,最終轉(zhuǎn)化為出色的技術和產(chǎn)品以及堅固的護城河。此次,科大訊飛推出星火極速超擬人交互技術就是一個典型。有時候,“慢”反而意味著“快”。

其實,星火極速超擬人交互技術背后的大模型能力,同樣具備龐大的想象空間。

眺望未來:大模型重塑語音產(chǎn)業(yè)

如今,“大模型+”就像當年的“互聯(lián)網(wǎng)+”給與市場無限想象力。

在大模型的熱風之下,許多產(chǎn)業(yè)都值得被重塑一遍,其中就包括汽車、機器人、消費電子、家電等領域。在大模型落地方面,科大訊飛通過星火大模型云邊端一體化、軟硬件一體化的全場景布局,這讓其能夠滿足多個復雜場景對大模型的需求,進而摘取多元的產(chǎn)業(yè)紅利。

先說汽車領域。今年上半年,中國汽車產(chǎn)銷量分別達1389.1萬輛和1404.7萬輛,依然保持全球第一。出口總量達348萬輛,同比增長25%,火熱態(tài)勢依舊。目前,中國汽車出海十強企業(yè)中,有8家企業(yè)和科大訊飛合作。未來,汽車的趨勢必然是智能化。而大模型的賦能,可以提升智能座艙、智能駕駛等多個方面的用戶體驗,助力中國汽車產(chǎn)業(yè)的增長。

比如,自2011年科大訊飛率先完成汽車語音國產(chǎn)化,車載語音已經(jīng)成為中國汽車市場的標配,但在海外仍受制于單一語種的制約。今年星火語音大模型發(fā)布72個語種/方言免切換對話,并通過云邊端及軟硬一體化解決方案可以大大提升智能座艙體驗。另外,科大訊飛還研發(fā)出基于星火大模型的用車助手,能夠?qū)崟r監(jiān)測理解車輛狀況,精準解答用戶對用車的問題。

科大訊飛方面透露,公司汽車智能化產(chǎn)品合作已覆蓋90%以上的中國主流自主品牌和合資品牌車廠。最新財報顯示,科大訊飛汽車業(yè)務也延續(xù)了強勁的增長勢頭,上半年實現(xiàn)營收3.5億元,同比增長65.49%。

跟汽車一樣,機器人同樣是未來的重要趨勢。

尤其是人形機器人的前景非??捎^,據(jù)《人形機器人產(chǎn)業(yè)研究報告》預測,2024年中國人形機器人市場規(guī)模將達到約27.6億元,到2029年達到750億元,將占世界總量的32.7%,占比位居世界第一。

大模型的思維鏈推理能力,能夠明顯提升機器人對于復雜任務的理解能力,并提供符合常識的任務拆解與規(guī)劃。尤其是具身感知模型與具身決策模型的結(jié)合,能夠進一步提升人形機器人在真實場景下的多模態(tài)感知與理解能力。

在復雜任務拆解、開放場景物體識別、多模態(tài)感知與理解等方面,星火大模型明顯提升了人形機器人的智能水平。在最近的在2024世界機器人大會,科大訊飛亮相了“大模型+具身智能”的人形機器人最新進展:

整體運動性能提升2倍,復雜任務拆解成功率超過95%,交互能力、運動性能進一步提升。

另外在產(chǎn)業(yè)賦能上,訊飛機器人超腦平臺已賦能420家機器人企業(yè),深度鏈接1.5萬機器人開發(fā)者,與優(yōu)必選、宇樹科技、智元機器人、銀河通用等人形機器人企業(yè)形成廣泛合作,未來預計有著充足的想象空間和強勁的產(chǎn)業(yè)推動力。

除了機器人,大模型浪潮也正在向消費電子終端和家電領域蔓延。

包括智能手機、智能辦公本、學習機等在內(nèi)的消費電子終端的規(guī)模非常龐大,《2024年數(shù)字經(jīng)濟報告》顯示到2029年全球物聯(lián)網(wǎng)設備數(shù)量將增至390億部。如果用大模型讓每臺終端都變得更智能,從而提升用戶體驗,也能創(chuàng)造更大的市場空間。中商產(chǎn)業(yè)研究院預測,2023年中國智能硬件市場規(guī)模將達到14031億元,預計2024年增至達15033億元。

以科大訊飛智能辦公本X3為例,其搭載了最新的訊飛星火智能技術,實現(xiàn)語音轉(zhuǎn)文字、智能筆記整理、多語種翻譯等高效辦公功能。用戶只需簡單操作,就能將會議內(nèi)容、演講要點等語音信息實時轉(zhuǎn)化為文字記錄。這不僅大大提高了用戶工作效率,也助力了科大訊飛智能硬件業(yè)務的增長。根據(jù)最新發(fā)布的2024年半年報,科大訊飛智能硬件業(yè)務實現(xiàn)營收9億元,同比增長56.61%,增速遠超行業(yè)平均水平。

隨著新一輪以舊換新熱潮來襲,家電市場也迎來新的市場增量。而家電與大模型的結(jié)合,能夠為用戶創(chuàng)造更智慧的家居生活,也能為家電廠商、技術提供商帶來新的增長點。

比如,搭載訊飛星火認知大模型的電視語音助手將升級為全能的家庭中心,能夠輕松應對日程管理、智能家居控制等操作,也能讓孩子跟電視語音助手直接對話,練習口語、獲取知識等等,打造出新的教育場景。三星就結(jié)合訊飛星火認知大模型的能力,讓電視語音助手具備深層次理解、內(nèi)容生成和知識問答等能力,極大提升了用戶體驗。

如今,星火大模型正成為教育、醫(yī)療、能源、汽車、家電、機器人等多個重要領域落地的首選。其不僅為AI時代的入口探索出更多可能性,也在結(jié)合實際場景進行應用落地,為用戶真正帶來技術紅利,為企業(yè)創(chuàng)造經(jīng)濟效益,其本身也能夠獲得發(fā)展動能。

結(jié)語

《底層邏輯》一書中提出“戰(zhàn)略勢能”的概念,形象地說把一塊石頭抬到較高的山頂上就儲備了勢能。石頭向下滾動時,勢能就轉(zhuǎn)化為了動能。

現(xiàn)在的科大訊飛,正處在積蓄戰(zhàn)略勢能的時候,需要克服困難大量投入。隨著各項技術的深入和落地,戰(zhàn)略勢能將持續(xù)轉(zhuǎn)化為發(fā)展動能,其未來是值得期待的。

申請創(chuàng)業(yè)報道,分享創(chuàng)業(yè)好點子。點擊此處,共同探討創(chuàng)業(yè)新機遇!

相關標簽
科大訊飛

相關文章

  • 科大訊飛董事長談買蔚來原因:蔚來ES8快得像一道閃電

    5月9日,蔚來舉辦了第五十萬臺量產(chǎn)車下線活動,第50萬臺量產(chǎn)車則是蔚來旗艦車型ES8。值得一提的是,科大訊飛董事長劉慶峰,成為了蔚來第50萬臺量產(chǎn)車型的車主。當被詢問購買蔚來ES8的原因,劉慶峰稱“我親眼看著那輛灰色的ES8,快得像一道閃電,超過了我的邁巴赫。”在本次發(fā)布會上,李斌稱,2019年以來

    標簽:
    科大訊飛
  • 拆解科大訊飛年報,尋找大模型落地范式

    文/六金投入大模型一年之后,科大訊飛交出了首份成績單。2023年實現(xiàn)營業(yè)收入196.50億元,較2022年同期的188.20億元增長4.41%;歸母凈利潤為6.57億元,較2022年同期的5.61億元增長17.12%。在星火大模型的加持下,科大訊飛的很多業(yè)務都開始和模型實力掛鉤,給了市場不少驚喜,不

    標簽:
    科大訊飛
  • 科大訊飛勾勒生成式AI輸入法“模樣”,開啟下一代輸入法革命

    傳統(tǒng)第三方輸入法工具已經(jīng)不能滿足新時代用戶需求,新型第三方輸入法緩緩站上舞臺。

    標簽:
    科大訊飛
  • “黑色魅影”閃動,科大訊飛“遭殃”的背后

    “黑色魅影”傷害的不只是科大訊飛,在當前復雜大環(huán)境下,更傷害了中國科技健康發(fā)展的肌體。作者|Cindy編輯|楊銘身處殘酷商業(yè)世界,永遠無法判斷,什么時候會有明槍暗箭射出,甚至是遭遇帶著明確目的性的惡意詆毀。10月24日,本應是大喜日子的科大訊飛,就因此度過了有點“鬧心”的一天。這一天,科大訊飛在一年

    標簽:
    科大訊飛
  • 財報解讀:步步逼近ChatGPT,科大訊飛即將迎來全面爆發(fā)?

    10月份,科大訊飛進入新的成果驗證節(jié)點。一是進一步透露AI進展的財報發(fā)布。三季報顯示,科大訊飛仍然保持較為穩(wěn)健的發(fā)展步伐,營收始終處于增長狀態(tài),對訊飛星火認知大模型的應用成果,進行了進一步揭示?;诖?,財報發(fā)布前后,超過10家券商紛紛給予科大訊飛買入或增持評級。二是10月24日這一科大訊飛承諾全面對

    標簽:
    科大訊飛
  • 通義靈碼AI編程能力再進化,說幾句話就能開發(fā)網(wǎng)頁

    9月19日,在2024杭州云棲大會上,隨著通義大模型能力的全面提升,阿里云通義靈碼迎來重磅升級,從一年前只能完成基礎的輔助編程任務,進化到幾句話就能完成需求理解、任務拆解、代碼編寫、修改BUG、測試等開發(fā)任務,最快幾分鐘可從0到1完成應用開發(fā),提升數(shù)十倍開發(fā)效率。自去年首次亮相以來,通義靈碼已入職中

    標簽:
    通義千問
  • 何小鵬駕駛“全球首款AI汽車”亮相云棲大會 深化與阿里云AI算力合作

    9月19日,小鵬汽車董事長CEO何小鵬駕駛“全球首款AI汽車”P7+亮相2024云棲大會,這款車搭載了業(yè)內(nèi)領先的端到端大模型。過去2年,小鵬汽車與阿里云共建的AI算力規(guī)模提升超4倍。何小鵬表示,將繼續(xù)深化與阿里云的AI算力合作,加速推動端到端大模型拓展自動駕駛上限,提升下限。端到端是當下最受業(yè)界關注

  • 阿里CEO吳泳銘:機器人將是下一個迎來巨變的行業(yè)

    9月19日,阿里巴巴集團CEO、阿里云智能集團董事長兼CEO吳泳銘在2024云棲大會上發(fā)表主題演講。他認為,過去22個月,AI發(fā)展的速度超過任何歷史時期,但我們依然還處于AGI變革的早期。生成式AI最大的想象力,絕不是在手機屏幕上做一兩個新的超級app,而是接管數(shù)字世界,改變物理世界。阿里巴巴集團C

  • “創(chuàng)造市場”與“算法進化”,中美AI競速的岔路口

    “人工智能的商業(yè)模式,是要創(chuàng)造一個市場,而非一個算法”。這是世界AI泰斗MichaelI.Jordan的觀點。而當前的全球AI市場,占據(jù)主導地位的中美雙方,卻也走出了兩條截然不同的技術路徑,前者執(zhí)著于前沿技術的探索,后者則發(fā)力應用優(yōu)化和商業(yè)化落地。南轅北轍的兩個方向,或許已經(jīng)無法直接進行排位先后、優(yōu)

    標簽:
    ai智能
  • 智能體進化發(fā)展了一年,現(xiàn)在的RPA Agent迭代到什么程度了?

    智能體進化發(fā)展了一年,現(xiàn)在的RPAAgent迭代到什么程度了?從實在智能最新發(fā)布的實在Agent7.0,看RPAAgent的迭代升級抓取豆瓣信息、自己制作PPT,這款AIAgent真的實現(xiàn)了流程全自動化AIAgent構(gòu)建到執(zhí)行全自動化,持續(xù)進化RPAAgent再次降低智能體應用門檻實在智能重磅發(fā)布實

  • 崔大寶:大模型降溫背后的難點、卡點、節(jié)點

    崔大寶|節(jié)點財經(jīng)創(chuàng)始人進入2024年,大模型似乎有熄火之勢:資本市場,與之關聯(lián)的概念炒不動了,英偉達股價動輒暴跌重挫,引發(fā)“泡沫戳破”的擔憂;消費市場,BATH們的推新活動少了,產(chǎn)品更新迭代的速度慢了,民眾的關注度降了……熱鬧的大概只剩下兩場酣仗:自5月15日字節(jié)跳動宣布“以厘計費”,打響國內(nèi)大模型

    標簽:
    大模型
  • 這一屆“出道”的數(shù)字人,已經(jīng)拿捧上了“鐵飯碗”

    文|智能相對論作者|陳泊丞好消息!你心心念念的事業(yè)單位發(fā)錄取公告了!壞消息!他們沒錄你,錄了個數(shù)字人。圖片來源網(wǎng)絡隨著數(shù)字人技術的突破,越來越多的傳統(tǒng)企業(yè)和機構(gòu)開始用上了“數(shù)字員工”。甚至很多中國人心心念念的“鐵飯碗”,也被這些數(shù)字人給捧上了。數(shù)字人捧上了“鐵飯碗”簡單翻看一下全國各地事業(yè)單位的“錄

    標簽:
    數(shù)字人
  • 來到IPO關口,地平線離“三分天下”還有多遠?

    黑芝麻智能敲鐘后,港交所門口又有一些智駕芯片企業(yè)引發(fā)關注。據(jù)悉,近日地平線已通過中國證監(jiān)會IPO備案,擬發(fā)行不超過11.5億股境外上市普通股并在香港聯(lián)合交易所上市,預計籌集約5億美元資金。從天眼查可以了解到,該公司成立于2015年,是一家乘用車高級輔助駕駛(ADAS)和高階自動駕駛(AD)解決方案供

  • 機器人大會引領產(chǎn)業(yè)動向,卓翼飛思繪制無人系統(tǒng)教科研新藍圖

    8月21日,萬眾矚目的2024世界機器人大會暨博覽會在北京亦創(chuàng)國際會展中心盛大開幕。這場為期5天,集“展覽”“論壇”“賽事”于一體的機器人盛會,反映了當下機器人領域的繁榮生態(tài)。據(jù)官方統(tǒng)計數(shù)據(jù),今年現(xiàn)場逛展觀眾高達25萬人次,比去年增加25%。機器人行業(yè)有多火?看看2024世界機器人大會火爆程度便可知

熱門排行

編輯推薦