當前位置:首頁 >  科技 >  互聯(lián)網(wǎng) >  正文

從搜狗語音的進化 看未來智能語音時代如何開啟?

 2016-12-15 16:18  來源: A5專欄   我來投稿 撤稿糾錯

  域名預訂/競價,好“米”不錯過

文|李東樓

又到年末,回顧一年來人工智能的發(fā)展,語音識別技術(shù)正處于快速發(fā)展階段。正如在之前由國際知名科技期刊《麻省理工科技評論》(MIT Technology Review)評選出的“2016年十大突破技術(shù)”,語音接口技術(shù)位列其中,該技術(shù)可將語音識別和自然語言理解相結(jié)合,為全球互聯(lián)網(wǎng)市場創(chuàng)造切實可用的語音接口。

在東樓看來,隨著場景聲音辨識技術(shù)的加速完善,語音識別技術(shù)有望迎來真正的拐點,未來發(fā)展空間將進一步擴大。而國外的谷歌、蘋果,以及國內(nèi)的科大訊飛、搜狗等公司都是這一領域的大玩家。

從智能語音識別、語義理解到如今最熱的實時翻譯,搜狗語音并不是一開始就有如此優(yōu)秀的表現(xiàn),而是經(jīng)過了數(shù)年的產(chǎn)品演進和技術(shù)進化才達到今天這樣的水平。而回顧搜狗在智能語音技術(shù)方面的進化歷史,甚至還能夠看到未來的智能語音技術(shù)發(fā)展的方向和前景。

智能語音的進化史

首先讓時間回到移動互聯(lián)網(wǎng)的爆發(fā)初期的2012年,當時由于蘋果Siri功能推出,語音助手軟件曾經(jīng)風行一時。不僅包括搜狗、百度等搜索引擎公司基于自身的搜索引擎的基因,紛紛推出了獨立的語音助手應用,還有一些創(chuàng)業(yè)公司也希望能夠從語音搜索入手,期望成為下一代搜索引擎入口。不過,與Siri一樣,這些語音助手產(chǎn)品不僅語音識別率低,而且還經(jīng)常答非所問,且只能提供一些簡單的詢問天氣、介紹餐廳等初級功能,無法進行復雜的多輪交互對話,因此在經(jīng)過了短暫的市場預熱之后迅速進入低潮,而這些語音助手們也紛紛沉寂,甚至停止了更新。

在此之后,包括搜狗在內(nèi)的這些提供智能語音服務的公司紛紛轉(zhuǎn)入技術(shù)積累的低調(diào)期,并陸續(xù)推出了基于云服務推出語音云開放平臺,希望能夠開放自己的語音識別、語義理解等語音技術(shù)能力,吸引更多的第三方合作伙伴,一起搭建生活服務入口。不過,盡管搜狗在智能語音的技術(shù)一直在向前演進,語音識別率越來越高,但是由于更多將服務轉(zhuǎn)向了b端,因此并不被普通用戶熟悉。直到羅永浩在對錘子手機功能的演示時提及,才使得人們第一次意識到原來智能語音技術(shù)已經(jīng)演進到了現(xiàn)在這個地步。

實際上,第一次引爆智能語音技術(shù)并讓其受到追捧的人并不是羅永浩,而是搜狗CEO王小川。就在今年7月,搜狗CEO王小川在參加極客公園“奇點·創(chuàng)新者峰會”上已經(jīng)完成進化的搜狗語音來了一次”首秀“。利用搜狗公司的語音識別技術(shù),王小川的演講內(nèi)容在現(xiàn)場實時生成了滾動字幕顯示,目測準確率高達95%以上。同步的字幕引起了現(xiàn)場觀眾極大的興趣,紛紛起立拍照。不僅如此,王小川甚至還現(xiàn)場邀請了一位觀眾上臺體驗了搜狗輸入法的新功能“語音修改”。用戶對著手機說出一段文字后,再通過自然語言的方式將語音識別錯誤的地方進行修正,贏得了現(xiàn)場熱烈的掌聲。

緊接著,搜狗馬不停蹄的在今年8月初發(fā)布了語音交互引擎“知音”,繼續(xù)展示其在智能語音技術(shù)方面取得的重大突破,不僅在語音識別率方面達到業(yè)界領先的97%,而且還能進行快速糾錯,更解決了此前一直困擾業(yè)界的復雜多輪交互的問題。簡單的說,就是不僅要實現(xiàn)“能聽會說”,還要求具有“能理解會思考”的能力,這使得智能語音的應用場景被大大延伸。而搜狗還宣布,已經(jīng)將智能語音技術(shù)應用到了包括搜狗搜索、搜狗輸入法、搜狗地圖等全線產(chǎn)品當中。至此,搜狗的語音技術(shù)完成再次進化,在智能語音方面的能力已經(jīng)到達了國內(nèi)領先的水平。

而在11月烏鎮(zhèn)舉行的第三屆世界互聯(lián)網(wǎng)大會上,王小川在分論壇演講現(xiàn)場更是發(fā)布了搜狗人工智能新產(chǎn)品——機器同傳,展示了實時機器翻譯技術(shù),將演講嘉賓的中文講話實時語音識別并同步翻譯為英文上屏顯示,引起轟動。這也是全球首次基于神經(jīng)網(wǎng)絡的實時機器翻譯技術(shù)在大型活動上的展示,效果可靠、準確率已接近人類同傳翻譯結(jié)果。

基于大數(shù)據(jù)和深度學習,搜狗語音實時翻譯涵蓋了搜狗自主研發(fā)的語音識別、機器翻譯兩項重要技術(shù),代表著這兩大技術(shù)在實時性和實用性上邁出了較大的一步,并且高效的結(jié)合了起來。

未來,智能語音技術(shù)該如何演進?

另一方面,前面提到,目前搜狗在語音識別率方面已經(jīng)達到97%,并能夠進行快速糾錯和處理復雜的多輪交互對話,而且已經(jīng)應用到搜狗的全線產(chǎn)品當中。那么,接下來,智能語音技術(shù)還會向那些方面演進呢?我認為主要有以下三個突破點:

首先,需要繼續(xù)提升智能語音的識別率,突破最后的3%。實際上,目前搜狗使用新開發(fā)的語音修改功能,通過自然語言交互的形式修改所輸入的文字,比“將弓長張改為立早章”等,已經(jīng)在一定程度上解決了語音識別準確率最后3%的差距,達到了解放用戶雙手和提高用戶輸入效率的目的。而搜狗之所以能夠在智能語音技術(shù)方面率先取得突破,一方面與其多年來的深耕積累密不可分,另一方面也與其搜索引擎公司基因密不可分。按照王小川的話說,搜狗本身就是一家人工智能公司,作為搜索引擎公司之所以能夠向用戶提供精準的搜索結(jié)果,其技術(shù)原理就是不斷的進行數(shù)據(jù)積累和機器學習,從而使得其能夠準確理解用戶輸入文字背后的真實意圖,從而給出最為精準的答案,而智能語音的原理與此類似,因此與搜狗輸入法一樣,搜狗有先天優(yōu)勢能讓其在智能語音技術(shù)方面能夠率先獲得突破,達到領先行業(yè)的高識別率。

其次,復雜多輪交互能力的提升依然是智能語音技術(shù)的突破點。實際上,在眾多關(guān)于人工智能的科幻電影當中,對于人類與機器的交互描述的最理想狀態(tài)就是讓機器能夠理解自然語言,實現(xiàn)完全無障礙的復雜的多輪交互對話,而只有做到這一點才真正能夠觸發(fā)“奇點來臨”,人工智能時代才算真正開啟。因此,在解決最后的3%的語音識別率的同時,在語義理解方面繼續(xù)提升機器對人類自然語言的理解能力,以及對于不同語境下的復雜對話的處理能力也非常重要,而這些技術(shù)等突破甚至還需要情感識別技術(shù)的應用,將是更難的技術(shù)突破點。

而在這方面,搜狗依然具有優(yōu)勢,因為像語義理解這樣的人工智能技術(shù)的提升,同樣是一個數(shù)據(jù)積累和機器學習的過程,而這意味著具有龐大的用戶量和數(shù)據(jù)量能夠提供為機器學習更多的機會。首先,與其它沒有搜索引擎基因公司相比,搜狗搜索是一家國內(nèi)排名前三的搜索引擎廠商,擁有足夠多的用戶和足夠大的數(shù)據(jù)量,這是其擁有讓人工智能技術(shù)成長的“土壤”,而搜狗搜索語音搜索次數(shù)增長超過4倍也恰好印證了這一點;而與其它搜索引擎公司相比,搜狗還有國內(nèi)用戶量最大的搜狗輸入法作為搜狗語音的“訓練師”,其不僅擁有海量詞庫,日均語音輸入更是超過1.9億次。因此,這兩大優(yōu)勢相加,使得搜狗基本上可以“跑贏”目前市面上所有的智能語音產(chǎn)品。

最后,智能語音的技術(shù)必須更加通用化和行業(yè)化。也難怪人們此前對于智能語音能夠達到97%的識別率的“驚訝”,因為除非是記者、作家等文字工作者有語音轉(zhuǎn)文字這樣的需求,大部分人在日常的交流當中,極少情況下會有語音轉(zhuǎn)文字的需求,因此盡管智能語音的技術(shù)不斷進步,但人們卻絲毫沒有感覺到。因此,在下一階段的發(fā)展過程中,智能語音技術(shù)必須走下“神壇”,不能再是普通人不需要的“黑科技”,而是應該成為企業(yè)和個人都能因此受益的通用技術(shù)和解決方案。

目前來看,搜狗已經(jīng)率先展開了對于智能語音技術(shù)在行業(yè)應用中的探索。就在不久前,魅族召開發(fā)布會發(fā)布了其首款電視智能盒子--魅族盒子,其中就內(nèi)置了搜狗智能語音技術(shù),用戶通過魅族盒子的智能遙控器,用戶只要說出自己想看的內(nèi)容,視頻、歌曲、學習、健身等內(nèi)容就會一呼即應。與此同時,搜狗智能語音技術(shù)

在車載導航的應用方面也有動作,最近國內(nèi)車載導航的領先企業(yè)飛歌推出飛的歌黃金G8Ⅱ智能車機產(chǎn)品,該車機就載了搜狗車載語音解決方案的趣駕行車助手,并將語音與服務進行深度整合,實現(xiàn)了以輕應用的形式將搜狗智能語音技術(shù)在飛歌黃金G8Ⅱ上呈現(xiàn),邁出了向車聯(lián)網(wǎng)探索的第一步。除此之外,搜狗還正在醞釀與VR、智能電視等第三方在智能語音技術(shù)方面展開合作。因此,可以預見的是,智能語音技術(shù)在家居、汽車、教育、醫(yī)療等領域的應用不斷深入,用戶將能夠在更多的場景下,享受到智能語音技術(shù)發(fā)展所帶來的優(yōu)秀體驗和服務。

總的來看,智能語音技術(shù)不僅僅需要在語音識別準確率、多輪復雜交互能力方面繼續(xù)提升,還需要真正能夠轉(zhuǎn)化成為企業(yè)和用戶都需要的服務,這樣才能夠真正體現(xiàn)出價值,也才能夠迎來一個真正屬于智能語音時代的到來。

申請創(chuàng)業(yè)報道,分享創(chuàng)業(yè)好點子。點擊此處,共同探討創(chuàng)業(yè)新機遇!

相關(guān)標簽
搜狗輸入法
智能語音

相關(guān)文章

熱門排行

信息推薦