11月22日,百度宣布在其語音開放平臺上線三周年之際,向公眾開放四項全新語音技術(shù)的接口,以使用戶在使用語音與機器進行交流時,享受到更奇妙的交互體驗。
百度公司首席科學家吳恩達在演講中對百度最新的語音技術(shù)進展表示滿意,他簡單介紹了這四項深具革命性的語音技術(shù),即情感合成、遠場方案、喚醒二期技術(shù)和長語音方案,并宣布即日起百度將這幾項技術(shù)免費開放給用戶和開發(fā)者共享。
(百度公司首席科學家吳恩達進行現(xiàn)場演講)
“這些技術(shù)有很大的潛力,去徹底改變?nèi)藱C交互的效率和辦法。未來語音技術(shù)在很多應(yīng)用場景有很好的機會,將為人機交互帶來巨大的改變。”吳恩達表示。
這些技術(shù)旨在解決用戶在使用語音交互的場合時,普遍感到困擾的一些關(guān)鍵問題。例如,百度情感合成技術(shù)主要聚焦在為合成語音“加入情感”,目前可達到接近真人發(fā)聲效果,百度今年早些時候曾利用此技術(shù),復原已逝明星張國榮的聲音。
類似地,開發(fā)者還可以利用新的接口,使語音識別距離增加到3-5米,將設(shè)備的語音喚醒率提升到95%以上同時更省電誤報更少,或提升長時間語音識別的準確率問題。這將為語音技術(shù)帶來遠比現(xiàn)在更多的想象空間,而不只是遙控電視或解鎖手機。
例如,前兩者的代表是百度的“小度機器人人機語音交互點餐”,已在上海肯德基旗艦店投入應(yīng)用,可遠距離隨時應(yīng)答點餐。后者則已經(jīng)在諸多內(nèi)容記錄、智能客服、視頻轉(zhuǎn)寫等應(yīng)用場景表現(xiàn)出巨大的想象空間。
(“極智開放·共語未來——百度語音開放平臺3周年慶”現(xiàn)場)
在這場名為“極智開放·共語未來”的慶典上,來自斯坦福大學的人工智能專家James Landay,也分享了一項與百度合作的最新研究成果,該研究發(fā)現(xiàn)智能手機在語音輸入時,輸入速度比鍵盤輸入快3倍。他表示,“近兩年,受益于大數(shù)據(jù)和深度學習技術(shù)的不斷發(fā)展,語音識別技術(shù)突飛猛進,速度及準確性都有了長足進步。”
吳桂林打開視頻應(yīng)用“愛奇藝”的手機客戶端,說“VIP續(xù)費”,系統(tǒng)準確跳轉(zhuǎn)到了相應(yīng)的充值頁。這位愛奇藝技術(shù)總監(jiān)指出,借助百度語音開放平臺,每天有百萬以上的愛奇藝用戶使用語音搜索,其中80%以上轉(zhuǎn)化為有效點擊。
讀者甘肅數(shù)碼科技有限公司總經(jīng)理金大時認為,語音開放平臺的價值并不止于商業(yè)。“讀者數(shù)字農(nóng)家書屋”已在甘肅慶陽市試點成功,完成了65個新農(nóng)村“數(shù)字農(nóng)家書屋”。他表示,“很多不識字的老年人和留守兒童,語音合成讓他們也享受到了閱讀的樂趣。”
(百度語音開放平臺宣布四大語音新技術(shù)開放)
目前,百度語音開放平臺的合作伙伴已涵蓋多個領(lǐng)域和場景,包括智能手機領(lǐng)域的聯(lián)想、中興;智能家居領(lǐng)域的長虹智能電視、康佳智能電視、SONY智能電視;汽車行業(yè)的特斯拉、途勝;智能設(shè)備領(lǐng)域的惠普、艾米通訊;智能服務(wù)領(lǐng)域的攜程、手機QQ閱讀等。
“語音是人類交流最自然的方式,通過開放語音技術(shù),百度希望可以引領(lǐng)語音功能產(chǎn)品的繁榮發(fā)展。”吳恩達表示。
作為國內(nèi)最為開放的領(lǐng)先語音技術(shù)開放平臺,百度語音開放平臺自2013年10月上線以來,每日在線語音識別要求從2013年的500萬上升到今天的1億4千萬,在線語音合成每日請求達2億,開發(fā)者數(shù)量超過14萬。
在技術(shù)指標方面,百度語音識別準確率目前已高達97%,居于全球領(lǐng)先。今年2月,百度深度語音識別系統(tǒng)Deep Speech 2入選MIT 2016十大突破技術(shù)。包括語音技術(shù)在內(nèi)的百度大腦,入選2016第三屆烏鎮(zhèn)世界互聯(lián)網(wǎng)大會15大領(lǐng)先科技成果,成為國內(nèi)唯一入選的綜合型人工智能技術(shù)。
申請創(chuàng)業(yè)報道,分享創(chuàng)業(yè)好點子。點擊此處,共同探討創(chuàng)業(yè)新機遇!