當前位置:首頁 >  科技 >  互聯(lián)網 >  正文

紫東.太初再進化,揭秘全模態(tài)大模型的想象力

 2023-05-11 08:36  來源: A5專欄   我來投稿 撤稿糾錯

  域名預訂/競價,好“米”不錯過

半個月前的一場內部分享中,奇績創(chuàng)壇創(chuàng)始人陸奇直言:他已經跟不上大模型時代的“狂飆”速度了。

在ChatGPT引發(fā)的現(xiàn)象級討論下,千億級大模型的軍備競賽愈演愈烈,不少企業(yè)趕趟兒式的交出了自家的大模型答卷。盡管大模型的質量參差不齊,卻再一次詮釋了“量變引起質變”的哲學規(guī)律。

日前結束的昇騰AI開發(fā)者峰會2023上,中國科學院自動化研究所“紫東.太初”大模型研究中心常務副主任、人工智能研究院院長王金橋在演講中介紹了基于昇騰AI與昇思MindSpore AI框架打造的全模態(tài)大模型紫東.太初2.0,并首次提出全模態(tài)多任務統(tǒng)一生成式學習框架。

借用Hugging Face聯(lián)合創(chuàng)始人Thomas Wolf的說法:“在過去的幾年里,好的多模態(tài)模型一直是許多大型技術實驗室的圣杯。”當大模型進入到全模態(tài)時代,將對整個產業(yè)鏈帶來哪些影響?

01 什么是全模態(tài)大模型?

以往提到大模型的時候,最惹眼的名詞無疑是“參數”,從1.1億參數的GPT到1750億參數的GPT-3,千億級參數幾乎成了大模型的“準入門檻”,畢竟模型的參數量越大,泛化性可能就越強。

其實還有另外一種分類標準,即模態(tài),分別對應單模態(tài)、多模態(tài)、全模態(tài)等不同類型,比如一鳴驚人的GPT-3就屬單模態(tài)大模型,紫東.太初1.0和GPT-4屬于多模態(tài)大模型,紫東.太初2.0是全球首個全模態(tài)大模型。

至于其中的差別,可以從三個維度進行拆解:

首先是原理。

所謂的模態(tài),即大模型可以處理的數據類型。單模態(tài)大模型只能處理一種類型的數據,也是出現(xiàn)語言、語音、視覺等不同模態(tài)大模型的原因所在,就像GPT-3系列就只有處理自然語言的能力。

顧名思義,多模態(tài)大模型意味著可以處理多個模態(tài)的數據,比如首個三模態(tài)大模型紫東.太初1.0,可以利用文本、圖片、音頻三種模態(tài)數據進行跨模態(tài)的統(tǒng)一表征和學習。對應到全模態(tài)大模型,泛指可以利用文本、圖片、音頻、視頻、3D等不同模態(tài)的數據進行跨模態(tài)的統(tǒng)一表征和學習,更接近人類的學習方式。

其次是成本。

ChatGPT剛剛走紅的時候,不少人在討論OpenAI的訓練成本,據悉GPT-3訓練一次的硬件和電力成本高達1200萬美元,由此出現(xiàn)了這樣一種流行說法:每一個大模型都是一臺昂貴的“碎鈔機”。

有別于單模態(tài)大模型的是,紫東.太初1.0代表的多模態(tài)大模型,通過建立弱關聯(lián)多模態(tài)數據語義統(tǒng)一表示,支持三種或任兩種模態(tài)數據混合訓練,進而減少了數據收集清洗的代價;到了全模態(tài)大模型階段,紫東.太初2.0的一個鮮明特點在于全模態(tài)低成本協(xié)同優(yōu)化學習,能夠融合多任務全模態(tài)能力,進而降低訓練成本。

最后是能力。

大模型領域有“大力出奇跡”的信仰,根源在于大模型的“涌現(xiàn)”現(xiàn)象,當大模型的參數量超過某個閾值(一般說法是參數量達到600-1000億),模型會出現(xiàn)一些意想不到的復雜能力,譬如類似人類的思維和推理能力。

正如前面所提到的,紫東.太初2.0首次提出了全模態(tài)多任務統(tǒng)一生成式學習框架,即全模態(tài)分組對齊、分組解碼和聯(lián)合解碼的學習方式,形成了全模態(tài)邏輯推理鏈。而跨模態(tài)遷移更有利于知識獲取,產生更多新的能力,紫東.太初2.0有望加速能力涌現(xiàn),進一步突破感知、認知和決策的交互屏障。

相較于比拼參數、算力和數據的“大模型煉丹術”,由單模態(tài)到多模態(tài)再到全模態(tài)的進化,可以自動學習到復雜的特征和模式,實現(xiàn)更準確和更高效的預測和決策,同樣是走向通用人工智能的必由之路。

02 大模型為何需要開源?

如果說“全模態(tài)”是紫東.太初2.0的第一個閃光點,另一個值得關注的消息是:紫東.太初2.0-3.8B模型已經在昇思MindSpore社區(qū)開源,相比于紫東.太初1.0,支持更細粒度的圖像識別、更具知識的視覺問答、更豐富的圖像描述。

似乎有必要重溫下開源和閉源的故事。

1997年,著名黑客埃里克·斯蒂芬·雷蒙在《大教堂與市集》一書中預測了兩種不同的自由軟件開發(fā)模式:一種是大教堂模式,原始代碼是公開的,但每個版本的開發(fā)過程由一個專屬的團隊管控;一種是市集模式,原始代碼同樣是公開的,不過是放在互聯(lián)網上供人檢視及開發(fā),最直接的例子就是Linux。

最終“市集模式”證明了開源比閉源更加高效,全球99%的組織在IT系統(tǒng)中使用了大量的開源代碼,開源的價值也被越來越多的企業(yè)重視。

2020年以前的時候,OpenAI信奉的也是開源策略,但在商業(yè)利益的誘惑下,GPT-3選擇了閉源,只針對開發(fā)者提供API,OpenAI由此被戲稱為ClosedAI,以至于國內的幾家大模型廠商也選擇了API模式。

再來理解紫東.太初系列大模型在昇思MindSpore社區(qū)開源的現(xiàn)實意義,或許可以找到一些不同的答案。

一是價格層面。開源沒有所謂的許可或使用費,只要有足夠的算力和數據,就可以在昇思社區(qū)上下載紫東.太初2.0-3.8B訓練自己的大模型。而閉源的成本取決于軟件的規(guī)模,目前OpenAI的ChatGPT API的最新接口調用費是每千次token約0.002美元,折合人民幣0.014元,還是多次降價的結果。

二是安全層面。開源軟件有一個完整的社區(qū)來審查代碼,而閉源是由單一平臺負責修改漏洞,出現(xiàn)了錯誤可能無法被及時改正。況且大模型的安全問題遠不止于此,據傳三星電子引入ChatGPT不到20天時間,就曝出有機密數據外泄,明令宣布禁止員工使用ChatGPT、Google Bard、Bing等生成式AI工具。

三是產業(yè)層面。開源世界里流傳著一句格言:社區(qū)重于代碼,因為開源社區(qū)的聚合和放大效應比開源代碼更有價值。特別是方興未艾的大模型領域,開源的本質是協(xié)同和創(chuàng)新,協(xié)同是全世界所有開源方力量的協(xié)同,創(chuàng)新是一個技術的創(chuàng)新,相比于各自為戰(zhàn)的閉源模式,開源更利于產業(yè)生態(tài)的培養(yǎng)和繁榮。

紫東.太初2.0宣布開源的同時,同步升級了紫東.太初開放服務平臺,不僅支持公有云、私有云、混合云在內的多種部署方式,兼容昇騰、英偉達、AMD、英特爾等不同AI硬件,作為AI框架的昇思MindSpore還提供了數據中心、訓練中心、模型中心、推理中心在內大模型微調套件,進一步降低了大模型的開發(fā)門檻,并通過一鍵式微調、低參數調優(yōu)等提高了開發(fā)效率。

全模態(tài)大模型的“神奇能力”,于開發(fā)者而言不再遙不可及。

03 大模型的價值在“落地”

也許就現(xiàn)階段而言,還無法為開源和閉源的勝敗下定論??蓪τ诤魡敬竽P偷那f家企業(yè)來說,比部署方式更重要的其實是落地,如果大模型的能力不能轉變?yōu)楫a業(yè)價值,再美好的故事也將是泡沫。

所以在對話式機器人輿情洶涌時,不少大模型并未急于跟進,因為大模型領域的參與者們都很清楚:華而不實地湊熱鬧終歸會被狂飆的車輪碾壓,產業(yè)落地才是大模型賽道避免泡沫化的鐵律。

再確切一些的話,大模型通常在大規(guī)模無標記數據上進行訓練,以學習某種特征和規(guī)則,而基于大模型開發(fā)應用時,只需對大模型進行微調,就可以完成多個應用場景的任務。如果說過去的AI應用是“手工作坊”式的,在大模型的驅動下,人工智能的產業(yè)落地正在向“工廠流水線”模式演變。

至少基于昇思MindSpore AI框架的紫東.太初大模型已經印證了這一點。

比如面向開發(fā)者和個人用戶,人工智能研究院推出了“江城洛神”AI內容創(chuàng)作平臺,通過紫東.太初的圖像描述能力、跨模態(tài)檢索能力,“江城洛神”能夠自動構建AIGC的訓練數據,通過文本對于生成圖片的細粒度信息進行控制,例如頭發(fā)的顏色、人物的表情、背景的效果、風格的定義等等。

同類平臺需要輸入多個提示詞才能準確生圖時,“江城洛神”已經通過自然語言實現(xiàn)了“一語成畫”。鑒于紫東.太初2.0的視覺知識推理和生成,不排除會衍生出圖生文、圖像分類識別等個性化的新玩法。

再比如面向行業(yè)的多模態(tài)人工智能產業(yè)聯(lián)合體,目的是整合產學研用各方資源,打造多模態(tài)人工智能行業(yè)應用,探索通用人工智能產業(yè)化路徑,目前已經有華為、中國移動、長安汽車等66位成員參與其中。

直接的例子就是大模型在智能座艙中的應用?;?ldquo;紫東.太初”多模態(tài)大模型,長安汽車引入了元宇宙的概念,創(chuàng)造出了YYDS虛擬數字人。和其他車內語音助手最大的不同,“YYDS”允許用戶復刻自己或親人的形象、聲音,可以捏出自己專屬的語音助手,實現(xiàn)了千人千面的個性化需求滿足。

可以找到的案例還有很多,比如紫東.太初2.0大模型在智慧法律、智慧交通、智慧政務、智慧醫(yī)療等場景中的深入落地。

或許這才是全模態(tài)大模型的正確打開方式,正在從過去的“一專一能”向“多專多能”過渡。在昇思MindSpore等開源社區(qū)的推動下,大模型不僅賦予了普通開發(fā)者使用AI的能力,也拉近了千行百業(yè)智能化轉型的距離。

不出意外的話,紫東.太初2.0開創(chuàng)的將不只是“全模態(tài)大模型”的先河,一場以落地考驗價值的產業(yè)大考悄悄拉開了帷幕。

04 寫在最后

即使從2018年OpenAI的GPT算起,“大數據+大模型”的行業(yè)布道也不過才進入第五個年頭,期間或許有挫折,但井噴式爆發(fā)已經是注定的事實。

而在文本、圖片、音頻等數據的基礎上,進一步融入3D、視頻、傳感信號等多模態(tài)數據的紫東.太初2.0,注定了大模型進階之路的新轉折點,通過優(yōu)化語音、視頻和文本的融合認知以及常識計算等功能,正在讓人工智能從感知世界進化為認知世界,延伸出更加強大的通用能力,不斷刷新人們的想象空間。

申請創(chuàng)業(yè)報道,分享創(chuàng)業(yè)好點子。點擊此處,共同探討創(chuàng)業(yè)新機遇!

相關文章

熱門排行

信息推薦