每一輪技術(shù)浪潮出現(xiàn)時,沖在最前面的都是朝氣蓬勃的年輕人。
當(dāng)大模型代表的人工智能浪潮席卷全球,作為移動互聯(lián)網(wǎng)“原住民”的年輕開發(fā)者,可以說是最活躍的群體。他們的臉龐還有些稚嫩,但在技術(shù)和方向上有著自己的想法,在火熱的AI賽道里加速狂奔,努力打下一片新天地。
面壁智能CTO曾國洋就是其中的佼佼者,26歲的年紀(jì)管理著清華系明星大模型創(chuàng)業(yè)公司的研發(fā)團(tuán)隊,堅定地踏上了AGI征途。
01 十多年開發(fā)經(jīng)驗的創(chuàng)業(yè)公司CTO
在許多人的印象中,24歲不過是研究生剛畢業(yè)的年紀(jì),剛剛進(jìn)入職場,扮演的還是“學(xué)徒”的角色。但在曾國洋的故事里,24歲已經(jīng)作為CTO帶領(lǐng)著面壁智能的核心技術(shù)團(tuán)隊,同時也是一位有著十多年經(jīng)驗的資深開發(fā)者。
和OpenAI的創(chuàng)始人Sam Altman一樣,曾國洋在8歲就開始學(xué)編程。身邊的朋友、老師、父母等潛移默化地告訴他:“會寫代碼”是一件很厲害的事。于是從Visual Basic開始,懵懵懂懂地開啟了編程之路。
到了中學(xué)時,曾國洋已經(jīng)系統(tǒng)性地接觸了C/C++,喜歡在網(wǎng)上看一些國內(nèi)外的資料,嘗試寫出更復(fù)雜的程序。因為“寫代碼”的愛好,曾國洋在高二時先后獲得全國青少年信息學(xué)競賽金牌和亞太地區(qū)信息學(xué)競賽金牌,并因此被保送到清華,為日后的大模型創(chuàng)業(yè)埋下了伏筆。
沒有高考壓力的曾國洋,在2015年的冬令營上了解到曠視正在招實習(xí)生,抱著試一試的心態(tài)報了名,由此正式步入AI領(lǐng)域。
AlphaGo和李世石的圍棋大戰(zhàn),點(diǎn)燃了深度學(xué)習(xí)的熱潮,無數(shù)年輕人為之徹夜不眠,曾國洋也不例外。大二期間,在室友的引薦下,曾國洋加入了清華大學(xué)NLP實驗室,誤打誤撞成為中國最早一批大模型研究員,并在后來成為悟道·文源中文預(yù)訓(xùn)練模型團(tuán)隊的骨干成員。
十多年的開發(fā)經(jīng)驗,培養(yǎng)了曾國洋的工程化思維和能力,大學(xué)畢業(yè)時不甘于做象牙塔里的學(xué)術(shù)派,毅然加入到了大模型浪潮中。
在OpenAI發(fā)布GPT-3的第二年,為了解決大模型“訓(xùn)練難、微調(diào)難、應(yīng)用難”的挑戰(zhàn),曾國洋作為聯(lián)合發(fā)起人創(chuàng)建了OpenBMB開源社區(qū),旨在打造大規(guī)模預(yù)訓(xùn)練語言模型庫與相關(guān)工具,加速百億級以上大模型的訓(xùn)練、微調(diào)與推理,以降低大模型的使用門檻,實現(xiàn)大模型的標(biāo)準(zhǔn)化、普及化和實用化,讓大模型能夠飛入千家萬戶。
清華大學(xué)計算機(jī)系長聘副教授劉知遠(yuǎn)在2022年牽頭創(chuàng)辦面壁智能時,曾國洋果斷放棄了手里的多個Offer,擔(dān)綱這家大模型創(chuàng)業(yè)公司的技術(shù)1號位,完成了從一線開發(fā)者到大模型創(chuàng)業(yè)公司CTO的華麗轉(zhuǎn)身。
02 “高效大模型就是面壁智能”
Scaling law,被看作是 OpenAI 的核心技術(shù),簡單來說,可以通過更復(fù)雜的模型、更大的數(shù)據(jù)量、更多的計算資源,提高模型的性能。前兩年,國內(nèi)外企業(yè)都在卷參數(shù)量,做到了千億、萬億,甚至是十萬億,越到后面,但大家漸漸發(fā)現(xiàn)參數(shù)量更大,不代表模型效果更好。
在曾國洋看來:如果大模型作為實現(xiàn)AGI的關(guān)鍵路徑,但成本卻無比高昂,那么即使實現(xiàn)了AGI,但AGI比人還貴、那也沒太大意義,所以要降低模型成本。對于大模型落地來說,效率是很個關(guān)鍵的問題,需要控制成本來達(dá)到更好的效果,這樣才能去擴(kuò)展大模型的應(yīng)用邊界。
不久前舉辦的鯤鵬昇騰開發(fā)者大會2024上,曾國洋在演講中表示:“面壁智能持續(xù)引領(lǐng)高效大模型路線,推動大模型高效訓(xùn)練、快步應(yīng)用落地,以更快速度,更低成本,提供最優(yōu)智能實現(xiàn)方案。”
首先要解決的就是高效訓(xùn)練。
公開數(shù)據(jù)顯示,OpenAI訓(xùn)練GPT-3的成本約為430萬美元,到了GPT-4已經(jīng)上漲到7800萬美元,谷歌Gemini Ultra在計算上花費(fèi)了1.91億美元......比大模型能力更早指數(shù)性增長的,居然是大模型的訓(xùn)練成本。
該怎么提升大模型訓(xùn)練效率呢?
面壁智能在2024年初的一篇論文中提出了思路:如果大模型還未訓(xùn)練出來時就能預(yù)測性能大約在什么水平,可以先通過小模型做實驗、調(diào)參數(shù),再按照相同的數(shù)據(jù)配比、數(shù)調(diào)整等方法訓(xùn)練大模型。
其實在2023年,面壁智能就已經(jīng)開始探索高效的Scaling Law,用小十倍參數(shù)模型預(yù)測大十倍參數(shù)模型的性能,并且取得了不錯的成績:
旗艦端側(cè)基座模型MiniCPM用2.4B的參數(shù)量,在性能上越級超越Mistral-7B、Llama2-13B乃至更大的全球知名模型;旗艦端側(cè)多模態(tài)模型MiniCPM-V刷新了開源模型最佳OCR 表現(xiàn),部分能力比肩世界級多模態(tài)模型標(biāo)桿 Gemini-Pro 與 GPT-4V。前兩天發(fā)布的端側(cè)最強(qiáng)多模態(tài)模型MiniCPM-Llama3-V 2.5 ,超越多模態(tài)巨無霸 Gemini Pro 、GPT-4V實現(xiàn)了「以最小參數(shù),撬動最強(qiáng)性能」的最佳平衡點(diǎn)。“大”并非是唯一選項,小模型也可以實現(xiàn)同樣的效果。
面壁智能的“高效”,不單單體現(xiàn)在訓(xùn)練環(huán)節(jié)。
在部署方面,面壁智能是模型廠商中最早提出“端云協(xié)同”的,通過協(xié)同推理的方式降低降低推理部署的成本、時延和能耗,讓大模型可以跑在手機(jī)、電腦、汽車、音箱等低功耗的芯片。
以及大模型驅(qū)動的群體智能技術(shù)體系,包含智能體通用平臺AgentVerse、技術(shù)協(xié)同同臺、應(yīng)用層面的多智能體協(xié)作開發(fā)框架ChatDev,幫助開發(fā)者打通大模型落地應(yīng)用的最后一公里。
03 全流程加速大模型應(yīng)用升級
基于豐厚原創(chuàng)技術(shù)底蘊(yùn),并匹配大模型這一系統(tǒng)工程的本質(zhì)要求,面壁打造了一條從數(shù)據(jù)原材料、到模型制作過程中精湛訓(xùn)練與調(diào)校工藝環(huán)環(huán)相扣的全高效生產(chǎn)線。
譬如面壁智能獨(dú)家的“沙盒實驗”,讓小模型驗證大模型性能成為可能;Ultra對齊技術(shù),可以有效大模型的綜合表現(xiàn);現(xiàn)代化數(shù)據(jù)工廠,形成從數(shù)據(jù)治理到多維評測的閉環(huán);高效的Infra,為面壁智能的大模型訓(xùn)練打好了地基;訓(xùn)練框架BMTrain、推理框架BMINF、壓縮框架BMCook和微調(diào)框架BMTune構(gòu)成工具套件平臺,可在降低90%的訓(xùn)練成本同時,將推理速度提升10倍。
在創(chuàng)立之初,面壁智能就開始將大模型和國產(chǎn)軟硬件基礎(chǔ)設(shè)施做適配,想要從全流程加速大模型應(yīng)用升級。直接的例子就是面壁智能和昇騰AI在軟硬件的深度合作。
比如面壁智能基于昇騰基礎(chǔ)軟硬件完成了CPM-BEE大模型和BMTrain加速框架的遷移,通過兩個關(guān)鍵步驟實現(xiàn)了BMTrain和昇騰的適配,通過親和融合算子替換實現(xiàn)了大模型的性能提升,最終讓CPM、llama等模型的集群訓(xùn)練性能與業(yè)界持平。
再比如基于昇騰底座采用MindSpore框架開展了深入的創(chuàng)新研究。在微調(diào)方面,面壁智能實現(xiàn)了多個下游任務(wù)Sora在使用不超過1%的模型參數(shù)微調(diào)時,仍然能夠超越其他微調(diào)方式;針對推理場景,面壁智能通過量化、蒸餾、剪枝等技術(shù)的靈活組合,在多項任務(wù)上壓縮至1/3時,模型精度仍能保持99%。
國內(nèi)的大模型團(tuán)隊中,同時從算力、數(shù)據(jù)、算法切入的團(tuán)隊并不多見,為何面壁智能選擇和昇騰AI一起,全面系統(tǒng)地推進(jìn)大模型上下游工程?
曾國洋曾在媒體采訪中這樣說道:“我們追求的是,在同樣的時間、同等參數(shù)量的條件下,實現(xiàn)更優(yōu)的Scaling Law。當(dāng)模型的效率優(yōu)化到一定程度的時候,如果要繼續(xù)精進(jìn)下去,就需要數(shù)據(jù)、算力與算法多者結(jié)合。”
這種不給自己設(shè)限的挑戰(zhàn)精神,所帶來的不單單是效率,還有通往AGI道路時的底氣。
不少大模型團(tuán)隊為算力卡脖子問題焦慮的時候,曾國洋態(tài)度相當(dāng)鎮(zhèn)定:“對于比較早開展大模型研發(fā)的團(tuán)隊來說,國產(chǎn)化適配基本上都已經(jīng)完成了,因為做的早嘛。其實國產(chǎn)化算力的差距沒有想象的那么大,特別是像昇騰這些設(shè)備,目前已經(jīng)達(dá)到了大規(guī)模商用的水平。”
和面壁智能一樣,昇騰AI也在全流程使能大模型創(chuàng)新落地,從大模型的開發(fā)訓(xùn)練到推理部署。正是這些同道人的相向而行,讓大模型開發(fā)不再是復(fù)雜的超級工程,每個開發(fā)者都能參與其中。
04 寫在最后
大模型市場競爭激烈,技術(shù)迭代日新月異,但曾國洋連續(xù)幾個月工作都不覺疲憊,用他自己的話說“因為我很相信 AGI 會實現(xiàn)。”
這正是年輕人的“可愛之處”,他們有挑戰(zhàn)新事物的勇氣,也有躬身入局的行動力,更重要的是,他們還是一群有理想的開發(fā)者。就像曾國洋在創(chuàng)辦OpenBMB開源社區(qū)的初心:幫助千千萬萬的開發(fā)者降低門檻,讓大模型飛入千家萬戶。面壁智能無疑是理想和初心的延續(xù)。
申請創(chuàng)業(yè)報道,分享創(chuàng)業(yè)好點(diǎn)子。點(diǎn)擊此處,共同探討創(chuàng)業(yè)新機(jī)遇!