99久久亚洲精品日本无码,亚洲美腿日韩欧美精品

每一輪技術(shù)浪潮出現(xiàn)時，沖在最前面的都是朝氣蓬勃的年輕人。

當(dāng)大模型代表的人工智能浪潮席卷全球，作為移動互聯(lián)網(wǎng)“原住民”的年輕開發(fā)者，可以說是最活躍的群體。他們的臉龐還有些稚嫩，但在技術(shù)和方向上有著自己的想法，在火熱的AI賽道里加速狂奔，努力打下一片新天地。

面壁智能CTO曾國洋就是其中的佼佼者，26歲的年紀(jì)管理著清華系明星大模型創(chuàng)業(yè)公司的研發(fā)團(tuán)隊，堅定地踏上了AGI征途。

01 十多年開發(fā)經(jīng)驗的創(chuàng)業(yè)公司CTO

在許多人的印象中，24歲不過是研究生剛畢業(yè)的年紀(jì)，剛剛進(jìn)入職場，扮演的還是“學(xué)徒”的角色。但在曾國洋的故事里，24歲已經(jīng)作為CTO帶領(lǐng)著面壁智能的核心技術(shù)團(tuán)隊，同時也是一位有著十多年經(jīng)驗的資深開發(fā)者。

和OpenAI的創(chuàng)始人Sam Altman一樣，曾國洋在8歲就開始學(xué)編程。身邊的朋友、老師、父母等潛移默化地告訴他：“會寫代碼”是一件很厲害的事。于是從Visual Basic開始，懵懵懂懂地開啟了編程之路。

到了中學(xué)時，曾國洋已經(jīng)系統(tǒng)性地接觸了C/C++，喜歡在網(wǎng)上看一些國內(nèi)外的資料，嘗試寫出更復(fù)雜的程序。因為“寫代碼”的愛好，曾國洋在高二時先后獲得全國青少年信息學(xué)競賽金牌和亞太地區(qū)信息學(xué)競賽金牌，并因此被保送到清華，為日后的大模型創(chuàng)業(yè)埋下了伏筆。

沒有高考壓力的曾國洋，在2015年的冬令營上了解到曠視正在招實習(xí)生，抱著試一試的心態(tài)報了名，由此正式步入AI領(lǐng)域。

AlphaGo和李世石的圍棋大戰(zhàn)，點(diǎn)燃了深度學(xué)習(xí)的熱潮，無數(shù)年輕人為之徹夜不眠，曾國洋也不例外。大二期間，在室友的引薦下，曾國洋加入了清華大學(xué)NLP實驗室，誤打誤撞成為中國最早一批大模型研究員，并在后來成為悟道·文源中文預(yù)訓(xùn)練模型團(tuán)隊的骨干成員。

十多年的開發(fā)經(jīng)驗，培養(yǎng)了曾國洋的工程化思維和能力，大學(xué)畢業(yè)時不甘于做象牙塔里的學(xué)術(shù)派，毅然加入到了大模型浪潮中。

在OpenAI發(fā)布GPT-3的第二年，為了解決大模型“訓(xùn)練難、微調(diào)難、應(yīng)用難”的挑戰(zhàn)，曾國洋作為聯(lián)合發(fā)起人創(chuàng)建了OpenBMB開源社區(qū)，旨在打造大規(guī)模預(yù)訓(xùn)練語言模型庫與相關(guān)工具，加速百億級以上大模型的訓(xùn)練、微調(diào)與推理，以降低大模型的使用門檻，實現(xiàn)大模型的標(biāo)準(zhǔn)化、普及化和實用化，讓大模型能夠飛入千家萬戶。

清華大學(xué)計算機(jī)系長聘副教授劉知遠(yuǎn)在2022年牽頭創(chuàng)辦面壁智能時，曾國洋果斷放棄了手里的多個Offer，擔(dān)綱這家大模型創(chuàng)業(yè)公司的技術(shù)1號位，完成了從一線開發(fā)者到大模型創(chuàng)業(yè)公司CTO的華麗轉(zhuǎn)身。

02 “高效大模型就是面壁智能”

Scaling law，被看作是 OpenAI 的核心技術(shù)，簡單來說，可以通過更復(fù)雜的模型、更大的數(shù)據(jù)量、更多的計算資源，提高模型的性能。前兩年，國內(nèi)外企業(yè)都在卷參數(shù)量，做到了千億、萬億，甚至是十萬億，越到后面，但大家漸漸發(fā)現(xiàn)參數(shù)量更大，不代表模型效果更好。

在曾國洋看來：如果大模型作為實現(xiàn)AGI的關(guān)鍵路徑，但成本卻無比高昂，那么即使實現(xiàn)了AGI，但AGI比人還貴、那也沒太大意義，所以要降低模型成本。對于大模型落地來說，效率是很個關(guān)鍵的問題，需要控制成本來達(dá)到更好的效果，這樣才能去擴(kuò)展大模型的應(yīng)用邊界。

不久前舉辦的鯤鵬昇騰開發(fā)者大會2024上，曾國洋在演講中表示：“面壁智能持續(xù)引領(lǐng)高效大模型路線，推動大模型高效訓(xùn)練、快步應(yīng)用落地，以更快速度，更低成本，提供最優(yōu)智能實現(xiàn)方案。”

首先要解決的就是高效訓(xùn)練。

公開數(shù)據(jù)顯示，OpenAI訓(xùn)練GPT-3的成本約為430萬美元，到了GPT-4已經(jīng)上漲到7800萬美元，谷歌Gemini Ultra在計算上花費(fèi)了1.91億美元......比大模型能力更早指數(shù)性增長的，居然是大模型的訓(xùn)練成本。

該怎么提升大模型訓(xùn)練效率呢？

面壁智能在2024年初的一篇論文中提出了思路：如果大模型還未訓(xùn)練出來時就能預(yù)測性能大約在什么水平，可以先通過小模型做實驗、調(diào)參數(shù)，再按照相同的數(shù)據(jù)配比、數(shù)調(diào)整等方法訓(xùn)練大模型。

其實在2023年，面壁智能就已經(jīng)開始探索高效的Scaling Law，用小十倍參數(shù)模型預(yù)測大十倍參數(shù)模型的性能，并且取得了不錯的成績：

旗艦端側(cè)基座模型MiniCPM用2.4B的參數(shù)量，在性能上越級超越Mistral-7B、Llama2-13B乃至更大的全球知名模型；旗艦端側(cè)多模態(tài)模型MiniCPM-V刷新了開源模型最佳OCR 表現(xiàn)，部分能力比肩世界級多模態(tài)模型標(biāo)桿 Gemini-Pro 與 GPT-4V。前兩天發(fā)布的端側(cè)最強(qiáng)多模態(tài)模型MiniCPM-Llama3-V 2.5 ，超越多模態(tài)巨無霸 Gemini Pro 、GPT-4V實現(xiàn)了「以最小參數(shù)，撬動最強(qiáng)性能」的最佳平衡點(diǎn)。“大”并非是唯一選項，小模型也可以實現(xiàn)同樣的效果。

面壁智能的“高效”，不單單體現(xiàn)在訓(xùn)練環(huán)節(jié)。

在部署方面，面壁智能是模型廠商中最早提出“端云協(xié)同”的，通過協(xié)同推理的方式降低降低推理部署的成本、時延和能耗，讓大模型可以跑在手機(jī)、電腦、汽車、音箱等低功耗的芯片。

以及大模型驅(qū)動的群體智能技術(shù)體系，包含智能體通用平臺AgentVerse、技術(shù)協(xié)同同臺、應(yīng)用層面的多智能體協(xié)作開發(fā)框架ChatDev，幫助開發(fā)者打通大模型落地應(yīng)用的最后一公里。

03 全流程加速大模型應(yīng)用升級

基于豐厚原創(chuàng)技術(shù)底蘊(yùn)，并匹配大模型這一系統(tǒng)工程的本質(zhì)要求，面壁打造了一條從數(shù)據(jù)原材料、到模型制作過程中精湛訓(xùn)練與調(diào)校工藝環(huán)環(huán)相扣的全高效生產(chǎn)線。

譬如面壁智能獨(dú)家的“沙盒實驗”，讓小模型驗證大模型性能成為可能；Ultra對齊技術(shù)，可以有效大模型的綜合表現(xiàn)；現(xiàn)代化數(shù)據(jù)工廠，形成從數(shù)據(jù)治理到多維評測的閉環(huán)；高效的Infra，為面壁智能的大模型訓(xùn)練打好了地基；訓(xùn)練框架BMTrain、推理框架BMINF、壓縮框架BMCook和微調(diào)框架BMTune構(gòu)成工具套件平臺，可在降低90%的訓(xùn)練成本同時，將推理速度提升10倍。

在創(chuàng)立之初，面壁智能就開始將大模型和國產(chǎn)軟硬件基礎(chǔ)設(shè)施做適配，想要從全流程加速大模型應(yīng)用升級。直接的例子就是面壁智能和昇騰AI在軟硬件的深度合作。

比如面壁智能基于昇騰基礎(chǔ)軟硬件完成了CPM－BEE大模型和BMTrain加速框架的遷移，通過兩個關(guān)鍵步驟實現(xiàn)了BMTrain和昇騰的適配，通過親和融合算子替換實現(xiàn)了大模型的性能提升，最終讓CPM、llama等模型的集群訓(xùn)練性能與業(yè)界持平。

再比如基于昇騰底座采用MindSpore框架開展了深入的創(chuàng)新研究。在微調(diào)方面，面壁智能實現(xiàn)了多個下游任務(wù)Sora在使用不超過1%的模型參數(shù)微調(diào)時，仍然能夠超越其他微調(diào)方式；針對推理場景，面壁智能通過量化、蒸餾、剪枝等技術(shù)的靈活組合，在多項任務(wù)上壓縮至1/3時，模型精度仍能保持99%。

國內(nèi)的大模型團(tuán)隊中，同時從算力、數(shù)據(jù)、算法切入的團(tuán)隊并不多見，為何面壁智能選擇和昇騰AI一起，全面系統(tǒng)地推進(jìn)大模型上下游工程？

曾國洋曾在媒體采訪中這樣說道：“我們追求的是，在同樣的時間、同等參數(shù)量的條件下，實現(xiàn)更優(yōu)的Scaling Law。當(dāng)模型的效率優(yōu)化到一定程度的時候，如果要繼續(xù)精進(jìn)下去，就需要數(shù)據(jù)、算力與算法多者結(jié)合。”

這種不給自己設(shè)限的挑戰(zhàn)精神，所帶來的不單單是效率，還有通往AGI道路時的底氣。

不少大模型團(tuán)隊為算力卡脖子問題焦慮的時候，曾國洋態(tài)度相當(dāng)鎮(zhèn)定：“對于比較早開展大模型研發(fā)的團(tuán)隊來說，國產(chǎn)化適配基本上都已經(jīng)完成了，因為做的早嘛。其實國產(chǎn)化算力的差距沒有想象的那么大，特別是像昇騰這些設(shè)備，目前已經(jīng)達(dá)到了大規(guī)模商用的水平。”

和面壁智能一樣，昇騰AI也在全流程使能大模型創(chuàng)新落地，從大模型的開發(fā)訓(xùn)練到推理部署。正是這些同道人的相向而行，讓大模型開發(fā)不再是復(fù)雜的超級工程，每個開發(fā)者都能參與其中。

04 寫在最后

大模型市場競爭激烈，技術(shù)迭代日新月異，但曾國洋連續(xù)幾個月工作都不覺疲憊，用他自己的話說“因為我很相信 AGI 會實現(xiàn)。”

這正是年輕人的“可愛之處”，他們有挑戰(zhàn)新事物的勇氣，也有躬身入局的行動力，更重要的是，他們還是一群有理想的開發(fā)者。就像曾國洋在創(chuàng)辦OpenBMB開源社區(qū)的初心：幫助千千萬萬的開發(fā)者降低門檻，讓大模型飛入千家萬戶。面壁智能無疑是理想和初心的延續(xù)。

申請創(chuàng)業(yè)報道，分享創(chuàng)業(yè)好點(diǎn)子。點(diǎn)擊此處，共同探討創(chuàng)業(yè)新機(jī)遇！

當(dāng)前位置：首頁 > 科技 > 互聯(lián)網(wǎng) > 正文

26歲的“天才少年”，帶隊面壁打通高效大模型之路

相關(guān)文章

價格戰(zhàn)迷霧下，大模型創(chuàng)業(yè)者只能被動挨打？

MaaS玩家：希望AI大模型價格戰(zhàn)再狠一點(diǎn)

斯坦?；貞?yīng)抄襲清華系大模型承諾撤下相關(guān)模型

大模型降價背后，國產(chǎn)大模型的競爭邏輯變了

谷歌發(fā)布多模態(tài)大模型重回領(lǐng)先，中國大模型誰能一戰(zhàn)

熱門排行

信息推薦

熱門標(biāo)簽