1. 創(chuàng)業(yè)頭條
  2. 前沿領(lǐng)域
  3. AI智能
  4. 正文

歷時400多天,國產(chǎn)大模型全面趕超GPT-4?

 2024-05-10 13:56  來源:A5專欄  我來投稿 撤稿糾錯

  域名預(yù)訂/競價,好“米”不錯過

稍微留意下近期的新聞,“趕超GPT-4”正在成為國產(chǎn)大模型的新熱點。

百度文心一言、商湯日日新以及阿里云剛剛發(fā)布的通義千問2.5,均已邁入“全面趕超GPT-4”陣營。

把時間線稍微拉長一些的話,過去大半年時間里,“超越GPT-4”的消息可謂屢見不鮮,即使在報道中刻意加上了多項基準(zhǔn)、部分指標(biāo)等前綴,依然賺足了眼球,成為國產(chǎn)大模型佐證自身能力的有力指標(biāo)。

簡單做個復(fù)盤的話,國產(chǎn)大模型對GPT-4的追趕已經(jīng)進行了400多天,其中“趕超進程”可以粗分為三個階段。

第一階段:部分性能超越GPT-4

2023年3月14日,OpenAI正式推出了GPT-4,彼時大多數(shù)國產(chǎn)大模型還未開放,少數(shù)內(nèi)測大模型的比較對象還是GPT-3。作為業(yè)界標(biāo)桿的GPT-4,就像是科幻照進了現(xiàn)實,被無數(shù)人捧上神壇。

但在短短半年后,GPT-4就出現(xiàn)在了國產(chǎn)大模型廠商的比較名單里。

2023年8月底,商湯科技對外公布了一則新進展:擁有1230億個參數(shù)的“書生·浦語”,在全球51個知名評測集共計30萬道問題集合上,測試成績排名全球第二,并在綜合考試agieval、知識問答commonsenseqa、閱讀理解和推理的十項評測中位列第一,分數(shù)超過風(fēng)頭正盛的GPT-4。

2023年10月17日的“生成未來”發(fā)布會上,百度正式發(fā)布了文心大模型4.0版本,李彥宏在現(xiàn)場依次演示了大模型的理解、生成、邏輯和記憶四大核心能力的特點與應(yīng)用場景。盡管沒有給出評測數(shù)據(jù),李彥宏卻自信地表示:文心大模型4.0的綜合水平,“與GPT-4相比毫不遜色”。

國產(chǎn)大模型趕超GPT-4的序幕正式拉開,此后一兩個月里,不少大模型給了這樣的營銷口徑:整體能力已經(jīng)不輸于GPT-3.5,并且在部分性能指標(biāo)上開始超越GPT-4。

第二階段:整體性能逼近GPT-4

時間來到2024年初,國內(nèi)的“百模大戰(zhàn)”進入收斂期,一些不被資本市場認可的大模型,漸漸成了一個數(shù)字,只有幾家科技大廠和獨角獸仍活躍在大模型一線。“活下來”的大模型,勢必要在能力上證明自己。

綜合性能逼近GPT-4,開始成為新的營銷話術(shù)。

2024年1月中旬的智譜AI技術(shù)開放日上,正式發(fā)布了新一代基座大模型GLM-4。按照智譜AI官方的說法:在權(quán)威的英文測試榜單中,GLM-4已經(jīng)整體逼近GPT-4,平均能達到GPT-4 90%以上的水平,在個別項目上表現(xiàn)持平;而在國內(nèi)企業(yè)更加看重的中文任務(wù)上,GLM-4的表現(xiàn)全面超過GPT-4。

同樣是在2024年1月,科大訊飛發(fā)布了星火認知大模型V3.5,在邏輯推理、語言理解、文本生成、數(shù)學(xué)答題、代碼、多模態(tài)等核心能力均顯著提升,其中語言理解、數(shù)學(xué)能力已經(jīng)超過GPT-4 Turbo,代碼能力達到GPT-4 Turbo 96%,多模態(tài)理解達到GPT-4V 91%。“在中文理解方面,甚至遙遙領(lǐng)先。”

回頭來看,智譜AI和科大訊飛的營銷策略還是有些“保守”,百川智能在同一時間段發(fā)布的Baichuan 3,對外表示已經(jīng)在CMMLU、GAOKAO等中文評測中超越GPT-4。

第三階段:全面趕超GPT-4 Turbo

2023年11月的OpenAI首屆開發(fā)者大會,GPT-4 Turbo可以說整個活動的焦點,不僅比GPT-4更聰明,文本處理的上限更高,推理的速度更快,價格也更便宜,國產(chǎn)大模型隨即迎來了新的比較對象。

先是2024年4月份發(fā)布的日日新5.0,擁有6000億參數(shù),并在發(fā)布會上引用了OpenCompass的評測數(shù)據(jù):日日新5.0達到或超越了GPT-4 Turbo版本,幾乎全方位碾壓了同期發(fā)布的 Llama 3-70B。

再然后就是阿里云剛剛發(fā)布的通義千問2.5,根據(jù)媒體報道中的說法:模型性能全面趕超GPT-4-Turbo,成為“地表最強”中文大模型;通義千問1100億參數(shù)開源模型在多個基準(zhǔn)測評收獲最佳成績,超越Meta的Llama-3-70B,成為開源領(lǐng)域最強大模型。

可以篤定的是,日日新5.0和通義千問2.5只是個開始,后續(xù)將有更多國產(chǎn)大模型在能力上超越GPT-4-Turbo。

畢竟科大訊飛早已預(yù)熱了上半年發(fā)布星火認知大模型V4.0的消息,將全面對標(biāo)GPT-4系列;文心一言4.0的發(fā)布已經(jīng)超過半年,不排除新版本正在準(zhǔn)備中,且大概率會在性能上再上一個臺階……

“跑分”的意義在哪里?

不管是一開始的“部分性能超越”,還是現(xiàn)在進行中的“全面趕超”,依據(jù)都是第三方評測結(jié)果,或者說大模型廠商的主觀判斷。比如商湯和阿里云爭相引用的OpenCompass,就是上海人工智能實驗室開源的大模型評測平臺。

對于一些大模型沉迷于刷榜、跑分的現(xiàn)象,上海人工智能實驗室領(lǐng)軍科學(xué)家林達華教授曾在媒體采訪中直言:通過題海戰(zhàn)術(shù)提高大模型成績,對于模型實際能力的反應(yīng)是失真的,影響了模型研發(fā)團隊的改進方向和模型的商業(yè)落地,“高分低能”傷害的是機構(gòu)本身;榜單上任何具體的名字只是大模型成長過程中無數(shù)次測試中的一次,一時的排名高低并不真正反映模型的能力。

何況很多大模型測試集為了公開透明,測試題目或者提綱都是公開的,大模型廠商不難通過“針對性的訓(xùn)練”來提高分數(shù)。只要將足夠的的測試題喂給大模型,在開卷考試的機制下,分數(shù)總不會太低。

也就是說,分數(shù)高并不一定代表大模型的能力強。“跑分”的意義僅僅是讓客戶或開發(fā)者對大模型能力有一個初步的認識,最終的評估因素永遠是“能不能解決問題”,“能不能在場景中帶來實實在在的生產(chǎn)力”。

特別是在大模型走向落地應(yīng)用的趨勢下,一味炒作“超越GPT-4”、“跑分第一”,妄顧落地應(yīng)用的實效,可能會適得其反。以大模型應(yīng)用中比較常見的財報分析為例,如果大模型連一家企業(yè)的財報都看不懂,再高的計算分數(shù)也不會讓客戶信服,反而會被排除在合作名單外。

而參考中信證券等機構(gòu)的研究報告,目前OpenAI的GPT-5正處于紅隊測試階段,有望在今年夏天正式發(fā)布,可能在多模態(tài)理解、長文本輸入、zero-shot學(xué)習(xí)等方面實現(xiàn)重大突破,且性能將遠超GPT-4。即使國產(chǎn)大模型花費400多天追平了GPT-4,在相當(dāng)長一段時間里,仍將處于追趕的姿態(tài)。

大模型的價值是解決日常問題的生產(chǎn)力工具,趕超GPT-4的階段性升級,可以看作是國產(chǎn)大模型有序迭代部署、不斷拉近差距的標(biāo)志,切莫像手機跑分那樣,在過度營銷的作用下,淪為被群嘲的對象。

申請創(chuàng)業(yè)報道,分享創(chuàng)業(yè)好點子。點擊此處,共同探討創(chuàng)業(yè)新機遇!

相關(guān)標(biāo)簽
大模型

相關(guān)文章

  • 大模型爭霸的下一站:不僅是超越GPT-4,更是尋求模型之間的平衡應(yīng)用

    文|智能相對論作者|沈浪知名科學(xué)雜志《Nature》發(fā)表了一篇關(guān)于大模型規(guī)模參數(shù)大小爭議的文章《InAl,isbiggeralwaysbetter?》——AI大模型,越大越好嗎?隨著大模型應(yīng)用走向?qū)嵺`,這一問題不可避免地成為了當(dāng)前AI行業(yè)發(fā)展的焦點與爭議。有人認為,大模型當(dāng)然是越大越好,參數(shù)越大,性

    標(biāo)簽:
    大模型
  • 解密Kimi:大模型應(yīng)用當(dāng)紅頂流是如何練成的?

    拋開營銷戰(zhàn),或許在中國也可以探索新的大模型應(yīng)用聚合方式、供給方式以及商業(yè)利潤分配的方式,對大模型公司來說,這將是一個新議題。

    標(biāo)簽:
    大模型
  • 大模型的現(xiàn)在進行時:走出對話框,走向產(chǎn)業(yè)端

    大模型熱潮涌動了一年多后,越來越多人平復(fù)了激動的情緒,開始從客觀的視角重新思考大模型的價值和機會。紅杉資本在AlAscent2024的開場演講中提到,大模型的創(chuàng)造能力和推理能力,第一次實現(xiàn)了以類似人類的方式進行交互,將支撐起數(shù)十萬億美元的市場。然而和AGI的遙遠夢想相比,大模型的創(chuàng)業(yè)者們卻不得不正視

    標(biāo)簽:
    大模型
  • 李彥宏放話:百度AI大模型絕不搶開發(fā)者飯碗

    關(guān)注盧松松,會經(jīng)常給你分享一些我的經(jīng)驗和觀點。昨晚,李彥宏內(nèi)部講話稱:AI大模型開源意義不大,百度絕不搶開發(fā)者飯碗。但你一定要說話算話哦,可千萬別說:“我永遠不做手機,誰再敢提做手機就給我走人”,結(jié)果5年后自己的手機銷量排名第一。如果百度也這么干的話估計AI也沒人用了。李彥宏認為:從商業(yè)模式的角度來

    標(biāo)簽:
    大模型
  • 360 AI員工“紅衣”入職事業(yè)部 承擔(dān)多項安全運營工作

    近日,科技巨頭360公司宣布,其全新AI員工“紅衣”正式入職事業(yè)部,標(biāo)志著公司向智能化、自動化方向邁出了堅實的一步。據(jù)悉,“紅衣”由360安全大模型支持,具備高度智能化和自主學(xué)習(xí)能力,能夠在多個領(lǐng)域提供高效、精準(zhǔn)的服務(wù)?!凹t衣”是首位正式入職的數(shù)字安全專家,由360安全大模型支持,在安全運營工作中,

    標(biāo)簽:
    大模型
  • “創(chuàng)造市場”與“算法進化”,中美AI競速的岔路口

    “人工智能的商業(yè)模式,是要創(chuàng)造一個市場,而非一個算法”。這是世界AI泰斗MichaelI.Jordan的觀點。而當(dāng)前的全球AI市場,占據(jù)主導(dǎo)地位的中美雙方,卻也走出了兩條截然不同的技術(shù)路徑,前者執(zhí)著于前沿技術(shù)的探索,后者則發(fā)力應(yīng)用優(yōu)化和商業(yè)化落地。南轅北轍的兩個方向,或許已經(jīng)無法直接進行排位先后、優(yōu)

    標(biāo)簽:
    ai智能
  • 智能體進化發(fā)展了一年,現(xiàn)在的RPA Agent迭代到什么程度了?

    智能體進化發(fā)展了一年,現(xiàn)在的RPAAgent迭代到什么程度了?從實在智能最新發(fā)布的實在Agent7.0,看RPAAgent的迭代升級抓取豆瓣信息、自己制作PPT,這款A(yù)IAgent真的實現(xiàn)了流程全自動化AIAgent構(gòu)建到執(zhí)行全自動化,持續(xù)進化RPAAgent再次降低智能體應(yīng)用門檻實在智能重磅發(fā)布實

  • 崔大寶:大模型降溫背后的難點、卡點、節(jié)點

    崔大寶|節(jié)點財經(jīng)創(chuàng)始人進入2024年,大模型似乎有熄火之勢:資本市場,與之關(guān)聯(lián)的概念炒不動了,英偉達股價動輒暴跌重挫,引發(fā)“泡沫戳破”的擔(dān)憂;消費市場,BATH們的推新活動少了,產(chǎn)品更新迭代的速度慢了,民眾的關(guān)注度降了……熱鬧的大概只剩下兩場酣仗:自5月15日字節(jié)跳動宣布“以厘計費”,打響國內(nèi)大模型

    標(biāo)簽:
    大模型
  • 這一屆“出道”的數(shù)字人,已經(jīng)拿捧上了“鐵飯碗”

    文|智能相對論作者|陳泊丞好消息!你心心念念的事業(yè)單位發(fā)錄取公告了!壞消息!他們沒錄你,錄了個數(shù)字人。圖片來源網(wǎng)絡(luò)隨著數(shù)字人技術(shù)的突破,越來越多的傳統(tǒng)企業(yè)和機構(gòu)開始用上了“數(shù)字員工”。甚至很多中國人心心念念的“鐵飯碗”,也被這些數(shù)字人給捧上了。數(shù)字人捧上了“鐵飯碗”簡單翻看一下全國各地事業(yè)單位的“錄

    標(biāo)簽:
    數(shù)字人
  • 來到IPO關(guān)口,地平線離“三分天下”還有多遠?

    黑芝麻智能敲鐘后,港交所門口又有一些智駕芯片企業(yè)引發(fā)關(guān)注。據(jù)悉,近日地平線已通過中國證監(jiān)會IPO備案,擬發(fā)行不超過11.5億股境外上市普通股并在香港聯(lián)合交易所上市,預(yù)計籌集約5億美元資金。從天眼查可以了解到,該公司成立于2015年,是一家乘用車高級輔助駕駛(ADAS)和高階自動駕駛(AD)解決方案供

  • 機器人大會引領(lǐng)產(chǎn)業(yè)動向,卓翼飛思繪制無人系統(tǒng)教科研新藍圖

    8月21日,萬眾矚目的2024世界機器人大會暨博覽會在北京亦創(chuàng)國際會展中心盛大開幕。這場為期5天,集“展覽”“論壇”“賽事”于一體的機器人盛會,反映了當(dāng)下機器人領(lǐng)域的繁榮生態(tài)。據(jù)官方統(tǒng)計數(shù)據(jù),今年現(xiàn)場逛展觀眾高達25萬人次,比去年增加25%。機器人行業(yè)有多火?看看2024世界機器人大會火爆程度便可知

  • 卓翼智能:超大載重高烈度環(huán)境特種智能系留無人平臺的應(yīng)用與未來

    瞄準(zhǔn)場景需求,打造國內(nèi)領(lǐng)先的自主可控、高質(zhì)量超大載重高烈度環(huán)境特種智能系留無人平臺。卓翼智能亮相HICOOL峰會以科技實力榮摘創(chuàng)業(yè)大賽一等獎這個比賽5年培育出16家“獨角獸”HICOOL2024全球創(chuàng)業(yè)者峰會暨創(chuàng)業(yè)大賽已于8月25日在北京圓滿落下帷幕,大賽共吸引了124個國家和地區(qū)的7406個創(chuàng)業(yè)項

  • 60萬獎金召喚AI創(chuàng)新者,2024無錫國際人工智能創(chuàng)新應(yīng)用大賽火熱進行中!

    人工智能是新一輪科技革命和產(chǎn)業(yè)變革的重要驅(qū)動力量。無錫市作為中國的科技創(chuàng)新中心之一,正通過構(gòu)建人工智能"算力+算法+數(shù)據(jù)"三要素齊備的產(chǎn)業(yè)生態(tài),為產(chǎn)業(yè)技術(shù)創(chuàng)新應(yīng)用提供強大支撐,通過“AI+”行動推動人工智能與多個產(chǎn)業(yè)交叉融合,實現(xiàn)技術(shù)落地和產(chǎn)業(yè)化,加速形成新質(zhì)生產(chǎn)力,打造具有國際競爭力的產(chǎn)業(yè)創(chuàng)新智造

  • “云+AI”驅(qū)動操作系統(tǒng)創(chuàng)新升級,龍蜥堅持可持續(xù)發(fā)展路線

    近日,2024龍蜥操作系統(tǒng)大會(OpenAnolisConference)在北京圓滿召開,此次大會由中國計算機學(xué)會開源發(fā)展委員會、中關(guān)村科學(xué)城委員會、海淀區(qū)委網(wǎng)信辦、中國開源軟件推進聯(lián)盟指導(dǎo),龍蜥社區(qū)主辦,阿里云、浪潮信息、Intel、中興通訊、Arm、中科方德等24家理事單位共同承辦,主題為“進化

編輯推薦