中國(guó)信通院于日前正式發(fā)布新版本“方升”基準(zhǔn)測(cè)試體系3.0。
“方升”大模型基準(zhǔn)測(cè)試體系3.0在原有基礎(chǔ)上實(shí)現(xiàn)系統(tǒng)性躍升,新增模型基礎(chǔ)屬性測(cè)試,對(duì)參數(shù)規(guī)模、推理效率等底層特征進(jìn)行體系化測(cè)試;同時(shí)前瞻性布局未來(lái)高級(jí)智能測(cè)試,圍繞全模態(tài)理解、長(zhǎng)期記憶、自主學(xué)習(xí)等10項(xiàng)高級(jí)能力構(gòu)建評(píng)估能力,并進(jìn)一步深化工業(yè)制造、基礎(chǔ)科學(xué)、金融等重點(diǎn)行業(yè)的場(chǎng)景化評(píng)測(cè)。
為支撐“方升”3.0的實(shí)施,中國(guó)信通院將從以下幾方面系統(tǒng)強(qiáng)化評(píng)測(cè)基礎(chǔ)設(shè)施:
2024年起,中國(guó)信通院以兩個(gè)月為周期開展大模型基準(zhǔn)測(cè)試活動(dòng),目前已累計(jì)完成9輪評(píng)測(cè)。在最新一輪測(cè)試中,共對(duì)141個(gè)大模型和7個(gè)智能體進(jìn)行了系統(tǒng)評(píng)估,覆蓋大語(yǔ)言模型的基礎(chǔ)、推理、代碼能力,多模態(tài)模型的理解、生成能力以及智能體的通用能力。同時(shí)評(píng)測(cè)均采用多維度復(fù)合評(píng)估體系,涵蓋69個(gè)細(xì)分測(cè)試維度,確保評(píng)估結(jié)果的全面性與科學(xué)性。
立即進(jìn)入“豆包AI人工智官網(wǎng)入口”;
立即學(xué)習(xí)“豆包AI人工智能在線問(wèn)答入口”;
基礎(chǔ)能力持續(xù)提升,在學(xué)科、數(shù)學(xué)、指令遵循等方面表現(xiàn)出色,但在幻覺、工具使用等方面仍有提升空間。OpenAI的GPT 5(8月7日發(fā)布)綜合能力領(lǐng)先排名第一,效果優(yōu)于國(guó)內(nèi)阿里巴巴的Qwen3-Max-Preview、月之暗面的Kimi K2,國(guó)內(nèi)外大語(yǔ)言模型在基礎(chǔ)能力上差距較小。推理能力進(jìn)展顯著,在高階數(shù)學(xué)、復(fù)雜學(xué)科任務(wù)場(chǎng)景提升明顯,但在復(fù)雜中文推理場(chǎng)景有待加強(qiáng)。OpenAI的GPT 5在復(fù)雜數(shù)學(xué)、推理能力領(lǐng)先,排名推理榜單首位,xAI的Grok-4緊隨其后;國(guó)內(nèi)表現(xiàn)較好的推理模型是深度求索的DeepSeek-V3.1、阿里巴巴的Qwen3-235B-A22B-Thinking-2507以及百度的ERNIE-X1-Turbo-Latest,但相較國(guó)際領(lǐng)先水平仍存在一定差距,這標(biāo)志著全球大語(yǔ)言模型在推理能力的競(jìng)爭(zhēng)已進(jìn)入白熱化階段(如圖3所示,此處僅展示排名前15的大模型)。
圖像理解方面能力持續(xù)突破,在場(chǎng)景解析和顏色識(shí)別等基礎(chǔ)任務(wù)表現(xiàn)突出,但在需要多步推導(dǎo)的復(fù)雜邏輯推理任務(wù)上性能有待加強(qiáng)。OpenAI的GPT-5整體表現(xiàn)仍居領(lǐng)先地位。國(guó)內(nèi)模型中,騰訊混元與字節(jié)跳動(dòng)豆包在細(xì)粒度對(duì)象識(shí)別與情緒感知任務(wù)中表現(xiàn)優(yōu)異,而在復(fù)雜空間關(guān)系與因果推理的高階認(rèn)知任務(wù)中仍有提升空間。圖像生成方面技術(shù)實(shí)現(xiàn)顯著進(jìn)步,生成結(jié)果在視覺真實(shí)感、細(xì)粒度細(xì)節(jié)及復(fù)雜指令跟隨方面取得系統(tǒng)性進(jìn)展。然而,在生成內(nèi)容的邏輯一致性、交互自然度以及文化表達(dá)方面仍面臨持續(xù)性的挑戰(zhàn)。谷歌的Nano Banana(gemini-2.5-flash-image)小幅領(lǐng)先,國(guó)內(nèi)字節(jié)跳動(dòng)的Seedream 4.0、騰訊的HunyuanImage 2.1、阿里巴巴的Qwen-image位居前列,頭部大模型競(jìng)爭(zhēng)白熱化。視頻生成方面,在時(shí)序一致性建模和動(dòng)態(tài)場(chǎng)景合成等方面取得進(jìn)步,但物理合理性與情感表現(xiàn)力等維度仍是持續(xù)探索的重點(diǎn)。稀宇科技的Hailuo02、谷歌的Veo3、生數(shù)的Vidu Q2內(nèi)測(cè)版排名靠前??傮w來(lái)看,國(guó)內(nèi)多家企業(yè)躋身前列,技術(shù)加速躍遷,頭部格局初顯。
大模型代碼應(yīng)用能力在函數(shù)級(jí)這類單一問(wèn)題方面,表現(xiàn)較為出色,但在真實(shí)項(xiàng)目級(jí)開發(fā)這類復(fù)雜任務(wù)中,仍存在明顯短板。OpenAI的GPT-5在代碼應(yīng)用能力排名首位,月之暗面的Kimi-K2-0905版本排名國(guó)內(nèi)第一,國(guó)內(nèi)模型在游戲開發(fā)、應(yīng)用開發(fā)等項(xiàng)目級(jí)任務(wù)中,其在功能實(shí)現(xiàn)完整度與效果呈現(xiàn)方面,仍與國(guó)際先進(jìn)水平存在一定差距。在大模型代碼能力方面,推理模型能力較基礎(chǔ)模型更具備優(yōu)勢(shì),本輪測(cè)試的Top 5中,有4個(gè)為推理模型,僅有1個(gè)為基礎(chǔ)模型。不同模型間代碼理解能力整體差異不大,代碼生成能力差異較為顯著,大模型的代碼注釋、代碼解釋、代碼生成能力依次減弱。
智能體應(yīng)用能力相比大模型可以完成更復(fù)雜任務(wù),但在細(xì)分任務(wù)上仍不及預(yù)期。綜合表現(xiàn)方面,高度封裝的智能體產(chǎn)品通過(guò)融合基座模型、MCP服務(wù)、智能體沙箱等,可以獲得比GPT-5、o3等單一大模型更好的性能表現(xiàn)。細(xì)分場(chǎng)景表現(xiàn)方面,智能體仍處于起始發(fā)展階段,自主性不斷增強(qiáng),但能力仍有一定提升空間。智能體在網(wǎng)頁(yè)交互和復(fù)雜信息挖掘等任務(wù)上表現(xiàn)相對(duì)較好,主要得益于當(dāng)前網(wǎng)頁(yè)瀏覽工具較為成熟、基座模型推理能力不斷提升。然而,在多模態(tài)理解任務(wù)方面,智能體普遍表現(xiàn)欠佳,暴露出其在視頻內(nèi)容解析、圖表語(yǔ)義理解等關(guān)鍵環(huán)節(jié)的技術(shù)短板,同時(shí)存在工具調(diào)用策略不合理、信息源整合能力不足等問(wèn)題。
下一步,中國(guó)信息通信研究院將持續(xù)加強(qiáng)大模型評(píng)測(cè)技術(shù)研發(fā)與推廣,提升大模型評(píng)測(cè)公信力和權(quán)威性,支撐人工智能前沿創(chuàng)新與新型工業(yè)化發(fā)展。一是聚焦技術(shù)突破,夯實(shí)評(píng)測(cè)底層能力。攻關(guān)自動(dòng)化測(cè)試、缺陷分析及未來(lái)高級(jí)智能評(píng)測(cè)技術(shù),推動(dòng)評(píng)測(cè)向“智能驅(qū)動(dòng)”躍升。二是強(qiáng)化能力建設(shè),拓展多模態(tài)多場(chǎng)景覆蓋。拓展文本、圖像、語(yǔ)音、視頻等多模態(tài)和多應(yīng)用場(chǎng)景,打造一體化自動(dòng)測(cè)試平臺(tái),實(shí)現(xiàn)全棧能力覆蓋。三是深化生態(tài)運(yùn)營(yíng),構(gòu)建閉環(huán)服務(wù)體系。提供測(cè)試分析、選型評(píng)估、閉環(huán)優(yōu)化等專業(yè)服務(wù),推進(jìn)國(guó)際合作與公益測(cè)試,構(gòu)建開放協(xié)同、可持續(xù)的大模型評(píng)測(cè)生態(tài)。
以上就是信通院發(fā)布“方升”3.0 體系及大模型基準(zhǔn)測(cè)試結(jié)果的詳細(xì)內(nèi)容,更多請(qǐng)關(guān)注php中文網(wǎng)其它相關(guān)文章!
每個(gè)人都需要一臺(tái)速度更快、更穩(wěn)定的 PC。隨著時(shí)間的推移,垃圾文件、舊注冊(cè)表數(shù)據(jù)和不必要的后臺(tái)進(jìn)程會(huì)占用資源并降低性能。幸運(yùn)的是,許多工具可以讓 Windows 保持平穩(wěn)運(yùn)行。
微信掃碼
關(guān)注PHP中文網(wǎng)服務(wù)號(hào)
QQ掃碼
加入技術(shù)交流群
Copyright 2014-2025 http://ipnx.cn/ All Rights Reserved | php.cn | 湘ICP備2023035733號(hào)