网易首页 > 网易号 > 正文 申请入驻

“巢燧”大模型基准测试发布国内深度推理大模型评测报告

0
分享至

继DeepSeek-R1开源发布之后,国内多家企业陆续研发和上线了深度推理大模型。“巢燧”大模型基准测试密切追踪国内深度推理大模型最新进展,近期,红星新闻联合天津大学自然语言处理实验室,依托“燧观”大模型智能测试平台,开展“巢燧”大模型基准综合评测第三次评测,对国内几款主流深度推理大模型进行了系统评测,覆盖数学、多步推理、代码三大维度。希望通过系统而全面的推理大模型评测,为中国AI发展提供关键数据,实现AI智善和谐发展。

本次报告涉及的模型包括DeepSeek-R1,Spark X1,Hunyuan-T1,GLM-Z1-Air,QwQ-32B-Preview,ERNIE-X1 Turbo(32K)六个国产深度推理大模型。因近期部分大模型进行了版本更新或API调用问题,本次评测未覆盖所有模型,后期将同步进行下一次全面评测。

采用多维度精选任务开展推理能力测评

此次评测聚焦于多步推理、数学复杂推理、代码推理三大推理维度,对深度推理大模型展开全面评测。

(1)数学复杂推理任务

该评测任务采用高考数学复杂推理数据,评测数据来源于2024年1月至2024年5月的高考数学预测试卷以及模拟试卷,减少了数据污染的影响。该数据集具备充足的题目数量与丰富的内容,评测所使用的4100题覆盖7个难度等级和8种题目类型:基本初等函数与导数推理、三角函数与解三角形推理、平面解析几何推理、数列推理、立体几何与空间向量推理、计数原理推理、统计与概率推理、其他数学推理(涵盖逻辑、集合、不等式、复数)。该数据集一些难度较大的题目答案解析超过2000字符,具备测试模型复杂数学推理的能力。

(2)多步推理任务(C2RBench)

本任务来自中文复杂推理测试基准C2RBench,该基准旨在系统评估大模型在多步、多模态高级推理任务中的实际表现。C²RBench共包含1115道精心设计的中文任务,涵盖八个贴近真实推理需求的领域子集,各子集任务均以模拟真实问题为导向。该基准采用层级难度分级设置,依据推理步骤数量划分为三级任务,平均每个任务涉及8.44个推理步骤,显著高于现有基准在认知复杂度方面的设定。此次评测采用C2RBench两个领域子集,即逻辑多步推理、通用知识多步推理。测试数据集最⼤的特点在于:每一个测试样例都由较长的一系列推理操作组成。按照完成任务所需要的推理步数,该数据集测试样例又可分为三个难度级别:Level1(3-6步推理)、Level2(7-11步推理)、Level3(12步以上推理)。

(3)程序设计代码推理任务(ProBench)

ProBench是一个用于评测大模型程序设计代码推理能力的数据集,测试题目来源于Codeforces、洛谷(Luogu)和牛客网(Nowcoder)三个主流编程竞赛平台。ProBench_v2版本收录了比赛时间在2025年1月1日至2025年5月13日之间的最新竞赛题目。为避免数据污染,所有题目均为该时间段内的新题,题目描述包含中文和英文描述。此次评测采用收集的504道标注有难度等级的题目,涵盖了多种算法类型,包括基础算法、字符串、数学、图论、数据结构、搜索和动态规划等,难度等级划分为简单、中等和困难。大模型在处理简单难度等级测试题时平均需要生成12K词元,而回答中等及困难题目,需要平均生存22K词元,显示出该数据集在推理深度和计算负载方面的挑战性。

国内深度推理大模型整体有显著进步

基于巢燧基准评测推理综合测试评分结果,多款国内深度推理大模型,如DeepSeekR1、讯飞星火X1、腾讯混元T1、智谱Z1,综合分数超过或接近60,反映出国内深度推理大模型在最近几个月取得了显著进展。

从整体测评得分看,DeepSeek整体处于领先状态,讯飞星火X1,本次以少许优势超过了混元T1和智谱Z1,依次为本次测评的第二、三、四名。国内模型之间能力竞争非常激烈。


特别说明,本次评测中,DeepSeek-R1采用2025年5月28日发布版本,Hunyuan-T1采用2025年5月21日发布版本,Spark X1为2025年4月20日发布版本,GLM-Z1-Air为2025年4月15日发布版本, QwQ-32B-Preview为2024年11月28日发布版本,ERNIE-X1 Turbo(32K)为2025年4月25日发布版本。

基于本次测评结果,可以看到以下趋势和结论:

(1)相比去年11月发布的QwQ-32B-Preview,今年发布的大部分深度推理大模型均大幅提升了数学推理能力,最好结果超过70%;排名前四的模型准确率较为接近,说明当前头部深度推理大模型在数学推理能力上处于相近水平,竞争格局极为激烈。

(2)在多步推理任务上,领先模型间差距缩小,竞争激烈,排名靠前的DeepSeek-R1、Spark X1、Hunyuan-T1准确率接近,竞争日益白热化。细微差距可能来源于对特定推理类别的针对性优化,或者推理过程中的错误纠正机制不同。

(3)在多步推理细分任务-逻辑多步推理任务上,国内深度推理大模型表现亮眼。模型在中低难度逻辑推理上的处理能力较强,随着推理难度提升,准确率有所下降,特别是Level3准确率下降较厉害,体现出所需推理步数加长带来的挑战。

(4)相比于逻辑多步推理,多步推理细分任务通用知识多步推理仍面临显著瓶颈,整体准确率低于逻辑推理,且不同模型间差异明显。各深度推理大模型准确率呈现较为明显的阶梯形分布,前三名模型准确率均集中在60%~71%区间,体现头部模型的整体竞争力和技术成熟度。

(5)在程序设计代码推理方面,DeepSeek-R1显著领先其他深度推理大模型,但所有模型的得分均较低,表明在程序设计代码推理任务上仍然有很大的提升空间。

结语

2025年上半年,国内深度推理大模型在多项关键任务中展现出显著进展,整体技术水平稳步提升。在多步逻辑推理任务中,整体准确率大幅提升,且领先模型之间的差距不断缩小;在高考数学复杂推理任务中,头部模型相较去年实现跃进式提升,表现出深度推理能力的显著增强;而在程序设计代码推理这一难度更高的推理任务中,不同模型之间的技术分层更加明显。相信国内深度推理大模型在接下来的时间里,将会进一步快速迭代,期待在下一次的测评中看到国产深度推理模型更加优秀的表现。

红星新闻记者 李伟铭

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
黄粱一梦!贵妃被泰王遣返带着提帮功走了,15日泰国行成皇家虚设

黄粱一梦!贵妃被泰王遣返带着提帮功走了,15日泰国行成皇家虚设

可乐谈情感
2025-11-13 10:00:39
王晶的爆料,没给大S留一丝体面,一坏习惯可能成英年早逝的原因

王晶的爆料,没给大S留一丝体面,一坏习惯可能成英年早逝的原因

东方不败然多多
2025-10-28 07:08:38
赵丽颖和冯绍峰一起送儿子上学,两个人步伐一致,看上去关系很好

赵丽颖和冯绍峰一起送儿子上学,两个人步伐一致,看上去关系很好

老吴教育课堂
2025-11-12 10:10:14
“大客户”租下百万豪车却人间蒸发,贵阳租车公司找到车后一看:天塌了!

“大客户”租下百万豪车却人间蒸发,贵阳租车公司找到车后一看:天塌了!

极目新闻
2025-11-12 15:24:31
“眼科女王”曾琦被传意外怀孕,凭一己之力带动消费,祖院长慌了

“眼科女王”曾琦被传意外怀孕,凭一己之力带动消费,祖院长慌了

李昕言温度空间
2025-11-12 22:52:48
中国有权在日本驻军,高市早苗闯了大祸,日方意识到大事不妙!

中国有权在日本驻军,高市早苗闯了大祸,日方意识到大事不妙!

荷兰豆爱健康
2025-11-12 12:42:25
泰王破天荒访华!佩通坦惊天逆转背后的东南亚地缘棋局

泰王破天荒访华!佩通坦惊天逆转背后的东南亚地缘棋局

吃货的分享
2025-11-13 00:04:08
夏洛特公主新照:10岁身高1米6,腿形超美,温莎优越基因都归她了

夏洛特公主新照:10岁身高1米6,腿形超美,温莎优越基因都归她了

夜深爱杂谈
2025-11-12 23:25:16
去了一次上海和平饭店,我才明白什么叫“贫穷限制了想象”!

去了一次上海和平饭店,我才明白什么叫“贫穷限制了想象”!

诗意世界
2025-11-05 22:33:13
毛主席不进故宫不回延安,这是为什么?周总理一语道破原因

毛主席不进故宫不回延安,这是为什么?周总理一语道破原因

品茗谈史论世事
2025-11-13 08:16:24
高层聚餐唯独不叫我,我默默定了他们隔壁包间,请来几个最大客户

高层聚餐唯独不叫我,我默默定了他们隔壁包间,请来几个最大客户

牛魔王与芭蕉扇
2025-11-08 10:00:07
全运会最新金牌榜:山东24金霸榜,广东20金,江西破荒

全运会最新金牌榜:山东24金霸榜,广东20金,江西破荒

章蠞户外
2025-11-12 22:38:42
原来升级矛盾就是解决的终极手段!网友分享绝了,以牙还牙最管用

原来升级矛盾就是解决的终极手段!网友分享绝了,以牙还牙最管用

夜深爱杂谈
2025-11-05 07:56:38
65岁图灵奖得主终于不用向28岁辍学生汇报了,小扎是怎么把他气走的

65岁图灵奖得主终于不用向28岁辍学生汇报了,小扎是怎么把他气走的

AppSo
2025-11-12 14:10:17
俄罗斯将首次发行人民币债券,每张面值为10,000元人民币

俄罗斯将首次发行人民币债券,每张面值为10,000元人民币

桂系007
2025-11-12 22:12:59
韩媒称中国游客在韩国景福宫石墙下大小便…

韩媒称中国游客在韩国景福宫石墙下大小便…

奋斗在韩国
2025-11-12 14:22:03
亚历山大:库里的伟大不在于只进一个三分,我也不想只夺一冠

亚历山大:库里的伟大不在于只进一个三分,我也不想只夺一冠

懂球帝
2025-11-13 10:39:07
厦门又一培训机构跑路,一百多位家长退费难

厦门又一培训机构跑路,一百多位家长退费难

Yes厦门
2025-11-12 16:51:24
西贝“闭店潮”大反转,贾国龙彻底破防了!

西贝“闭店潮”大反转,贾国龙彻底破防了!

广告创意
2025-11-12 17:01:43
新老板怕了!要求得到浓眉医疗数据 担心他仓促复出重蹈哈利覆辙

新老板怕了!要求得到浓眉医疗数据 担心他仓促复出重蹈哈利覆辙

罗说NBA
2025-11-13 05:55:50
2025-11-13 14:55:00
红星新闻 incentive-icons
红星新闻
成都传媒集团旗下的新媒体平台
193619文章数 1337466关注度
往期回顾 全部

科技要闻

深夜重磅!GPT-5.1发布,奥特曼大谈情商

头条要闻

特朗普采访中肯定中国留学生重要性 遭MAGA炮轰"背叛"

头条要闻

特朗普采访中肯定中国留学生重要性 遭MAGA炮轰"背叛"

体育要闻

保罗,看看你对马刺干的好事!

娱乐要闻

一场演唱会,戳穿岳云鹏圈中地位

财经要闻

源峰25亿赌局!汉堡王中国"卖身"求生

汽车要闻

具备高阶辅助驾驶功能 欧拉5预售价10.98万起

态度原创

游戏
房产
健康
亲子
军事航空

《剑星》体模尹雪花入驻B站 将于杭州举办粉丝见面会

房产要闻

海垦城建·鹿城壹号品牌发布会暨美学示范区璀璨启幕

血液科专家揭秘白血病七大误区

亲子要闻

带娃辛苦啦!家务+午饭我承包,等你俩玩够吃热乎的

军事要闻

美国在委内瑞拉海岸动用无人机和F-35

无障碍浏览 进入关怀版