“巢燧”大模型基准测试发布国内深度推理大模型评测报告|逻辑推理

“巢燧”大模型基准测试发布国内深度推理大模型评测报告

2025-06-27 20:40:14　来源: 红星新闻

四川举报

分享至

继DeepSeek-R1开源发布之后，国内多家企业陆续研发和上线了深度推理大模型。“巢燧”大模型基准测试密切追踪国内深度推理大模型最新进展，近期，红星新闻联合天津大学自然语言处理实验室，依托“燧观”大模型智能测试平台，开展“巢燧”大模型基准综合评测第三次评测，对国内几款主流深度推理大模型进行了系统评测，覆盖数学、多步推理、代码三大维度。希望通过系统而全面的推理大模型评测，为中国AI发展提供关键数据，实现AI智善和谐发展。

本次报告涉及的模型包括DeepSeek-R1，Spark X1，Hunyuan-T1，GLM-Z1-Air，QwQ-32B-Preview，ERNIE-X1 Turbo（32K）六个国产深度推理大模型。因近期部分大模型进行了版本更新或API调用问题，本次评测未覆盖所有模型，后期将同步进行下一次全面评测。

采用多维度精选任务开展推理能力测评

此次评测聚焦于多步推理、数学复杂推理、代码推理三大推理维度，对深度推理大模型展开全面评测。

（1）数学复杂推理任务

该评测任务采用高考数学复杂推理数据，评测数据来源于2024年1月至2024年5月的高考数学预测试卷以及模拟试卷，减少了数据污染的影响。该数据集具备充足的题目数量与丰富的内容，评测所使用的4100题覆盖7个难度等级和8种题目类型：基本初等函数与导数推理、三角函数与解三角形推理、平面解析几何推理、数列推理、立体几何与空间向量推理、计数原理推理、统计与概率推理、其他数学推理（涵盖逻辑、集合、不等式、复数）。该数据集一些难度较大的题目答案解析超过2000字符，具备测试模型复杂数学推理的能力。

（2）多步推理任务（C2RBench）

本任务来自中文复杂推理测试基准C2RBench，该基准旨在系统评估大模型在多步、多模态高级推理任务中的实际表现。C²RBench共包含1115道精心设计的中文任务，涵盖八个贴近真实推理需求的领域子集，各子集任务均以模拟真实问题为导向。该基准采用层级难度分级设置，依据推理步骤数量划分为三级任务，平均每个任务涉及8.44个推理步骤，显著高于现有基准在认知复杂度方面的设定。此次评测采用C2RBench两个领域子集，即逻辑多步推理、通用知识多步推理。测试数据集最⼤的特点在于：每一个测试样例都由较长的一系列推理操作组成。按照完成任务所需要的推理步数，该数据集测试样例又可分为三个难度级别：Level1（3-6步推理）、Level2（7-11步推理）、Level3（12步以上推理）。

（3）程序设计代码推理任务（ProBench）

ProBench是一个用于评测大模型程序设计代码推理能力的数据集，测试题目来源于Codeforces、洛谷（Luogu）和牛客网（Nowcoder）三个主流编程竞赛平台。ProBench_v2版本收录了比赛时间在2025年1月1日至2025年5月13日之间的最新竞赛题目。为避免数据污染，所有题目均为该时间段内的新题，题目描述包含中文和英文描述。此次评测采用收集的504道标注有难度等级的题目，涵盖了多种算法类型，包括基础算法、字符串、数学、图论、数据结构、搜索和动态规划等，难度等级划分为简单、中等和困难。大模型在处理简单难度等级测试题时平均需要生成12K词元，而回答中等及困难题目，需要平均生存22K词元，显示出该数据集在推理深度和计算负载方面的挑战性。

国内深度推理大模型整体有显著进步

基于巢燧基准评测推理综合测试评分结果，多款国内深度推理大模型，如DeepSeekR1、讯飞星火X1、腾讯混元T1、智谱Z1，综合分数超过或接近60，反映出国内深度推理大模型在最近几个月取得了显著进展。

从整体测评得分看，DeepSeek整体处于领先状态，讯飞星火X1，本次以少许优势超过了混元T1和智谱Z1，依次为本次测评的第二、三、四名。国内模型之间能力竞争非常激烈。

特别说明，本次评测中，DeepSeek-R1采用2025年5月28日发布版本，Hunyuan-T1采用2025年5月21日发布版本，Spark X1为2025年4月20日发布版本，GLM-Z1-Air为2025年4月15日发布版本， QwQ-32B-Preview为2024年11月28日发布版本，ERNIE-X1 Turbo（32K）为2025年4月25日发布版本。

基于本次测评结果，可以看到以下趋势和结论：

（1）相比去年11月发布的QwQ-32B-Preview，今年发布的大部分深度推理大模型均大幅提升了数学推理能力，最好结果超过70%；排名前四的模型准确率较为接近，说明当前头部深度推理大模型在数学推理能力上处于相近水平，竞争格局极为激烈。

（2）在多步推理任务上，领先模型间差距缩小，竞争激烈，排名靠前的DeepSeek-R1、Spark X1、Hunyuan-T1准确率接近，竞争日益白热化。细微差距可能来源于对特定推理类别的针对性优化，或者推理过程中的错误纠正机制不同。

（3）在多步推理细分任务-逻辑多步推理任务上，国内深度推理大模型表现亮眼。模型在中低难度逻辑推理上的处理能力较强，随着推理难度提升，准确率有所下降，特别是Level3准确率下降较厉害，体现出所需推理步数加长带来的挑战。

（4）相比于逻辑多步推理，多步推理细分任务通用知识多步推理仍面临显著瓶颈，整体准确率低于逻辑推理，且不同模型间差异明显。各深度推理大模型准确率呈现较为明显的阶梯形分布，前三名模型准确率均集中在60%～71%区间，体现头部模型的整体竞争力和技术成熟度。

（5）在程序设计代码推理方面，DeepSeek-R1显著领先其他深度推理大模型，但所有模型的得分均较低，表明在程序设计代码推理任务上仍然有很大的提升空间。

结语

2025年上半年，国内深度推理大模型在多项关键任务中展现出显著进展，整体技术水平稳步提升。在多步逻辑推理任务中，整体准确率大幅提升，且领先模型之间的差距不断缩小；在高考数学复杂推理任务中，头部模型相较去年实现跃进式提升，表现出深度推理能力的显著增强；而在程序设计代码推理这一难度更高的推理任务中，不同模型之间的技术分层更加明显。相信国内深度推理大模型在接下来的时间里，将会进一步快速迭代，期待在下一次的测评中看到国产深度推理模型更加优秀的表现。

红星新闻记者李伟铭

特别声明：以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布，本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.