网易首页 > 网易号 > 正文 申请入驻

DeepSeek-R1超级外挂!“人类最后的考试”首次突破30分

0
分享至

西风 发自 凹非寺
量子位 | 公众号 QbitAI

“人类最后的考试”首次突破30分,还是咱国内团队干的!

该测试集是出了名的超难,刚推出时无模型得分能超过10分。

直到最近,最高分也不过26.9,由Kimi-Research和Gemini Deep Research并列取得。

现在,上海交大联合深势科技团队突然发布了一项新研究,在“人类最后的考试”(HLE,Humanity’s Last Exam)上一举拿下32.1分,创下新纪录。

在这项研究中,团队推出工具增强推理智能体X-Master多智能体工作流系统X-Masters。

划重点:还直接把这套方案给开源了。

网友们纷纷感叹现在AI竞赛太激烈,一天一个样。

另外值得一提的是,这项研究使用了DeepSeek-R1-0528作为驱动智能体的推理模型,由此也有网友表示:

R1在函数调用上表现仍欠佳,而且在这项研究里甚至没有针对这一点进行微调。但即便如此,只要给它搭配合适的框架,它在HLE这个难度很高的测试中就能拿到32%的成绩。
虽然大家可能会习惯性地称R1为“最佳基础模型”,但我觉得这其实是给V4打下了基础。我敢肯定,V4一出来就会自带智能体功能。

怎么做到的?

具体来看X-Master和X-Masters,这是该团队SciMaster系列研究的第一部分,旨在开发通用科学AI智能体。

X-Master是一个由开源模型(如DeepSeek-R1)驱动的工具增强型推理智能体,其核心设计理念是模拟人类研究者的动态问题解决过程,在内部推理和外部工具使用之间流畅切换。

这一过程形成了一个共生循环:

工具输出为智能体的推理提供关键反馈,帮助其完善推理;而更清晰的推理又能引导智能体更智能、更高效地使用工具。

实现这一过程的核心机制是将代码概念化为一种交互语言

当X-Master遇到无法通过内部推理解决的问题时,它会将精确的行动计划编写为代码块。这个“计划”随后会被执行,与任何所需资源进行接口连接,这些资源既包括NumPy和SciPy的强大数值计算能力,也包括团队专门设计的用于实时网络搜索和数据提取的工具包。

执行结果会被无缝吸收回智能体的上下文环境中,丰富其知识储备,并为后续推理提供依据。

具体而言,在智能体的思考过程中,即在token“”和“”之间,智能体既可以生成非代码文本用于推理,也可以在特殊token“”之间生成代码以与环境进行交互。

”和“

一旦通过字符串匹配检测到这种模式,其中的代码就会被提取出来,并在一个沙盒环境中执行,在该环境中可以访问各种Python库和工具。

执行结果随后会被附加到模型的上下文中,并由特殊token“”和“”包裹。

之后,推理模型会继续其思考过程,解读执行结果并进一步推理,直到发起下一次交互或思考结束。

由于当前可用的强推理模型(如DeepSeek-R1)本质上是非智能体的,并且往往在遵循指令方面能力有限,仅依靠传统的提示工程不足以可靠地引导这些模型展现出预期的智能体行为。

因此,团队还引入了一个简单而有效的机制:初始推理引导

该机制不会让推理模型在收到用户查询后立即开始不受约束的思考过程,而是在模型的初始“”token之后直接嵌入一系列引导文本。

这些引导文本特意从推理智能体自身的角度出发来设计,采用第一人称表述,例如“我可以通过访问外部环境有效回答这个查询”“每当我确定需要与外部工具交互时,我会生成包裹在token之间的Python代码”。

团队表示,通过将这些精心设计的自我陈述拼接至模型的上下文中,可有效地引导模型“相信”自身具备增强的能力。

即便没有针对智能体行为进行明确的微调,该模型也能够自主生成和执行代码,与环境交互,并最终发挥出强大的智能体功能。

接下来,为充分发挥X-Master的潜力,团队设计X-Masters,这是一种分散-堆叠式智能体工作流,通过编排多智能体认知过程,系统地增强推理的广度和深度。

在这个过程中,X-Master的不同实例承担着多种专门角色。

“分散”阶段旨在拓宽思路,多个求解器(Solver)智能体并行工作,生成多样化的解决方案,同时批评者(Critic)智能体对这些方案可能存在的缺陷进行修正。

接着“堆叠”阶段用于深化思考重写器(Rewriter)智能体将所有先前的输出综合成更优的解决方案,最后由选择器(Selector)智能体裁定出最佳答案。

团队表示,其分散-堆叠架构本质上是一种结构化探索和利用策略,与强化学习(RL)中的“Rollouts”概念有很强的相似性。

“分散”阶段类似于强化学习中Rollouts的探索原理,即模拟多条未来轨迹以评估不同行动的潜力。后续的“堆叠”阶段类似于强化学习中Rollouts之后的聚合和“利用”步骤。

首个在HLE上得分超过30%的系统

实验部分,团队使用DeepSeek-R1-0528作为驱动智能体的推理模型,最大完成token数设置为64k,temperature为0.6。

测试重点关注HLE的纯文本子集,包含2518个样本。评估运行工作流三次并报告平均分数,同时按照官方设置,使用o3-mini作为评判模型。

基线模型在HLE上的结果均来自现有的排行榜。

主要结果显示,X-Masters取得了32.1%的最高分,超过了所有现有智能体和模型,这也是首个在HLE上得分超过30%的系统

跨不同类别的性能显示,与DeepSeek-R1-0528相比,X-Masters在所有类别中都显示出显著改善:

消融研究结果揭示了智能体工作流中的渐进收益:

工具增强推理(求解器)使基线准确率提高了3.4%,迭代优化(批评者和重写器)又增加了 9.5%,最终选择(选择器)则实现了32.1%的纪录成绩。

另外,团队还将X-Masters与生物学领域科学智能体进行对比。

近期研究成果,如Biomni和STELLA,通过利用配备大量专业工具的大语言模型智能体,在应对生物学难题方面取得了一定进展。

而X-Masters,在HLE的生物学/医学类别中,表现优于现有系统,Biomni的正确率是17.3%,STELLA大概 26%,而 X-Masters达到了27.6%。

并且Biomni和STELLA是从生物学/医学类题目里挑了一部分来测试的,而X-Masters是考了这一类里所有222道纯文字题,说明它在复杂生物医学问题上的能力确实突出。

在一个叫TRQA-lit(choice)的生物学专门测试中,X-Masters也取得了目前最好的成绩。这个测试里有172道多选题,都是生物学研究里的复杂任务,比如找治疗靶点、研究生物医学机制等

独立的X-Master达到了62.1%的准确率,借助智能体工作流,X-Masters取得了67.4%的SOTA成绩,体现了分散探索和堆叠选择的有效性。

与整合了500多种专家工具的多智能体系统 OriGene相比,X-Master仅使用两种网络工具(网页搜索和网页解析),却获得了更高的准确率,进一步印证了X-Master工具增强推理过程的高效性,即通过广泛探索和堆叠选择,它能够有效解决复杂的生物学任务。

“人类最后的考试”是什么?

“人类最后的考试”由AI安全中心和Scale AI发起,今年年初发布。刚发布时,包括o1在内,没有一个模型得分超过10%,被称作是史上最难大模型测试集。

题目来自500多家机构的1000多名学者,涉及机构包括高校、研究所和企业,还有来自医疗机构的学者以及一些独立研究者等。OpenAI、Anthropic、谷歌DeepMind以及微软研究院都包括在其中。

团队收集到的题目需要经历大模型和人工的双重审查。不仅要达到研究生难度,而且还要确保不能被检索到。当然题目还应当有明确的答案和评判方式,证明等开放式问题不会入选。

最终入围的题目有3000多道。

入选的问题涵盖了数理化、生物医药、工程和社会科学等多种学科,按细分学科来算则多达100余个。按大类来分,可分为八大类,其中占比最多的是数学(42%),然后是物理和生物医药(均为11%)。

其中有些题目,还会考察模型的视觉能力,比如解读这种上古文字(翻译由GPT-4o生成)。

有些题目还需要结合视觉信息和文本共同理解,比如在化学,特别是有机化学当中,需要用图来表示相关物质的结构。

数学题计算机科学的题目,对推理的要求很高,难度be like:

足以见得,X-Masters拿下32.1分实属不易,而这项突破性成果还是出自我们国内团队之手。

共同一作Jingyi Chai、Shuo Tang、Rui Ye、Yuwen Du全部来自上海交通大学人工智能学院,上海交大陈思衡副教授指导。

深势科技方面,创始人兼首席科学家张林峰亲自署名。

论文链接:https://arxiv.org/abs/2507.05241
GitHub链接:https://github.com/sjtu-sai-agents/X-Master
参考链接:https://x.com/gm8xx8/status/1942486326726611421

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
大S雕像正式完工!具俊晔巧妙设计让人泪目,一举动暴露真实感情

大S雕像正式完工!具俊晔巧妙设计让人泪目,一举动暴露真实感情

林雁飞
2026-01-31 23:38:43
姚振华实名举报江苏官员,再次证明了一件事

姚振华实名举报江苏官员,再次证明了一件事

作家加野
2026-02-01 10:56:14
“戏混子”没走,比资本家丑孩子更可怕的是“星二代”开始世袭了

“戏混子”没走,比资本家丑孩子更可怕的是“星二代”开始世袭了

流史岁月
2026-01-26 10:58:30
英超综述:阿森纳4-0暂7分领跑 切尔西输2追3+绝杀 利物浦6轮首胜

英超综述:阿森纳4-0暂7分领跑 切尔西输2追3+绝杀 利物浦6轮首胜

我爱英超
2026-02-01 06:48:03
全球唯一一只不属于中国的熊猫,叫欣欣,吃不到竹子吃的是仙人掌

全球唯一一只不属于中国的熊猫,叫欣欣,吃不到竹子吃的是仙人掌

西楼知趣杂谈
2026-01-31 13:18:43
刘强东上千亿身家背后,儿子却是他一生的痛,感谢章泽天视如己出

刘强东上千亿身家背后,儿子却是他一生的痛,感谢章泽天视如己出

以茶带书
2026-01-30 17:15:28
泸州白骨案侦破内幕,全靠两个关键人物:一个说漏嘴,一个记性好

泸州白骨案侦破内幕,全靠两个关键人物:一个说漏嘴,一个记性好

社会日日鲜
2026-01-23 08:44:02
爱泼斯坦恶魔岛再曝350万页猛料!盖茨染病传前妻、马斯克狂欢?

爱泼斯坦恶魔岛再曝350万页猛料!盖茨染病传前妻、马斯克狂欢?

阿芒娱乐说
2026-01-31 23:18:19
大S一家没说谎,主动放弃遗产,面相全变的具俊晔,证实她们的话

大S一家没说谎,主动放弃遗产,面相全变的具俊晔,证实她们的话

银河史记
2026-01-31 16:06:46
A股:刚刚,政治局会议召开,释放一信号,下周一将迎来新的行情

A股:刚刚,政治局会议召开,释放一信号,下周一将迎来新的行情

云鹏叙事
2026-02-01 00:00:07
郑爽头发都白了!抱孩子画面首次曝光,一家人和张恒当街吵架

郑爽头发都白了!抱孩子画面首次曝光,一家人和张恒当街吵架

萌神木木
2026-01-31 18:23:54
大量变压器工厂已经处于满产的状态 其中部分面向数据中心的业务订单已排到2027年

大量变压器工厂已经处于满产的状态 其中部分面向数据中心的业务订单已排到2027年

财联社
2026-01-31 19:20:12
金晨“肇事逃逸”危机,第一波受害者出现了!

金晨“肇事逃逸”危机,第一波受害者出现了!

李东阳朋友圈
2026-01-30 14:10:20
她是正国级领导的女儿,投行界的拔尖人物,敢闯敢拼让人打心底佩服

她是正国级领导的女儿,投行界的拔尖人物,敢闯敢拼让人打心底佩服

老杉说历史
2026-01-29 22:51:13
今年腊月二十九除夕,四类人要穿红,3种人不要去拜年,有你吗?

今年腊月二十九除夕,四类人要穿红,3种人不要去拜年,有你吗?

阿龙美食记
2026-01-29 11:03:56
官方:大型活动的治安缓冲区从15%调降到全国统一的10%

官方:大型活动的治安缓冲区从15%调降到全国统一的10%

懂球帝
2026-01-31 11:53:20
欧洲快马加鞭减少乌对美情报依赖,华人对乌捐款名列全球第14位

欧洲快马加鞭减少乌对美情报依赖,华人对乌捐款名列全球第14位

史政先锋
2026-01-31 20:52:08
2月4日立春,今年立春不一般,5个生肖要躲春,别忘:吃3样忌3事

2月4日立春,今年立春不一般,5个生肖要躲春,别忘:吃3样忌3事

小茉莉美食记
2026-01-30 07:27:46
中国男篮拒绝输球!全力击败日本队,赵睿挑大梁,央视直播

中国男篮拒绝输球!全力击败日本队,赵睿挑大梁,央视直播

体坛瞎白话
2026-02-01 07:48:13
皇马认真考虑邀请穆帅,放权能吸引穆帅,曼联球星有望转会皇马

皇马认真考虑邀请穆帅,放权能吸引穆帅,曼联球星有望转会皇马

福酱的小时光
2026-02-01 10:51:05
2026-02-01 14:16:49
量子位 incentive-icons
量子位
追踪人工智能动态
12092文章数 176369关注度
往期回顾 全部

科技要闻

腾讯元宝宣布:10亿现金红包,今日开抢

头条要闻

媒体:宝可梦十年间三次踩线 可不是简单的"工作失误"

头条要闻

媒体:宝可梦十年间三次踩线 可不是简单的"工作失误"

体育要闻

锁喉吃红牌+扇耳光 英超15人打群架

娱乐要闻

马年春晚第三次联排,多位明星现身

财经要闻

黄仁勋台北"夜宴":汇聚近40位台企高管

汽车要闻

新款宾利欧陆GT S/GTC S官图发布 V8混动加持

态度原创

家居
本地
房产
公开课
军事航空

家居要闻

蓝调空舍 自由与个性

本地新闻

云游中国|拨开云雾,巫山每帧都是航拍大片

房产要闻

藏不住的小城大事,海澄新城执掌自贸港风口,进阶兑现美好生活新篇

公开课

李玫瑾:为什么性格比能力更重要?

军事要闻

伊朗民众:伊朗不会屈服于美国霸权

无障碍浏览 进入关怀版