网易首页 > 网易号 > 正文 申请入驻

DeepSeek-R1超级外挂!“人类最后的考试”首次突破30分

0
分享至

西风 发自 凹非寺
量子位 | 公众号 QbitAI

“人类最后的考试”首次突破30分,还是咱国内团队干的!

该测试集是出了名的超难,刚推出时无模型得分能超过10分。

直到最近,最高分也不过26.9,由Kimi-Research和Gemini Deep Research并列取得。

现在,上海交大联合深势科技团队突然发布了一项新研究,在“人类最后的考试”(HLE,Humanity’s Last Exam)上一举拿下32.1分,创下新纪录。

在这项研究中,团队推出工具增强推理智能体X-Master多智能体工作流系统X-Masters。

划重点:还直接把这套方案给开源了。

网友们纷纷感叹现在AI竞赛太激烈,一天一个样。

另外值得一提的是,这项研究使用了DeepSeek-R1-0528作为驱动智能体的推理模型,由此也有网友表示:

R1在函数调用上表现仍欠佳,而且在这项研究里甚至没有针对这一点进行微调。但即便如此,只要给它搭配合适的框架,它在HLE这个难度很高的测试中就能拿到32%的成绩。
虽然大家可能会习惯性地称R1为“最佳基础模型”,但我觉得这其实是给V4打下了基础。我敢肯定,V4一出来就会自带智能体功能。

怎么做到的?

具体来看X-Master和X-Masters,这是该团队SciMaster系列研究的第一部分,旨在开发通用科学AI智能体。

X-Master是一个由开源模型(如DeepSeek-R1)驱动的工具增强型推理智能体,其核心设计理念是模拟人类研究者的动态问题解决过程,在内部推理和外部工具使用之间流畅切换。

这一过程形成了一个共生循环:

工具输出为智能体的推理提供关键反馈,帮助其完善推理;而更清晰的推理又能引导智能体更智能、更高效地使用工具。

实现这一过程的核心机制是将代码概念化为一种交互语言

当X-Master遇到无法通过内部推理解决的问题时,它会将精确的行动计划编写为代码块。这个“计划”随后会被执行,与任何所需资源进行接口连接,这些资源既包括NumPy和SciPy的强大数值计算能力,也包括团队专门设计的用于实时网络搜索和数据提取的工具包。

执行结果会被无缝吸收回智能体的上下文环境中,丰富其知识储备,并为后续推理提供依据。

具体而言,在智能体的思考过程中,即在token“”和“”之间,智能体既可以生成非代码文本用于推理,也可以在特殊token“”之间生成代码以与环境进行交互。

”和“

一旦通过字符串匹配检测到这种模式,其中的代码就会被提取出来,并在一个沙盒环境中执行,在该环境中可以访问各种Python库和工具。

执行结果随后会被附加到模型的上下文中,并由特殊token“”和“”包裹。

之后,推理模型会继续其思考过程,解读执行结果并进一步推理,直到发起下一次交互或思考结束。

由于当前可用的强推理模型(如DeepSeek-R1)本质上是非智能体的,并且往往在遵循指令方面能力有限,仅依靠传统的提示工程不足以可靠地引导这些模型展现出预期的智能体行为。

因此,团队还引入了一个简单而有效的机制:初始推理引导

该机制不会让推理模型在收到用户查询后立即开始不受约束的思考过程,而是在模型的初始“”token之后直接嵌入一系列引导文本。

这些引导文本特意从推理智能体自身的角度出发来设计,采用第一人称表述,例如“我可以通过访问外部环境有效回答这个查询”“每当我确定需要与外部工具交互时,我会生成包裹在token之间的Python代码”。

团队表示,通过将这些精心设计的自我陈述拼接至模型的上下文中,可有效地引导模型“相信”自身具备增强的能力。

即便没有针对智能体行为进行明确的微调,该模型也能够自主生成和执行代码,与环境交互,并最终发挥出强大的智能体功能。

接下来,为充分发挥X-Master的潜力,团队设计X-Masters,这是一种分散-堆叠式智能体工作流,通过编排多智能体认知过程,系统地增强推理的广度和深度。

在这个过程中,X-Master的不同实例承担着多种专门角色。

“分散”阶段旨在拓宽思路,多个求解器(Solver)智能体并行工作,生成多样化的解决方案,同时批评者(Critic)智能体对这些方案可能存在的缺陷进行修正。

接着“堆叠”阶段用于深化思考重写器(Rewriter)智能体将所有先前的输出综合成更优的解决方案,最后由选择器(Selector)智能体裁定出最佳答案。

团队表示,其分散-堆叠架构本质上是一种结构化探索和利用策略,与强化学习(RL)中的“Rollouts”概念有很强的相似性。

“分散”阶段类似于强化学习中Rollouts的探索原理,即模拟多条未来轨迹以评估不同行动的潜力。后续的“堆叠”阶段类似于强化学习中Rollouts之后的聚合和“利用”步骤。

首个在HLE上得分超过30%的系统

实验部分,团队使用DeepSeek-R1-0528作为驱动智能体的推理模型,最大完成token数设置为64k,temperature为0.6。

测试重点关注HLE的纯文本子集,包含2518个样本。评估运行工作流三次并报告平均分数,同时按照官方设置,使用o3-mini作为评判模型。

基线模型在HLE上的结果均来自现有的排行榜。

主要结果显示,X-Masters取得了32.1%的最高分,超过了所有现有智能体和模型,这也是首个在HLE上得分超过30%的系统

跨不同类别的性能显示,与DeepSeek-R1-0528相比,X-Masters在所有类别中都显示出显著改善:

消融研究结果揭示了智能体工作流中的渐进收益:

工具增强推理(求解器)使基线准确率提高了3.4%,迭代优化(批评者和重写器)又增加了 9.5%,最终选择(选择器)则实现了32.1%的纪录成绩。

另外,团队还将X-Masters与生物学领域科学智能体进行对比。

近期研究成果,如Biomni和STELLA,通过利用配备大量专业工具的大语言模型智能体,在应对生物学难题方面取得了一定进展。

而X-Masters,在HLE的生物学/医学类别中,表现优于现有系统,Biomni的正确率是17.3%,STELLA大概 26%,而 X-Masters达到了27.6%。

并且Biomni和STELLA是从生物学/医学类题目里挑了一部分来测试的,而X-Masters是考了这一类里所有222道纯文字题,说明它在复杂生物医学问题上的能力确实突出。

在一个叫TRQA-lit(choice)的生物学专门测试中,X-Masters也取得了目前最好的成绩。这个测试里有172道多选题,都是生物学研究里的复杂任务,比如找治疗靶点、研究生物医学机制等

独立的X-Master达到了62.1%的准确率,借助智能体工作流,X-Masters取得了67.4%的SOTA成绩,体现了分散探索和堆叠选择的有效性。

与整合了500多种专家工具的多智能体系统 OriGene相比,X-Master仅使用两种网络工具(网页搜索和网页解析),却获得了更高的准确率,进一步印证了X-Master工具增强推理过程的高效性,即通过广泛探索和堆叠选择,它能够有效解决复杂的生物学任务。

“人类最后的考试”是什么?

“人类最后的考试”由AI安全中心和Scale AI发起,今年年初发布。刚发布时,包括o1在内,没有一个模型得分超过10%,被称作是史上最难大模型测试集。

题目来自500多家机构的1000多名学者,涉及机构包括高校、研究所和企业,还有来自医疗机构的学者以及一些独立研究者等。OpenAI、Anthropic、谷歌DeepMind以及微软研究院都包括在其中。

团队收集到的题目需要经历大模型和人工的双重审查。不仅要达到研究生难度,而且还要确保不能被检索到。当然题目还应当有明确的答案和评判方式,证明等开放式问题不会入选。

最终入围的题目有3000多道。

入选的问题涵盖了数理化、生物医药、工程和社会科学等多种学科,按细分学科来算则多达100余个。按大类来分,可分为八大类,其中占比最多的是数学(42%),然后是物理和生物医药(均为11%)。

其中有些题目,还会考察模型的视觉能力,比如解读这种上古文字(翻译由GPT-4o生成)。

有些题目还需要结合视觉信息和文本共同理解,比如在化学,特别是有机化学当中,需要用图来表示相关物质的结构。

数学题计算机科学的题目,对推理的要求很高,难度be like:

足以见得,X-Masters拿下32.1分实属不易,而这项突破性成果还是出自我们国内团队之手。

共同一作Jingyi Chai、Shuo Tang、Rui Ye、Yuwen Du全部来自上海交通大学人工智能学院,上海交大陈思衡副教授指导。

深势科技方面,创始人兼首席科学家张林峰亲自署名。

论文链接:https://arxiv.org/abs/2507.05241
GitHub链接:https://github.com/sjtu-sai-agents/X-Master
参考链接:https://x.com/gm8xx8/status/1942486326726611421

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
中方一锤定音给特朗普最高礼遇,普京通告全球:中俄关系独一无二

中方一锤定音给特朗普最高礼遇,普京通告全球:中俄关系独一无二

快看张同学
2026-05-13 09:52:25
东风导弹泄密案!间谍郭万钧一家三口,全部被处以死刑

东风导弹泄密案!间谍郭万钧一家三口,全部被处以死刑

番外行
2026-03-31 08:28:28
国乒伦敦夺冠不到24小时,荒唐一幕出现,樊振东被拉下水嘲讽

国乒伦敦夺冠不到24小时,荒唐一幕出现,樊振东被拉下水嘲讽

寻墨阁
2026-05-13 14:54:08
“已举报你哈”,小心眼女大学生为难HR,倒贴了对方200块奖金

“已举报你哈”,小心眼女大学生为难HR,倒贴了对方200块奖金

泽泽先生
2026-05-13 12:26:05
世界上最可怜的国家:全国仅两辆公交、吃青菜算土豪,面临被淹没

世界上最可怜的国家:全国仅两辆公交、吃青菜算土豪,面临被淹没

老谢谈史
2026-04-10 13:40:50
震惊!理查德·费曼IQ只有125,却被物理学家誉为20世纪最伟大头脑

震惊!理查德·费曼IQ只有125,却被物理学家誉为20世纪最伟大头脑

知识圈
2026-05-12 20:33:37
18比0!雷霆本赛季面对加州球队全胜:8胜湖人,4胜勇士

18比0!雷霆本赛季面对加州球队全胜:8胜湖人,4胜勇士

懂球帝
2026-05-13 15:00:09
研究表明:男性嫖娼率6.4%,女性出轨率15%,且越有钱越开放!

研究表明:男性嫖娼率6.4%,女性出轨率15%,且越有钱越开放!

黯泉
2026-04-01 17:28:39
女子线上买榴莲破防,5房果开出3房几乎没肉的“榴莲糖”,联系客服后退款50%

女子线上买榴莲破防,5房果开出3房几乎没肉的“榴莲糖”,联系客服后退款50%

大象新闻
2026-05-12 22:46:09
日本考察团来华,中国:不接待,不见面!

日本考察团来华,中国:不接待,不见面!

达文西看世界
2026-05-13 10:47:32
林彪失事后,远在台湾的蒋介石竟大哭不止,直言:雨农误我!

林彪失事后,远在台湾的蒋介石竟大哭不止,直言:雨农误我!

研史
2026-05-03 01:46:57
内塔尼亚胡称“不喜欢中国向伊朗导弹制造提供的支持” 中方回应

内塔尼亚胡称“不喜欢中国向伊朗导弹制造提供的支持” 中方回应

财联社
2026-05-12 15:27:18
已成“绿营第一枪杆子”,柯志恩要自求多福,郑丽文或对其下重手

已成“绿营第一枪杆子”,柯志恩要自求多福,郑丽文或对其下重手

共工之锚
2026-05-13 12:10:26
央视主持人朱迅:生命终将结束,为何不勇敢面对生命的终点呢?

央视主持人朱迅:生命终将结束,为何不勇敢面对生命的终点呢?

标体
2026-05-11 11:36:14
三国历史上根本不存在的7人,个个妇孺皆知,骗了我们一千多年!

三国历史上根本不存在的7人,个个妇孺皆知,骗了我们一千多年!

掠影后有感
2026-05-13 11:10:48
排面拉满!山姆两家新店落地山东,本土商业能拿到啥好处

排面拉满!山姆两家新店落地山东,本土商业能拿到啥好处

闪电新闻
2026-05-12 18:05:23
夫妻性生活别急着进入!学会这招“延迟满足”,爽感增倍

夫妻性生活别急着进入!学会这招“延迟满足”,爽感增倍

精彩分享快乐
2026-05-13 12:05:07
马向东为儿子报仇被判死刑,行刑前对妻子说:我去陪孩子了

马向东为儿子报仇被判死刑,行刑前对妻子说:我去陪孩子了

纸鸢奇谭
2025-02-26 20:46:29
中方伸出援手,老杜家族绝境翻盘?菲军方急了,催马科斯大胆下手

中方伸出援手,老杜家族绝境翻盘?菲军方急了,催马科斯大胆下手

小杨侃事
2026-05-13 13:15:33
何小鹏“四问”具身模型,直言“具身智能正重复自动驾驶的故事”

何小鹏“四问”具身模型,直言“具身智能正重复自动驾驶的故事”

澎湃新闻
2026-05-12 13:56:27
2026-05-13 15:36:49
量子位 incentive-icons
量子位
追踪人工智能动态
12617文章数 176461关注度
往期回顾 全部

科技要闻

谷歌剧透安卓重大升级 Gemini深度集成底层

头条要闻

特朗普空中发文:很荣幸与杰出人士同去伟大的中国

头条要闻

特朗普空中发文:很荣幸与杰出人士同去伟大的中国

体育要闻

14年半,74万,何冰娇没选那条更安稳的路

娱乐要闻

白鹿掉20万粉,网友为李晨鸣不平

财经要闻

创业板指突破4037.96点创历史新高

汽车要闻

4月新能源渗透率首破60% BBA无车型销量破万

态度原创

艺术
房产
旅游
游戏
数码

艺术要闻

果然是经济强省!浙江县域第一高楼,高约300米!

房产要闻

海口禁摩,3.3万名车主要慌了!

旅游要闻

还没来中国前就下好了Alipay,外国游客等不及体验中国支付

《寂静岭f》全球累计出货量突破200万套!美丽而令人战栗的风潮席卷全球

数码要闻

三星Exynos 2700或弃用WLP封装 成本压力成主因

无障碍浏览 进入关怀版