网易首页 > 网易号 > 正文 申请入驻

Auto Research 来了:当 AI 开始接管科研里最苦的活,意味着什么

0
分享至


Frontier-Eng Bench 揭示了一种新的 Agent 范式:真正的智能不在于一次性生成答案,而在于长期反馈中的持续优化能力。

来源:极客公园

如果几年前有人告诉我,AI 不仅能写代码、生成论文摘要,还能像一个真正的工程师那样,在实验室里反复寻找可行的策略、持续优化一个方案——我大概会觉得这个人科幻片看多了。

但最近读到一篇论文的时候,我的想法变了。

过去两年,大模型的能力突飞猛进,从写诗到写代码,从做数学题到跑实验流程,AI 擅长的事情越来越多。但真正做过科研和工程的人都清楚,最耗人的部分,往往不是提出第一个可行方案,而是后面那段漫长的「长期优化」——一个实验跑通了,但指标还差一点;一个算法能用了,但速度还不够快;一个电池快充策略成立了,但温度、寿命和析锂之间还需要反复平衡。

现实中的高价值成果,很多都不是「做出来」的,而是被持续优化出来的。而这,恰恰是过去大多数 AI Agent 系统最缺失的一环。

最近,Einsia AI 旗下 Navers Lab 发布了一个叫 Frontier-Eng Bench 的新基准测试,正试图衡量这种能力。它没有再把 AI 放进「一问一答」的选择题里,而是直接把 Agent 扔进真实工程优化环境——Agent 必须不断提出方案、运行仿真器、读取反馈、修改策略,在长期迭代中持续逼近更优解。


论文题目:Frontier-Eng: Benchmarking Self-Evolving Agents on Real-World Engineering Tasks with Generative Optimization

Arxiv: https://arxiv.org/abs/2604.12290

Github: https://github.com/EinsiaLab/Frontier-Engineering

这让我想到一个历史参照:AlphaGo 之所以强大,并不在于它每一步棋都能算对,而在于它能在数百万次自我对弈中持续进化。某种程度上,Frontier-Eng 试图回答的,也是同一个问题——当 AI 开始进入真实世界的长期反馈循环后,智能的本质,究竟该怎么衡量?

01

从「一次性答对」到「持续优化」,

范式正在切换

要理解 Frontier-Eng Bench 的意义,得先看清楚它在反对什么。

过去几年,大模型领域的 benchmark 越来越多,但本质上都在评估同一件事:模型能不能「一次性生成正确答案」。无论是代码生成、数学推理,还是任务执行,大多数测试的逻辑仍然是——答案对,或者错;任务完成,或者失败。


Frontier-Eng Bench 总览

但这里有一个被忽视的问题:真实的科研与工程,从来不是一个「对或错」的过程。

一个量子线路已经正确了,但保真度还能不能再往上抠一点?一个 GPU kernel 已经可用了,但速度还不够快?这些问题没有「标准答案」,只有「更优解」。而找到更优解的过程,往往需要成百上千次的迭代、试错和微调。

事实上,这正是 Frontier-Eng Bench 提出的核心命题——论文将其定义为「Generative Optimization」(生成式优化)。它认为,下一代 Agent 的核心能力,不应该只是「一次性给出看起来合理的答案」,而是能否在环境反馈里持续修正自己的轨迹,并在有限预算下不断优化结果。

换句话说,真正的 intelligence,可能本质上是一种长期反馈闭环中的持续优化能力。

这个判断并不只是理论推演。Frontier-Eng 设计了 47 个横跨五大领域的实验任务——量子计算与信息、运筹与决策科学、机器人与控制系统、光学与通信、物理科学与工程设计。在每一个任务中,Agent 都不是简单地「回答问题」,而是需要提出优化方案、运行仿真器、获取真实反馈、修改代码与策略,并在固定的计算预算里持续迭代。


Frontier-Eng Bench 体系概览

不只有「答对题」的聪明,更有「不断变好」的韧性。这可能才是真正长程智能的起点。

02

深度 vs 宽度:Agent 架构的关键抉择

在 Frontier-Eng 揭示的所有发现中,有一个结论让我印象最深:关于「推理算力分配」的讨论。

论文通过大量实验发现,Agent 的性能提升遵循一套双重幂律衰减规律——随着任务进入「深水区」,获得显著性能提升的难度呈指数级上升。这是一个残酷但真实的规律:越往后优化,每一个百分点的进步都越来越贵。


工程优化的双重幂律衰减

但更有意思的发现在于一个架构层面的核心争议:到底是让 Agent 并行尝试 100 种可能性(宽度),还是让它在 1 个路径上通过「反思—修正」递归 100 次(深度)?

Frontier-Eng 给出了一个非常清晰的信号:深度才是那个能撬动真正突破的杠杆。


深度 vs 宽度

这让我想到一个日常的类比。面对一道难题,是同时翻开十本参考书碰运气更有效,还是沿着一条思路反复推敲、不断修正更容易找到答案?大多数有经验的工程师和科学家都会选后者。Frontier-Eng 的数据,某种程度上用实验验证了这种直觉。

论文将这种能力称为「Deep Iterative Reasoning」(深度迭代推理)。在这背后,其实指向了一个更大的趋势:下一代 Agent 的核心竞争力,可能正在从「知道多少知识」转向「能不能在长期反馈中持续自我修正」。

一个有趣的现象是,这个结论和人类专家解决复杂问题的方式高度一致。顶级的工程师和科学家,几乎从来不靠「灵光一闪」解决核心难题,而是在漫长的试错循环中一步步逼近最优解。某种程度上,Frontier-Eng 证明了:AI 要变得真正聪明,也得学会这种「慢功夫」。

更重要的是,这个发现正在直接改变 Agent 架构设计的方向。过去,开发者们的注意力大多放在 prompt engineering 上——怎么写出更好的提示词,让模型一次就给出好答案。但如果深度迭代推理才是关键,那么未来真正重要的可能是 reasoning architecture——如何构建更强的推理侧架构,让模型能够像人类专家一样进行「慢思考」。

03

推理侧的算力红利,才刚刚开始

从产业角度看,Frontier-Eng 释放出的信号其实非常强烈。

过去几年,大模型行业的核心护城河主要来自三件事:参数规模、训练算力、高质量数据。谁的模型更大、训练数据更多、GPU 集群更强,谁就占据优势。

但 Frontier-Eng 的实验结果暗示,护城河可能正在发生转移——从训练侧转向推理侧。


不同模型的详细评测结果

换句话说,未来真正重要的,可能不只是模型「知道什么」,而是它能否在长期环境反馈中持续优化、在复杂搜索空间里稳定收敛、在有限算力下完成递归推理、在真实仿真器中不断自我修正。

这会直接改变整个 Agent 基础设施的竞争方向。因为一旦智能开始更多地来自 inference-time optimization(推理时优化),而不是一次性的预训练,那么几件事将同时发生:

首先,AI for Science 可能将迎来真正的爆发。科学研究本身就是最完美的「生成式优化」场景——提出假设、实验验证、修正假设、再验证,这个循环和 Frontier-Eng 测试的过程几乎完全一致。

其次,Agent 的开发范式会从 prompt engineering 转向 reasoning architecture。开发者将不再仅仅盯着提示词的措辞,而是去思考如何构建更强的推理链、更高效的搜索策略、更智能的反思机制。

此外,长程记忆、工具调用、搜索和反思能力将变得越来越关键,而算力分配本身也会成为一种新的基础设施能力。

从这个角度看,Frontier-Eng 不只是一个学术 benchmark,它更像是一张路线图——告诉整个行业,下一阶段的竞争焦点在哪里。

04

尾声

回到开头那个问题:AI 做科研,最难替代人类的是哪个环节?

在读 Frontier-Eng 这篇论文之前,我的回答可能是「直觉」和「创造力」。但现在我觉得,答案可能正在被改写。

Frontier-Eng 告诉我们,Agent 正在走出文字游戏的「温室」,进入物理规律的「竞技场」。它们开始学习的,不再只是如何给出一个漂亮的答案,而是如何在成千上万次失败中,一点一点地抠出那 1% 的性能突破。

而身处其中,我们往往后知后觉。但把时间维度拉长,也许多年后回看,2025 年前后这段时间,正是 AI 从「聪明的回答者」变成「执着的优化者」的转折点。

不只有聚光灯下的 OpenAI、Google DeepMind 们在推动这个进程,更有像 Einsia AI 这样的团队,在用严谨的实验框架丈量智能的真实边界。

而下一代 Agent 真正比拼的,可能不再是谁「知道得多」,而是谁能在长期环境反馈中,持续逼近最优解。这场关于「深度」与「反馈」的竞赛,才刚刚鸣枪。

*头图来源:Frontier-Eng Bench

阅读最新前沿科技趋势报告,请访问21世纪关键技术研究院的“未来知识库”


未来知识库是 “21世纪关键技术研究院”建 立的在线知识库平台,收藏的资料范围包括人工智能、脑科学、互联网、超级智能,数智大脑、能源、军事、经济、人类风险等等领域的前沿进展与未来趋势。目前拥有超过8000篇重要资料。每周更新不少于100篇世界范围最新研究资料。 欢迎扫描二维码或访问https://wx.zsxq.com/group/454854145828进入。

截止到2月28日 ”未来知识库”精选的百部前沿科技趋势报告

(加入未来知识库,全部资料免费阅读和下载)

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
河南三县(市、区)政府主要领导调整

河南三县(市、区)政府主要领导调整

汲古知新
2026-05-13 10:22:10
坏消息!67岁生娃的田新菊病倒了,6岁小天赐踮脚给73岁妈妈喂奶

坏消息!67岁生娃的田新菊病倒了,6岁小天赐踮脚给73岁妈妈喂奶

未曾青梅
2026-05-11 22:20:21
父亲病危后女子请假陪护屡遭拒,父亲去世当天她因“旷工”被公司辞退,此前公司还向其发送旷工催告函;法院:公司于期限内支付70000元

父亲病危后女子请假陪护屡遭拒,父亲去世当天她因“旷工”被公司辞退,此前公司还向其发送旷工催告函;法院:公司于期限内支付70000元

极目新闻
2026-05-13 07:57:10
网红水果黑幕曝光!全是添加剂泡的,很多人天天买给孩子吃

网红水果黑幕曝光!全是添加剂泡的,很多人天天买给孩子吃

泠泠说史
2026-05-12 19:57:36
5月13日俄乌:乌克兰正向美国传授战争之道

5月13日俄乌:乌克兰正向美国传授战争之道

山河路口
2026-05-13 18:51:46
印尼媒体:一把好牌打成稀巴烂,尤利安托下课,印尼队解散

印尼媒体:一把好牌打成稀巴烂,尤利安托下课,印尼队解散

刘剮说体坛
2026-05-13 14:12:25
刘嘉玲晒法国度假照,依偎梁朝伟身旁,满脸幸福藏不住

刘嘉玲晒法国度假照,依偎梁朝伟身旁,满脸幸福藏不住

人间烟火记事本
2026-05-13 08:37:19
《主角》直到花彩香生娃,才知她为何不跟张光荣离婚,放弃胡三元

《主角》直到花彩香生娃,才知她为何不跟张光荣离婚,放弃胡三元

八斗小先生
2026-05-12 11:34:38
皇马主席放飞自我了!弗洛伦蒂诺:让那个女孩提问,你们其他人都太丑了

皇马主席放飞自我了!弗洛伦蒂诺:让那个女孩提问,你们其他人都太丑了

懂个球
2026-05-13 14:17:43
“4只皮皮虾1035元”当事顾客称被网暴,涉事司机已被开除

“4只皮皮虾1035元”当事顾客称被网暴,涉事司机已被开除

澎湃新闻
2026-05-13 14:56:06
热巴五一裹成“养蜂人”?这波反季穿搭才是顶流的松弛感

热巴五一裹成“养蜂人”?这波反季穿搭才是顶流的松弛感

影视泡泡堂
2026-05-13 21:10:27
水谷隼彻底揭穿张本宇一家在日本受尊重的谎言!

水谷隼彻底揭穿张本宇一家在日本受尊重的谎言!

生活新鲜市
2026-05-13 02:38:57
赵心童、艾伦入选名人堂引质疑,罗伯逊、马叔:入选门槛太低了!

赵心童、艾伦入选名人堂引质疑,罗伯逊、马叔:入选门槛太低了!

余憁搞笑段子
2026-05-13 10:35:20
奉劝大家:这6样东西千万“别用纸巾擦”,一擦就坏,很难修复

奉劝大家:这6样东西千万“别用纸巾擦”,一擦就坏,很难修复

室内设计师有料儿
2026-05-06 12:09:03
国乒美女钱天一:26岁退役,不选编制选安置费,嫁世界冠军很幸福

国乒美女钱天一:26岁退役,不选编制选安置费,嫁世界冠军很幸福

以茶带书
2026-05-08 15:40:11
俄专机提前12小时降落北京:在“空军一号”抵达前,普京要完成战略卡位

俄专机提前12小时降落北京:在“空军一号”抵达前,普京要完成战略卡位

荷兰豆爱健康
2026-05-13 18:43:30
高考落幕少女诞下女婴,父母追问生父身份后,竟对亲生女儿下毒手

高考落幕少女诞下女婴,父母追问生父身份后,竟对亲生女儿下毒手

罪案洞察者
2025-08-14 15:00:53
特朗普访华名单上的黑石帝王施瓦茨曼:他用李世民给自己命名

特朗普访华名单上的黑石帝王施瓦茨曼:他用李世民给自己命名

人间像素
2026-05-13 13:17:48
1500万潮汕人移民东南亚,当年究竟有多惨烈?| 地球知识局

1500万潮汕人移民东南亚,当年究竟有多惨烈?| 地球知识局

地球知识局
2026-05-13 07:30:17
“老鳳詳”所售足金戒指被指“金包银”拒三倍赔偿,店铺已被淘宝关闭

“老鳳詳”所售足金戒指被指“金包银”拒三倍赔偿,店铺已被淘宝关闭

澎湃新闻
2026-05-13 08:18:27
2026-05-13 21:47:00
人工智能学家 incentive-icons
人工智能学家
人工智能领域权威媒体
4733文章数 37463关注度
往期回顾 全部

科技要闻

腾讯一季度营收1964.6亿元 同比增9%

头条要闻

媒体:黄仁勋绝非"顺路同行" 而是美方刻意纳入的筹码

头条要闻

媒体:黄仁勋绝非"顺路同行" 而是美方刻意纳入的筹码

体育要闻

14年半,74万,何冰娇没选那条更安稳的路

娱乐要闻

白鹿掉20万粉,网友为李晨鸣不平

财经要闻

美国总统特朗普抵达北京

汽车要闻

C级纯电轿跑 吉利银河"TT"申报图来了

态度原创

艺术
本地
教育
家居
军事航空

艺术要闻

乾隆 “翻车” 名画刷屏!

本地新闻

用苏绣的方式,打开江西婺源

教育要闻

长检匠心:融智聚力护成长 长沙未检共探协同保护新路径

家居要闻

内在自叙,无域有方

军事要闻

沙特被指3月曾对伊朗发动多次“报复性”空袭

无障碍浏览 进入关怀版