网易首页 > 网易号 > 正文 申请入驻

科研问题变AI反复试错环境,斯坦福等提出的自动循环执行LLM流程

0
分享至



编辑丨%

为了加速各类生产研究的进度,使用 AI 大模型来进行决策或者提出新颖的想法已经不算少见。但绝大部分研究思路本身看似合理,实际是否有用还有待商榷。

过去一年,多项系统评测已经反复验证一个事实:LLM 生成的研究构想,往往“看起来很对”,但一执行就失效。它们善于组合概念,却很少真正接受过“实验结果”的惩罚。

来自斯坦福大学等的研究团队选择了一条更为激进的路线。他们构建了一套自动执行器的循环,通过进化搜索与奖励学习,来强化 LLM 生成更为有效的想法。相关内容以「Towards Execution-Grounded Automated AI Research」为题,于 2026 年 1 月 20 日刊登在 arxiv。



论文链接:https://arxiv.org/abs/2601.14525

进入反复试错的环境

研究团队的设想可以这么总结:将 AI 生成的想法付诸于代码,并从实验结果中汲取经验回滚想法。如果成功,这些自动化 AI 研究人员可以在庞大的搜索空间中自动开发和识别有效的研究想法,从而将计算转化为科学发现;这些发现的理念反过来又可能改进前沿 AI 模型本身,实现递归自我改进。

这也正是本研究中提出的核心系统:Execution-Grounded Automated AI Research(执行落地型自动科研)

它基于特定的环境,并在构建时力求开放式的研究问题,以此空出足够的空间容纳创新算法,并建立完善的基线与基准指标。



图 1:自动化的执行器。

为了避免空谈,团队将研究场景压缩为两个高度真实、但可控的执行环境

一个是预训练:

  • 任务:加速 nanoGPT 的预训练过程
  • 指标:在固定 GPU 预算下,更快达到目标验证损失
  • 对照基线:nanoGPT speedrun(35.9 分钟)

另一个是后训练:

  • 任务:改进 GRPO 算法的后训练效果
  • 指标:数学推理任务(MATH)验证准确率
  • 对照基线:48.0%

执行反馈与强化学习

执行反馈的核心引导部分在于,它融合了探索与利用,用这两者模拟科研迭代过程。

作为核心的自动化创意执行器由三个核心模块组成:Implementer 实现者、Scheduler 调度器、Worker 工作单位



图 2:GRPO 和 nanoGPT 环境中自执行(上行)与 GPT-5(下行)的模型性能比较。

通过这三个模块,AI 输出的想法都会转化为实际的数值反馈,反复自我修正,通过不断控制执行,直到确认想法可行或失败。在这个环节,初始探索 / 利用比例 5:5,后续逐步提高利用比例,共进行十次迭代

而在其后的奖励强化学习部分,则以实验性能为奖励,这与实验效果直接关联。这种应用模式可通过梯度更新持续提升想法质量,突破进化搜索的限制。

实验验证里,后训练在仅有50 个想法采样的情况下,Claude-4.5-Sonnet 的最大准确率为 60.4%,远超 48.0% 的基线标准。并且在 nanoGPT 上,Claude-4.5-Opus 的损耗最低,为 3.237,低于基线的 3.255。

在预训练环境里,模型达到目标损失的训练时间 19.7 分钟,远超 nanoGPT 基线(35.9 分钟),仅落后人类顶尖解(2.1 分钟),但无需人工干预。

表 1:在整个执行引导搜索中,超参数调优与算法思想的细分。



更多的实验思路此处不做过多赘述。

探索算法直觉的道路

在执行日志的分析中,研究团队发现一个耐人寻味的现象:模型并非只是在简单地调参,它尝试在算法层间进行修改,这其中包括训练流程,更新策略,资源调度等方式。但这也凸显了当下比较明显的几个问题,比如多数模型早期就出现的性能饱和,与少数模型才拥有的较清晰的“搜索随规模提升”的趋势。

未来的更新中,可能需要针对 RL 的模式崩溃引入多种奖励补丁,平衡有效性与创新性。执行器也需要进一步升级,以应对复杂任务带来的处理能力需要。

声明:包含AI生成内容

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
越来越多的客厅放“大长桌”?过来人:美翻了,也后悔了

越来越多的客厅放“大长桌”?过来人:美翻了,也后悔了

阿离家居
2026-02-23 23:43:40
黑龙江一女子离婚4年赖前夫家过年不肯走 视频画面曝光

黑龙江一女子离婚4年赖前夫家过年不肯走 视频画面曝光

观察鉴娱
2026-02-24 10:12:19
全球首发!新机官宣:2月24日,正式发布

全球首发!新机官宣:2月24日,正式发布

科技堡垒
2026-02-24 15:02:54
女生会考验你的诚意吗?

女生会考验你的诚意吗?

赖焕庆
2026-02-24 13:58:44
邱毅:大陆的鹰派上来了!解放军出现重大变动,台岛担忧武统提前

邱毅:大陆的鹰派上来了!解放军出现重大变动,台岛担忧武统提前

我心纵横天地间
2026-02-23 23:04:29
30年未变!路人抓拍Windows XP经典壁纸原景:重现1996年场面

30年未变!路人抓拍Windows XP经典壁纸原景:重现1996年场面

快科技
2026-02-21 23:58:07
马筱梅初七生下儿子!张兰高兴的合不拢嘴,汪家三代同堂迎新成员

马筱梅初七生下儿子!张兰高兴的合不拢嘴,汪家三代同堂迎新成员

可乐谈情感
2026-02-24 14:28:56
台湾终极解决方案:土地回归中国,人员往来自由,逃走不是中国人

台湾终极解决方案:土地回归中国,人员往来自由,逃走不是中国人

赵钇是个热血青年
2026-02-11 20:16:05
确认了!今起全面影响浙江!持续到下月.....

确认了!今起全面影响浙江!持续到下月.....

舟山交通97
2026-02-24 11:40:35
2026年的春运,长途大巴结结实实给了“智能时代”一记耳光

2026年的春运,长途大巴结结实实给了“智能时代”一记耳光

老特有话说
2026-02-09 23:34:10
1948年,中央提出换掉粟裕,陈毅:无论用谁代替他,都会全军覆没

1948年,中央提出换掉粟裕,陈毅:无论用谁代替他,都会全军覆没

芊芊子吟
2026-02-24 12:30:03
外交部:有关合作不应当针对第三方

外交部:有关合作不应当针对第三方

北青网-北京青年报
2026-02-24 15:48:10
千亿市值巨头 涨停

千亿市值巨头 涨停

新浪财经
2026-02-24 12:56:00
年轻人累死累活挣三四千,老人拿七八千退休金,该如何破局?

年轻人累死累活挣三四千,老人拿七八千退休金,该如何破局?

猫叔东山再起
2026-02-24 10:55:03
越来越多人不装“阳台晾衣杆”!学学浙江人的3种做法,太实用了

越来越多人不装“阳台晾衣杆”!学学浙江人的3种做法,太实用了

家居设计师苏哥
2026-02-23 13:29:11
莫耶斯:拉门斯扑救太牛了,他是全场最佳球员

莫耶斯:拉门斯扑救太牛了,他是全场最佳球员

懂球帝
2026-02-24 15:24:39
古人逛一次青楼要多少银子?换算成人民币后,只得感叹根本去不起

古人逛一次青楼要多少银子?换算成人民币后,只得感叹根本去不起

老谢谈史
2026-02-22 21:43:23
我从油车换到电车后,终于明白:还有那么多人不换车,不是傻,而是聪明

我从油车换到电车后,终于明白:还有那么多人不换车,不是傻,而是聪明

刘哥谈体育
2026-02-16 20:29:51
41岁轰破43000分!对不起,篮球的年龄论该改写了

41岁轰破43000分!对不起,篮球的年龄论该改写了

篮球看比赛
2026-02-24 15:28:36
开源作者拒绝了AI的代码,愤怒的AI竟然写了小作文诋毁他

开源作者拒绝了AI的代码,愤怒的AI竟然写了小作文诋毁他

码农翻身
2026-02-24 09:09:06
2026-02-24 16:27:00
ScienceAI incentive-icons
ScienceAI
关注人工智能与其他前沿技术
1237文章数 224关注度
往期回顾 全部

科技要闻

AI颠覆发展最新牺牲品!IBM跳水重挫超13%

头条要闻

38岁中国商人在土耳其被害 警方:遭同行女子引诱掳上车

头条要闻

38岁中国商人在土耳其被害 警方:遭同行女子引诱掳上车

体育要闻

苏翊鸣总结米兰征程:我仍是那个热爱单板滑雪的少年

娱乐要闻

杨洋传遇上缅北剧组 开机就离开剧组?

财经要闻

县城消费「限时繁荣」了十天

汽车要闻

入门即满配 威兰达AIR版上市 13.78万元起

态度原创

艺术
手机
本地
公开课
军事航空

艺术要闻

2025年第八届全国青年美展 | 油画作品选刊

手机要闻

OPPO陈希吐槽苹果最新旗舰iPhone 17 Pro,称完全开始不讲究了

本地新闻

春花齐放2026:《骏马奔腾迎新岁》

公开课

李玫瑾:为什么性格比能力更重要?

军事要闻

美军参联会主席警告:对伊朗动武可能带来重大风险

无障碍浏览 进入关怀版