![]()
编辑丨%
为了加速各类生产研究的进度,使用 AI 大模型来进行决策或者提出新颖的想法已经不算少见。但绝大部分研究思路本身看似合理,实际是否有用还有待商榷。
过去一年,多项系统评测已经反复验证一个事实:LLM 生成的研究构想,往往“看起来很对”,但一执行就失效。它们善于组合概念,却很少真正接受过“实验结果”的惩罚。
来自斯坦福大学等的研究团队选择了一条更为激进的路线。他们构建了一套自动执行器的循环,通过进化搜索与奖励学习,来强化 LLM 生成更为有效的想法。相关内容以「Towards Execution-Grounded Automated AI Research」为题,于 2026 年 1 月 20 日刊登在 arxiv。
![]()
论文链接:https://arxiv.org/abs/2601.14525
进入反复试错的环境
研究团队的设想可以这么总结:将 AI 生成的想法付诸于代码,并从实验结果中汲取经验回滚想法。如果成功,这些自动化 AI 研究人员可以在庞大的搜索空间中自动开发和识别有效的研究想法,从而将计算转化为科学发现;这些发现的理念反过来又可能改进前沿 AI 模型本身,实现递归自我改进。
这也正是本研究中提出的核心系统:Execution-Grounded Automated AI Research(执行落地型自动科研)。
它基于特定的环境,并在构建时力求开放式的研究问题,以此空出足够的空间容纳创新算法,并建立完善的基线与基准指标。
![]()
图 1:自动化的执行器。
为了避免空谈,团队将研究场景压缩为两个高度真实、但可控的执行环境:
一个是预训练:
- 任务:加速 nanoGPT 的预训练过程
- 指标:在固定 GPU 预算下,更快达到目标验证损失
- 对照基线:nanoGPT speedrun(35.9 分钟)
另一个是后训练:
- 任务:改进 GRPO 算法的后训练效果
- 指标:数学推理任务(MATH)验证准确率
- 对照基线:48.0%
执行反馈与强化学习
执行反馈的核心引导部分在于,它融合了探索与利用,用这两者模拟科研迭代过程。
作为核心的自动化创意执行器由三个核心模块组成:Implementer 实现者、Scheduler 调度器、Worker 工作单位。
![]()
图 2:GRPO 和 nanoGPT 环境中自执行(上行)与 GPT-5(下行)的模型性能比较。
通过这三个模块,AI 输出的想法都会转化为实际的数值反馈,反复自我修正,通过不断控制执行,直到确认想法可行或失败。在这个环节,初始探索 / 利用比例 5:5,后续逐步提高利用比例,共进行十次迭代
而在其后的奖励强化学习部分,则以实验性能为奖励,这与实验效果直接关联。这种应用模式可通过梯度更新持续提升想法质量,突破进化搜索的限制。
实验验证里,后训练在仅有50 个想法采样的情况下,Claude-4.5-Sonnet 的最大准确率为 60.4%,远超 48.0% 的基线标准。并且在 nanoGPT 上,Claude-4.5-Opus 的损耗最低,为 3.237,低于基线的 3.255。
在预训练环境里,模型达到目标损失的训练时间 19.7 分钟,远超 nanoGPT 基线(35.9 分钟),仅落后人类顶尖解(2.1 分钟),但无需人工干预。
表 1:在整个执行引导搜索中,超参数调优与算法思想的细分。
![]()
更多的实验思路此处不做过多赘述。
探索算法直觉的道路
在执行日志的分析中,研究团队发现一个耐人寻味的现象:模型并非只是在简单地调参,它尝试在算法层间进行修改,这其中包括训练流程,更新策略,资源调度等方式。但这也凸显了当下比较明显的几个问题,比如多数模型早期就出现的性能饱和,与少数模型才拥有的较清晰的“搜索随规模提升”的趋势。
未来的更新中,可能需要针对 RL 的模式崩溃引入多种奖励补丁,平衡有效性与创新性。执行器也需要进一步升级,以应对复杂任务带来的处理能力需要。
特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.