科研问题变AI反复试错环境，斯坦福等提出的自动循环执行LLM流程|算法|实验|基线|执行器|自动化

科研问题变AI反复试错环境，斯坦福等提出的自动循环执行LLM流程

2026-02-24 12:54:59　来源: ScienceAI

河北举报

分享至

编辑丨%

为了加速各类生产研究的进度，使用 AI 大模型来进行决策或者提出新颖的想法已经不算少见。但绝大部分研究思路本身看似合理，实际是否有用还有待商榷。

过去一年，多项系统评测已经反复验证一个事实：LLM 生成的研究构想，往往“看起来很对”，但一执行就失效。它们善于组合概念，却很少真正接受过“实验结果”的惩罚。

来自斯坦福大学等的研究团队选择了一条更为激进的路线。他们构建了一套自动执行器的循环，通过进化搜索与奖励学习，来强化 LLM 生成更为有效的想法。相关内容以「Towards Execution-Grounded Automated AI Research」为题，于 2026 年 1 月 20 日刊登在 arxiv。

论文链接：https://arxiv.org/abs/2601.14525

进入反复试错的环境

研究团队的设想可以这么总结：将 AI 生成的想法付诸于代码，并从实验结果中汲取经验回滚想法。如果成功，这些自动化 AI 研究人员可以在庞大的搜索空间中自动开发和识别有效的研究想法，从而将计算转化为科学发现;这些发现的理念反过来又可能改进前沿 AI 模型本身，实现递归自我改进。

这也正是本研究中提出的核心系统：Execution-Grounded Automated AI Research（执行落地型自动科研）。

它基于特定的环境，并在构建时力求开放式的研究问题，以此空出足够的空间容纳创新算法，并建立完善的基线与基准指标。

图 1：自动化的执行器。

为了避免空谈，团队将研究场景压缩为两个高度真实、但可控的执行环境：

一个是预训练：

任务：加速 nanoGPT 的预训练过程
指标：在固定 GPU 预算下，更快达到目标验证损失
对照基线：nanoGPT speedrun（35.9 分钟）

另一个是后训练：

任务：改进 GRPO 算法的后训练效果
指标：数学推理任务（MATH）验证准确率
对照基线：48.0%

执行反馈与强化学习

执行反馈的核心引导部分在于，它融合了探索与利用，用这两者模拟科研迭代过程。

作为核心的自动化创意执行器由三个核心模块组成：Implementer 实现者、Scheduler 调度器、Worker 工作单位。

图 2：GRPO 和 nanoGPT 环境中自执行（上行）与 GPT-5（下行）的模型性能比较。

通过这三个模块，AI 输出的想法都会转化为实际的数值反馈，反复自我修正，通过不断控制执行，直到确认想法可行或失败。在这个环节，初始探索 / 利用比例 5:5，后续逐步提高利用比例，共进行十次迭代

而在其后的奖励强化学习部分，则以实验性能为奖励，这与实验效果直接关联。这种应用模式可通过梯度更新持续提升想法质量，突破进化搜索的限制。

实验验证里，后训练在仅有50 个想法采样的情况下，Claude-4.5-Sonnet 的最大准确率为 60.4%，远超 48.0% 的基线标准。并且在 nanoGPT 上，Claude-4.5-Opus 的损耗最低，为 3.237，低于基线的 3.255。

在预训练环境里，模型达到目标损失的训练时间 19.7 分钟，远超 nanoGPT 基线（35.9 分钟），仅落后人类顶尖解（2.1 分钟），但无需人工干预。

表 1：在整个执行引导搜索中，超参数调优与算法思想的细分。

更多的实验思路此处不做过多赘述。

探索算法直觉的道路

在执行日志的分析中，研究团队发现一个耐人寻味的现象：模型并非只是在简单地调参，它尝试在算法层间进行修改，这其中包括训练流程，更新策略，资源调度等方式。但这也凸显了当下比较明显的几个问题，比如多数模型早期就出现的性能饱和，与少数模型才拥有的较清晰的“搜索随规模提升”的趋势。

未来的更新中，可能需要针对 RL 的模式崩溃引入多种奖励补丁，平衡有效性与创新性。执行器也需要进一步升级，以应对复杂任务带来的处理能力需要。

声明：包含AI生成内容

特别声明：以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布，本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.