网易首页 > 网易号 > 正文 申请入驻

清华、中关村学院团队如何构建能自主完成从代码到新SOTA闭环系统

0
分享至



编辑丨ScienceAI

对于每一位在实验室彻夜调参的研究者来说,最繁琐的部分往往不是灵光一现,而是其后的环境配置、Bug 修复与实验迭代。现在的 AI 科研就像是一场追求极致性能的漫漫征途。

看看近年 AI 顶会的投稿数据就知道了:NeurIPS 投稿量高达 21575 篇,其中口头报告(Oral)仅占 0.4% ;ICML 投稿 12107篇,Oral 占比 0.9% ;ICLR 投稿 11603 篇,Oral 也不过 1.8%。

在这样千军万马过独木桥的竞争中,SOTA(当前最佳水平)成为了衡量研究价值的唯一金标准。但攀登这座高峰需要巨量的研究力量投入,一个好的 Idea 可能只占研究过程的一小部分,剩下的全是漫长而痛苦的打磨优化。

近期,清华大学电子工程系助理教授、北京中关村学院兼职导师徐丰力课题组与北京中关村学院联合发布了AutoSOTA 项目,为这一难题提供了一套工业级的解决方案。目前,AutoSOTA 项目已发布预印本论文。



论文地址:https://arxiv.org/abs/2604.05550

AutoSOTA 致力于实现端到端的 AI 科研自动化,其核心理念是将 AI 智能体的赋能边界延伸到实验的每一个底层细节。不同于那些局部加速的工具,AutoSOTA 构建了一个完整的闭环流程,涵盖了从原始论文输入到最终优化方法产出的全生命周期。

一支永不疲倦的超级研究团队



图 1:AutoSOTA 流程。

在架构层面,AutoSOTA 采用了精密的“多智能体协作”逻辑。整个系统由一个强大的认知架构驱动,具备规划、推理、记忆和工作流管理能力。我们可以把它想象成一个分工明确的超级研究团队,具体分工如下:

第一步:资源准备与目标设置

这一环节由AgentResource和 AgentObjective 负责。它们会从海量的 AI 顶会研究(如 ICML、KDD、The Web Conf、AAAI 等)中提取原始论文和代码库。

AgentResource 负责管理 PDF 文档和模型参数,而 AgentObjective 则根据论文目标构建评价指标体系(Rubric Construction),确立优化方向。简单来说,它们负责搞清楚要研究什么,以及怎么才算研究得好。

第二步:实验评估闭环

这可能是最让研究者头疼的环节,但在AutoSOTA 里,一切都是全自动的。AgentInit 负责底层的环境初始化,AgentMonitor 实时追踪实验状态,而 AgentFix 则负责接收反馈并执行修复指令(Repair Command),直至代码通过各种复杂的测试与调试。这个过程就像是有个永不疲倦的师兄在帮你改 Bug、配环境,不仅高效而且零出错。

第三步:代码优化引擎

AutoSOTA 利用程序数据库(Program Database)与提示词采样(Prompt Sampler),结合大模型集成(LLMs Ensemble)和评估器池(Evaluators pool),实现算法实现的持续精炼。通过不断地反馈(Feedback)与执行(Execution),模型性能在一次次迭代中稳步提升。

第四步:反思构思引擎

这是AutoSOTA 最像“人类科学家”的地方。AgentScheduler 会协调 AgentIdeator 进行文献检索与创新构思(Ideation),并由 AgentSupervisor 进行监督验证(Supervision & Validation),确保方案的创新性与合规性。这套受人类研究启发的创新构思引擎,使得系统不再是盲目地调参,而是具备了顶层设计的思考能力。

为了支撑这一复杂的协作模式,AutoSOTA 配备了完善的工具库(Toolkit)与技能集(Skill Set),这使得智能体能够独立完成原本需要人类干预的繁重任务。



图 2:AutoSOTA多智能体架构。

5小时 vs 数月

在一周的密集实验中,这套系统交出了一份惊人的成绩单。在消耗了约220 亿 Token、约 10 万元人民币成本的前提下,系统基于前一年的顶会论文成功发现了 105 个性能显著提升的模型。

最令人兴奋的是,这些发现中超过 60% 具备新颖的 AI 模型结构设计,平均性能提升接近 10%。这证明了 AutoSOTA 并非只是在既有路径上机械搜索,而是展现出了真正的算法创新能力。

更具冲击力的数据在于研发周期的缩减。在传统路径下,一名博士生要阅读论文、准备资源、配置环境、修正评测、调研构思再到迭代优化,通常需要数月时间才能完成一个SOTA 模型的迭代优化。然而,AutoSOTA 将这一闭环流程的时间压缩到了 5 小时以内。这意味着系统可以在同一时间内开展数百个并行的研究任务,实现科研产出的爆发式增长。



图 3:AutoSOTA实验结果。

项目网站:https://tsinghua-fib-lab.github.io/AutoSOTA/

AutoSOTA 的价值不仅在于刷新了性能数据,更在于它为科研范式提供了全新的可能。它证明,通过多智能体系统的赋能,可以将繁琐的科研流程从“手工打磨”升级为“智能制造”。正如徐丰力课题组所强调的,AutoSOTA 更像是一个“创造力放大器”。它通过接管那“1到100”的高强度迭代过程,让人类研究者能够将最宝贵的注意力重新投入到“0到1”的颠覆式创新中。

这一项目的发布,不仅展示了科研智能体在端到端优化中的巨大潜力,也标志着人类进入了人智协同科学研究的新阶段。

未来,当AI 可以大规模自动发现 SOTA 模型时,我们或许该重新思考:科学突破的本质到底是什么?答案可能就藏在那些大胆的问题和未知的方向中。

如果你觉得每天调参、配环境太辛苦,不妨让 AutoSOTA 这位“超级研究员”来帮你。与我们一起让科研回归创新本质!

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
微信出现这条杠,你被好友移除了

微信出现这条杠,你被好友移除了

小虎新车推荐员
2026-04-09 07:10:55
伊朗越打越猛!美媒反复追问中国同1个问题,就怕中国回答:是!

伊朗越打越猛!美媒反复追问中国同1个问题,就怕中国回答:是!

那些不堪年华追忆流
2026-04-09 01:50:04
1950年剿匪部队搜完尼姑庵要离开时,战士发现不对劲:尼姑太丰满

1950年剿匪部队搜完尼姑庵要离开时,战士发现不对劲:尼姑太丰满

小莜读史
2026-04-08 17:14:13
1974年,毛主席看完国庆观礼名单后怒道:此人不来,我不出席

1974年,毛主席看完国庆观礼名单后怒道:此人不来,我不出席

芳芳历史烩
2026-04-09 20:55:41
市场情绪提振!美股全线走强,特朗普:对美伊达成和平协议“非常乐观”,“如果他们不达成协议,后果将极其痛苦”

市场情绪提振!美股全线走强,特朗普:对美伊达成和平协议“非常乐观”,“如果他们不达成协议,后果将极其痛苦”

每日经济新闻
2026-04-10 11:16:26
老师穿短裙蕾丝袜上课,学生连头都不敢抬!老师穿衣底线到底在哪

老师穿短裙蕾丝袜上课,学生连头都不敢抬!老师穿衣底线到底在哪

小羽叨叨叨
2026-03-26 13:24:34
副县长出轨致下属怀孕还吃空饷依法应辞退!不是降为正科级了事!

副县长出轨致下属怀孕还吃空饷依法应辞退!不是降为正科级了事!

一支破笔半支烟
2026-04-09 14:52:22
中国女首富陈丽华去世,1288万宾利送迟重瑞,自己坐奔驰和保姆车

中国女首富陈丽华去世,1288万宾利送迟重瑞,自己坐奔驰和保姆车

云淡风轻16
2026-04-09 18:15:00
迟重瑞不再隐忍!坦言和陈丽华结婚真相,难怪550亿遗产一分不要

迟重瑞不再隐忍!坦言和陈丽华结婚真相,难怪550亿遗产一分不要

阿伧说事
2026-04-09 03:25:55
79年撤军真相:越南用了十年才想明白中国拆走的不止是8000吨设备

79年撤军真相:越南用了十年才想明白中国拆走的不止是8000吨设备

掠影后有感
2026-04-08 10:00:45
横盘八年股价6元,市值58亿,牛散张素芬重仓“高铁独苗”

横盘八年股价6元,市值58亿,牛散张素芬重仓“高铁独苗”

慧眼看世界哈哈
2026-04-10 10:34:08
妮可·基德曼顶3斤假发亮相,Schiaparelli高定秒变淘宝

妮可·基德曼顶3斤假发亮相,Schiaparelli高定秒变淘宝

热搜摘要官
2026-04-10 08:02:47
点名德法西意等国,批评盟友“缺乏助益”,美制订“温和版惩罚北约”计划

点名德法西意等国,批评盟友“缺乏助益”,美制订“温和版惩罚北约”计划

环球网资讯
2026-04-10 09:10:04
金卡戴珊复工穿2.8万裤袜 网友:对不起只看了硬实力

金卡戴珊复工穿2.8万裤袜 网友:对不起只看了硬实力

3DM游戏
2026-04-09 18:13:31
卢比奥支持率一周飙至42%!从末尾跃升第二,德桑蒂斯惨跌至7%!

卢比奥支持率一周飙至42%!从末尾跃升第二,德桑蒂斯惨跌至7%!

叮当当科技
2026-04-10 16:35:36
她的三任丈夫,一个县委书记,一个省委书记,一个副总理

她的三任丈夫,一个县委书记,一个省委书记,一个副总理

霹雳炮
2026-04-01 23:11:39
马筱梅晒满月儿子汪宝儿,简直生了个迷你自己,软萌福相太圈粉!

马筱梅晒满月儿子汪宝儿,简直生了个迷你自己,软萌福相太圈粉!

可爱小菜
2026-04-10 10:50:55
马克龙签涉台声明后,中方直击要害,朱凤莲强硬发声,法国赌输了

马克龙签涉台声明后,中方直击要害,朱凤莲强硬发声,法国赌输了

混沌录
2026-04-09 14:30:05
真实案例!长期不上班真的可以延年益寿吗?

真实案例!长期不上班真的可以延年益寿吗?

慧翔百科
2026-04-10 12:10:40
令人惊讶!那些喜欢嫖娼的男性,竟在某些方面存在这几个共同特征

令人惊讶!那些喜欢嫖娼的男性,竟在某些方面存在这几个共同特征

皓皓情感说
2026-04-07 23:33:28
2026-04-10 17:52:49
ScienceAI incentive-icons
ScienceAI
关注人工智能与其他前沿技术
1274文章数 226关注度
往期回顾 全部

科技要闻

马斯克狂发大火箭也养不起AI 年亏50亿美元

头条要闻

73岁骑友"抄近路"摔倒身亡 事发路段系村民自发修建

头条要闻

73岁骑友"抄近路"摔倒身亡 事发路段系村民自发修建

体育要闻

17岁赚了一百万美元,25岁被CBA裁员

娱乐要闻

黄景瑜王玉雯否认恋情!聚会细节被扒

财经要闻

创业板改革制度落地 增设第4套上市标准

汽车要闻

搭载第二代刀片电池及闪充技术 腾势N8L闪充版预售35万起

态度原创

时尚
本地
房产
旅游
军事航空

浪姐7乱成一锅粥,谁都没想到翻红担当竟然是她

本地新闻

12吨巧克力有难,全网化身超级侦探添乱

房产要闻

突发!29亿疯狂拿地后,三亚绿发100%股权转让!

旅游要闻

跟着演唱会游济宁|凭演唱会票根免门票 畅游微山湖旅游区

军事要闻

特朗普:对美国与伊朗达成和平协议“非常乐观”

无障碍浏览 进入关怀版