网易首页 > 网易号 > 正文 申请入驻

刷榜只是体力活!清华消费10万块,一周「肝」出105个SOTA

0
分享至


新智元报道

编辑:LRST

【新智元导读】AutoSOTA通过多智能体协作,将AI研究中繁琐的性能优化过程自动化,使科研从「手工艺」转向「工业流水线」。只需5小时即可完成人类需数月的工作,极大释放科学家的创造力,推动更多原创性探索。

在当今的人工智能研究领域,实验室的灯火往往见证了无数次为了提升1%性能而进行的彻夜调参。这种被戏称为「炼丹」的过程,虽然最终产出了当前的最佳水平(State-of-the-Art,简称SOTA),但也将人类科学家最宝贵的直觉与创造力,困在了无止境的「增量式优化」劳动中。

面对这种高强度的竞争压力,清华大学徐丰力助理教授团队与北京中关村学院推出了AutoSOTA项目。这不仅是一个技术工具的发布,更是试图改写AI研究领域的「工业节拍」,将AI科研从低效的「手工艺模式」推向高效的「工业流水线模式」。


论文网址:https://arxiv.org/abs/2604.05550

项目网站:https://tsinghua-fib-lab.github.io/AutoSOTA/

研究背景

要理解AutoSOTA的必要性,首先要看当前AI科研的残酷现状。

以顶级AI学术会议为例,顶会论文海量的投稿和最终能够脱颖而出的口头报告(Oral)极低的比率使得SOTA性能指标成为了衡量研究价值的「金标准」。

然而,攀登这一高峰需要投入巨量的研究力量。一个顶尖成果或许始于少数几个大胆的直觉,但后续往往涉及数千次的持续打磨。

以著名的Transformer架构为例,自2017年问世以来,全球科研人员投入了海量算力与人力,历经数年的变体研究与打磨,才将其在通用语言理解评测集(GLUE)上的性能从约75%提升至90%以上。

这种迭代优化虽然必要,却占用了人类科学家本可用于原创性探索的大量精力。


图1 Transformer架构在GLUE评测集上的性能爬升

全自动刷榜

不同于现有只能在沙盒里做局部代码优化的框架,AutoSOTA 并不是对单一实验环节的局部加速。

它将智能体的作用范围大幅拓宽,向下延伸至环境准备、代码运行等基础琐碎任务,向上则触达研究灵感激发等核心构想步骤,旨在实现「从旧SOTA到新SOTA」、「从旧代码库到新代码库」的全面科研自动化。


图2 AutoSOTA研究问题框架

借鉴人类算法研究中的分工流程与协作逻辑,使不同科研智能体能够围绕同一目标推进方案设计、实验操作、数据分析与优化迭代,研究团队设计了8个各司其职的Agent:


图3 AutoSOTA端到端AI科研自动化系统

在资源准备与目标设定阶段,AgentResource负责物理落地,从PDF提取官方代码库,并自动搞定海量外部数据集和权重的下载,AgentObjective负责识别目标,通过树状结构分解将论文宏观目标转化为密集的评估标准,精准锁定要超越的目标。

构建环境和实验评估阶段,AgentInit负责初始化环境,根据论文概念补全代码库中缺失的脚本,AgentMonitor作为外部监控者,实时追踪执行轨迹 。一旦发现agent陷入了死循环调试,会立刻介入打断并提供高级指导,AgentFix专治各种报错。它带着失败记忆库来修复CUDA不匹配、缺包等环境问题。

深度反思与突破创新阶段,AgentIdeator是核心创新大脑,它结合外部文献先验知识,提出架构重组的优化假设 ,AgentScheduler作为系统调度中枢,管理实验的GPU资源和节点状态,并在每次改代码前自动打好Git快照以便随时回滚,AgentSupervisor作为监督者,严格执行由禁止修改评估脚本、禁止更改数据集划分等规则组成的红线系统,所有生成的Idea必须经过它的严格审计。

与此同时,AutoSOTA 配备了完善的工具库(Toolkit)与技能集(Skill Set),既能处理实验运行中的突发状况,又能胜任查阅文献、头脑风暴和方案谋划等高级工作,真正打通了从顶层规划到底层执行的闭环。

这意味着,AutoSOTA的野心不仅是「跑实验快一点」,更是引领AI科研自动化从单一环节的辅助工具,蜕变为一套系统化、常态化且高度智能的科研协作生态。

一周斩获105个SOTA

在最近进行的一场为期一周的真实压力测试中,AutoSOTA展示了令人震撼的工业产出能力。该实验以前一年的AI顶会论文成果为基础,在完全无人干预的条件下持续运行。

一周(168小时)内累计消耗约220亿Token(约10.4万美元,75万元人民币),最终成功发现了105个性能显著提升的SOTA模型。这意味着系统在这周内,平均每隔约1.6小时就能完成一次性能飞跃。这105个新模型平均实现了近10%的性能提升。

更令人惊讶的是,这些成果并非简单的超参数微调,其中超过60%的模型涉及新颖的结构设计,展现了系统在复杂设计空间中的挖掘能力。AutoSOTA并非机械搜索,它能在已有研究的基础上进行一定程度的结构创新。


图4 AutoSOTA实验结果

AutoSOTA的吞吐量与人类科研路径形成了极其鲜明的代差。对于一名经验丰富的人类研究者或人类博士而言,完成一个SOTA模型的完整迭代优化——包括精读文献、准备算力资源、安装工具搭建平台、模型训练评估、深入调研创新构思以及持续调优——通常需要数个月的时间。

相比之下,AutoSOTA走完从阅读论文到迭代优化的全流程,平均耗时仅为5小时。

这种百倍速的提升,不仅是效率的飞跃,更是科研范式维度的「降维打击」。系统通过「算力换智能」,在相对稳定的条件下,持续产出具备学术竞争力的工作。它具备完善的工具库与技能集,能够独立处理那些让研究者头疼的底层繁琐任务。

总结

AutoSOTA带给我们的震撼,不仅是产出了一批崭新的SOTA指标,更深层的意义在于它促使学界反思科研创新的初衷:单纯刷高SOTA分数,真的等同于实现了重大的科学突破吗?

它为我们抛出了一个极具启发性的命题:如何才能把人类科学家最稀缺的注意力,从机械的实验试错中释放出来,重新聚焦到更具原创价值、更考验长远判断的研究课题上?

未来理想的「人机协作」图景或许是这样的:由科研智能体系统去死磕那些重复度高、劳动密集的漫长优化流程;而人类科学家则专职负责提出好问题、锚定大方向、敏锐捕捉机遇并构思底层机制。

从这个角度来看,AutoSOTA更像是一个加持在科研流程上的「创造力放大器」 。

它的初衷决不是为了取代学者的原创智慧,而是要把这种原创性从低效繁杂的苦力活里彻底解放出来。


图5 AutoSOTA启发的人智协同科研范式

归根结底,真正关乎科研未来的,绝非让学者们陷入「把旧模型分数再推高一点」的循环,而是赋予他们探索那些未被定义、未被解释且未被系统深挖之难题的机会。

在这条探索之路上,AutoSOTA已经迈出了极具标志性的一步 。它不仅论证了智能体在AI科研自动化领域的磅礴潜力,更为我们描绘了一个充满希望的明天:当繁重的「性能优化」被智能体接管,科学研究终将回归其最纯粹、最珍贵的起点——大胆地提出问题,勇敢地驶向未知,去追寻真正无可替代的原始创新突破。

AutoSOTA的意义在于它重新定义了SOTA的价值。

当性能优化可以被大规模自动化发现时,我们必须反思:SOTA性能的刷新是否等同于重大的科学突破?

AutoSOTA给出的答案是:它应当成为人类科学家的「创造力放大器」。

通过将工程实现与科学发现解耦,AutoSOTA让研究者能够面对那些尚未被解释、尚未被系统探索的科学无人区。

参考资料:

https://arxiv.org/abs/2604.05550

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
震惊!李白《静夜思》被篡改“床前看月光”,网友:这才是原始版

震惊!李白《静夜思》被篡改“床前看月光”,网友:这才是原始版

火山詩话
2026-04-29 19:47:16
焦虑在脸上!扎卡利亚访华后感叹:美国战败时,中国并非总是赢家

焦虑在脸上!扎卡利亚访华后感叹:美国战败时,中国并非总是赢家

游古史
2026-04-28 22:31:53
终于来了,特斯拉推送重要更新!

终于来了,特斯拉推送重要更新!

花果科技
2026-04-29 16:01:53
北约傻眼:俄罗斯直接把缴获的M1主战坦克和豹2主战坦克送给了朝鲜

北约傻眼:俄罗斯直接把缴获的M1主战坦克和豹2主战坦克送给了朝鲜

阿龙聊军事
2026-04-29 17:12:43
拔出萝卜带出泥,深挖白冰发家史,他如何从送快递到兰博基尼会长

拔出萝卜带出泥,深挖白冰发家史,他如何从送快递到兰博基尼会长

阿凫爱吐槽
2026-04-29 11:31:56
开拓者1比4出局杨瀚森尚未出汗,最快下赛季重返CBA

开拓者1比4出局杨瀚森尚未出汗,最快下赛季重返CBA

姜大叔侃球
2026-04-29 12:46:01
湖人队詹姆斯拒绝效仿韦德、麦迪和甜瓜安东尼退役:不,绝对不会

湖人队詹姆斯拒绝效仿韦德、麦迪和甜瓜安东尼退役:不,绝对不会

好火子
2026-04-30 00:17:43
孙杨前女友郭珺上热搜!曾被称为武大女神,颜值高身材好

孙杨前女友郭珺上热搜!曾被称为武大女神,颜值高身材好

仙味少女心
2026-04-30 00:42:44
外媒称:中国向俄采购84架卡52武装直升机,今年就可以交付了!

外媒称:中国向俄采购84架卡52武装直升机,今年就可以交付了!

泠泠说史
2026-04-29 19:36:52
赶在特朗普访华前,70多名美议员致信特朗普:阻止中国做这件事

赶在特朗普访华前,70多名美议员致信特朗普:阻止中国做这件事

DS北风
2026-04-29 15:00:15
郭士强出手了!中国男篮大换血,19人名单出炉,多位名将被弃用

郭士强出手了!中国男篮大换血,19人名单出炉,多位名将被弃用

八斗小先生
2026-04-29 17:30:38
夫妻性生活:女人最讨厌的5种“床上行为”,男人千万别犯!

夫妻性生活:女人最讨厌的5种“床上行为”,男人千万别犯!

精彩分享快乐
2025-11-25 00:05:03
美军印太司令:再遭中国拦截就采取行动,中国军队需要提早防范

美军印太司令:再遭中国拦截就采取行动,中国军队需要提早防范

阅尽天下大事
2026-04-25 08:38:22
情侣在瑞士雪山顶“撒欢”,就这么被全世界直播了···

情侣在瑞士雪山顶“撒欢”,就这么被全世界直播了···

新欧洲
2026-04-21 19:37:05
个人收款被查了!2026年个人收款高于这个数,要小心!

个人收款被查了!2026年个人收款高于这个数,要小心!

新浪财经
2026-04-21 22:04:32
2026或不再需要固态电池!中国动力电池重大突破,安全、成本双杀

2026或不再需要固态电池!中国动力电池重大突破,安全、成本双杀

蜉蝣说
2026-04-28 11:14:04
太敢说了!山西男篮外教:今晚我们5打8取胜,为球员感到骄傲

太敢说了!山西男篮外教:今晚我们5打8取胜,为球员感到骄傲

林小湜体育频道
2026-04-29 23:02:12
美伊代表在安理会互批:美方称航道不是“谈判筹码”,伊朗批美国如同“海盗和恐怖组织”

美伊代表在安理会互批:美方称航道不是“谈判筹码”,伊朗批美国如同“海盗和恐怖组织”

新京报
2026-04-28 23:43:26
儿童绘本居然有床戏!尺度大胆细节露骨,儿童读物底线何在?

儿童绘本居然有床戏!尺度大胆细节露骨,儿童读物底线何在?

今朝牛马
2026-04-28 22:43:44
鏖战23局遗憾出局,赵心童输给墨菲,到底输在哪?

鏖战23局遗憾出局,赵心童输给墨菲,到底输在哪?

时局瞭望
2026-04-30 00:10:35
2026-04-30 01:43:00
新智元 incentive-icons
新智元
AI产业主平台领航智能+时代
15095文章数 66819关注度
往期回顾 全部

科技要闻

今晨庭审纪实|马斯克当庭讲述OpenAI被偷走

头条要闻

伊朗提出先解除封锁 特朗普回应

头条要闻

伊朗提出先解除封锁 特朗普回应

体育要闻

一场九球狂欢,各路神仙批量下凡

娱乐要闻

马頔一句话,孙杨妈妈怒骂节目组2小时

财经要闻

苏州,率先进入牛市

汽车要闻

技术天花板再摸高 全能型的奕境X9首秀

态度原创

亲子
旅游
时尚
家居
军事航空

亲子要闻

近年来屡上“黑榜”,十月结晶再因婴幼儿背带pH值不合格被通报

旅游要闻

48家公园推出110项假日特色活动

夏天穿维希格,原来这么好看

家居要闻

寂然无界 简洁风格

军事要闻

美国参议院否决限制特朗普对古巴动武的决议

无障碍浏览 进入关怀版