网易首页 > 网易号 > 正文 申请入驻

研究员首次全线落败——AI架构、数据、算法三战获科学发现级突破

0
分享至



「AI的发展,已经进入决赛圈。决赛圈比拼的,是AI自进化的加速度」 —— 项目负责人

DeepMind 德米斯·哈萨比斯曾用一句话定义他毕生的使命:「先解决智能问题,然后用它来解决其他一切问题。

这句话背后藏着一个极其深刻的逻辑——智能,是打开人类一切重大命题的万能钥匙。物理、化学、生物……所有领域的突破,本质上都在等待同一件事的发生:AI 真正掌握自我进化的能力。一旦这道门被打开,它所释放的能量,将同时涌入人类知识版图的每一个角落。

AI 的每一次进步,背后都是人类研究员在架构设计、数据清洗、算法调优上投入的海量人力——这是一条以人力为燃料的线性赛道:效率低下,迭代缓慢,而我们所期望的是那条指数级跃升的曲线。

AI 在加速,但驾驶它的,还是人类的双手。这,正是决赛圈真正的瓶颈所在。直到今天,这个瓶颈,第一次被正面击穿。



图:AI自主实现架构、数据、算法三大核心领域的科学发现级突破,其光芒向外辐射,驱动数学、生物医学、物理学等整片知识星系,迈入全新轨道。

来自创智学院、上海交通大学刘鹏飞研究团队(GAIR)发布的「超智能-进化」框架:ASI-Evolve,已经可以在不依赖人类研究员的前提下,独立完成「发现问题 → 设计方案 → 迭代验证 → 提炼规律」的完整科研闭环。

更重要的是,这一次并非某个局部领域的小试牛刀——而是在 AI 研发最硬核的三大核心战场上,同时交出了科学发现级别的答卷:

  • 神经网络架构设计——AI 独立发现超越人类专家的全新架构。
  • 预训练数据筛选——AI 自主优化数据策略,MMLU 评测提升超 18 个百分点。
  • ⚙️强化学习算法设计——AI 设计出全新训练算法,数学竞赛题上超越 GRPO 基线达 12.5 分。

三场硬仗,三场胜利。人类研究员,在 AI 自我进化的加速度竞赛中,首次全线落败。如果说过去大家更多看到的是 AI 帮人类做研究,那么 ASI-Evolve 展示的是另一件事:AI 开始加速 AI。

不仅如此,团队还进一步证明,AI 优化出的设计可以直接迁移到真实药物发现任务,形成从 AI 研究到科学应用的完整链条。

开源链接:https://github.com/GAIR-NLP/ASI-Evolve

技术报告:https://github.com/GAIR-NLP/ASI-Evolve/blob/main/assets/paper.pdf

为什么这件事难?

AI 研究不是「给一个答案」

真实世界里的 AI 研究,本质上要同时跨过三重门槛:

  • 执行成本高:一次有效验证往往要消耗数小时甚至更久的计算资源,还伴随真实工程接入与运行成本。
  • 搜索空间大:目标开放、边界不预设,系统必须在大规模候选方向中自主找到有价值的探索路径。
  • 反馈维度多:结果不是简单的「对 / 错」,而是多维、间接、甚至彼此冲突的信号,必须经过分析才能转化为下一步行动。

真正困难的,不是生成一个点子,而是在漫长、昂贵、弱反馈的实验循环里,持续进化自己的研究能力。ASI-Evolve 正是为这个问题而设计的。

三大核心成果:

AI 首次打通 AI 研发闭环

ASI-Evolve 的核心结果,不是几个彼此并列的案例,而是一条完整主线:AI 首次在统一框架下,打通了 AI 研发的三大核心支柱。

架构:AI 开始自主做模型架构研究

在神经网络架构设计任务中,ASI-Evolve 以 DeltaNet 为起点,围绕高效线性注意力展开长周期自主探索。系统累计进行了1773 轮演化实验,在验证阶段发现了105 个超过 DeltaNet 的新架构,最终最优模型相较 DeltaNet 获得大幅提升,接近当前人类设计 SOTA 增益的3 倍



更重要的是,这不是只在单一开发集上「刷出来」的结果。在扩展到1.3B 参数、100B token的大规模验证后:

  • 开发集最高达到57.28%平均准确率,超过 DeltaNet 的 55.76%。
  • 6 个 held-out OOD 任务上也达到45.40%,超过 DeltaNet 的 44.74%。

这说明 AI 发现的不是只对榜单有效的技巧,而是真正可以泛化的结构性改进。

数据:AI 开始自主塑造下一代模型要吃什么数据





AI自主处理训练数据,大幅提升模型表现



数据策略不再只是人工规则工程,也开始成为AI 可以持续研究、反复迭代、主动优化的对象。

算法:AI 不只是调超参,而是在发明新的 RL 训练算法

在强化学习算法设计任务中,ASI-Evolve 以 GRPO 为强基线,直接改写 advantage 分配与梯度更新机制。系统在 300 轮演化中训练并评估大量候选算法,其中 10 个在探索阶段超过 GRPO,最终有 3 个算法进入 14B 规模验证。最终算法在数学与代码等多类任务上相对 GRPO 取得一致提升:AMC32 上最高 +12.5 分、AIME24 上 +11.67 分、OlympiadBench 上 +5.04 分,并在数学、抽象推理、STEM、金融与代码等更广泛评测上保持优势。



AI自主设计算法

最有代表性的两个创新方向:

  • 一个方向通过成对比较的 advantage 估计和不对称 clipping,显式建模「好的回答究竟比其他回答好多少」。
  • 另一个方向引入全局更新预算,为每个 token 动态分配可信更新半径,从数学上约束 noisy training 中的策略更新稳定性。

它做的不是参数搜索,而是在真正进入算法层面的数学创新。这三项结果合在一起,说明AI 已经开始在架构、数据、算法这三大核心研发环节中形成闭环,直接参与 AI 自身的进化。

ASI-Evolve:

完整的 Learn-Design-Experiment-Analyze 闭环





为了解决这些复杂的科研任务,框架设计了「学习-设计-实验-分析」闭环,由五个相互配合的角色构成:

  • 研究员:提出新假设、生成候选方案。
  • 工程师:把方案真正放进实验环境执行,拿到真实结果。
  • 分析者:阅读复杂实验输出,把杂乱日志、指标和现象提炼成可复用的洞察。
  • 数据库:积累自身研究经验,形成对于具体任务的专业见解。
  • 认知池:作为人类知识的图书馆,提供高质量的领域信息。

相比于以往的自动化科研工作流,改进在于两方面:一是让 AI 在实验中充分吸收人类科研积累,站在巨人的肩膀上,把盲目、冗余的探索压到最低;二是真正读懂并剖析实验输出,让每一次实验都被充分利用。



横向对比,效率明显提升

论文中的分析实验也展示了这一设计的必要性:在数学领域的 circle packing 任务上,ASI-Evolve 最快只用17 步就达到 SOTA 级结果,明显快于 OpenEvolve 和 GEPA;而当去除分析者,系统进化很快进入平台期;离开了认知池,启动明显变慢。这更说明了自主科研不是以量取胜的盲目搜索,而应该是「知识先验 + 实验反思」双重驱动下的高效演化。



消融实验,分析和认知缺一不可

从 AI 研究到真实应用:药物发现的迁移验证

然而,AI 优化出的 AI,在真实应用场景下真的有用吗?

为回答这个问题,GAIR 团队把 ASI-Evolve 演化出的架构迁移到了药物-靶点相互作用预测任务中,用 AI 自动发现的新架构去解决生物医药问题。





ASI-Evolve自主优化模型架构,实现跨领域应用提升

相较 DrugBAN 基线,ASI-Evolve 发现的架构在多个 benchmark 上都实现了稳定提升:

  • BindingDB 开发集:AUROC 提升 +1.91,F1 提升 +2.95。
  • 随机测试集:AUROC 提升 +1.05。

更重要的是,在更困难、也更接近真实应用价值的cold-start场景里,面对从未见过的新药或新蛋白时,提升更大:

  • unseen drug 场景:AUROC 最高提升 +6.94。
  • unseen protein 场景:AUROC 提升 +3.56。
  • 双重泛化(药物 + 蛋白均未见):AUROC 提升 +4.36。

这说明 AI 自主研究得到的并不是「只对 AI benchmark 有效」的技巧,而是具有跨领域迁移价值的真实设计能力。AI 优化的 AI,开始在真实科学应用场景里显示出实用价值。

对开源社区与 AI 研究范式的意义

ASI-Evolve 真正值得关注的,不只是拿到了几个更高的分数,而是第一次在统一系统中,把「AI Accelerates AI」这件事系统性地展开并验证了出来。

GAIR 团队展示的是:AI 已经可以在架构、数据、算法这些 AI 发展的基础环节上,通过系统的自我进化闭环持续推进研究。这意味着,当 AI 智能快速发展时,这种增长不只体现在解题、写代码或执行任务上,也开始能够反哺 AI 自身科研,加速下一轮发明,形成 AI research level 的迭代进化,并辐射赋能 Math、Drug 等其他学科。

未来展望

随着 AI 持续变强,这种自我科研加速不会停留在架构、数据、算法三层,而可能进一步扩展到框架优化、推理加速等更完整的 AI 工作流。

在更宏观的层面上,随着进化系统承担越来越多实现、试验和迭代工作,人类可以把更多精力从「执行方案」转向「定义问题」,把最重要的问题设定、研究方向判断和价值选择留给人,把更大规模的假设空间探索交给 AI。

ASI-Evolve 展示的,是 AI 自我科研加速从设想走向系统性验证的一步。当 AI 开始真正参与 AI 的发明过程,我们看到的或许不只是效率提升,而是AI 研发范式本身开始发生变化

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
82元保卫战告急!五粮液从350跌到82,9000亿市值蒸发!

82元保卫战告急!五粮液从350跌到82,9000亿市值蒸发!

慧眼看世界哈哈
2026-05-27 12:29:45
台积电已无法向美国交代了!张忠谋没有说谎:台积电也万般无奈了

台积电已无法向美国交代了!张忠谋没有说谎:台积电也万般无奈了

阿伧说事
2026-05-27 13:18:29
官方回应稻城亚丁景区截断省道收费争议:将尽快向公众答复

官方回应稻城亚丁景区截断省道收费争议:将尽快向公众答复

南方都市报
2026-05-27 12:34:06
为什么往死里扫黄?网友分享太真实了,一次说透

为什么往死里扫黄?网友分享太真实了,一次说透

另子维爱读史
2026-05-27 20:16:03
行进中国丨老城向上 “天台经济”点亮古城夜色

行进中国丨老城向上 “天台经济”点亮古城夜色

人民资讯
2026-05-27 09:49:52
狗在交配时会锁结30分钟无法中断,如此危险的动作为何没被淘汰?

狗在交配时会锁结30分钟无法中断,如此危险的动作为何没被淘汰?

宇宙时空
2026-05-27 16:00:16
43岁港星自曝在中山买房,晒房产证直呼划算,四房两厅不到200万

43岁港星自曝在中山买房,晒房产证直呼划算,四房两厅不到200万

八斗小先生
2026-05-27 11:37:59
塞尔维亚总统夫人上海购物清单大揭秘

塞尔维亚总统夫人上海购物清单大揭秘

上观新闻
2026-05-27 12:38:05
这一夜,徐璐豁出去了穿透视装,火辣身材却被吉娜小蛮腰抢了风头

这一夜,徐璐豁出去了穿透视装,火辣身材却被吉娜小蛮腰抢了风头

乐天闲聊
2026-05-27 16:45:49
单纯浏览色情网站违法吗网警明确:3个行为一碰直接触犯刑法坐牢

单纯浏览色情网站违法吗网警明确:3个行为一碰直接触犯刑法坐牢

小蜜情感说
2026-05-27 10:58:07
山西沁水公告:鼓励全社会举报煤矿领域严重违法行为,查实存在隐蔽工作面的奖200万,监控系统造假的奖50万,违规转包分包的奖50万

山西沁水公告:鼓励全社会举报煤矿领域严重违法行为,查实存在隐蔽工作面的奖200万,监控系统造假的奖50万,违规转包分包的奖50万

极目新闻
2026-05-27 14:01:22
日本性感写真女星自曝:从小胸就很大却只能穿破内衣,17岁就想逃离这个家。。。

日本性感写真女星自曝:从小胸就很大却只能穿破内衣,17岁就想逃离这个家。。。

日本物语
2026-05-26 21:51:29
被央媒怒批,目不识丁、德不配位,这几位“文盲”明星到底凭啥火

被央媒怒批,目不识丁、德不配位,这几位“文盲”明星到底凭啥火

汉字笔迹心理分析
2026-05-27 07:12:08
我国最大深水型淡水湖告急:一年少4亿立方水,到底如何能盘活?

我国最大深水型淡水湖告急:一年少4亿立方水,到底如何能盘活?

今墨缘
2026-05-26 15:14:45
美国通知以色列,如果与伊朗达成协议,将从以色列撤军

美国通知以色列,如果与伊朗达成协议,将从以色列撤军

山河路口
2026-05-27 20:43:04
家长因孩子调座反复投诉威胁,小学女老师选择硬刚将家长告上法庭

家长因孩子调座反复投诉威胁,小学女老师选择硬刚将家长告上法庭

观世记
2026-05-27 16:38:57
王鹤棣风波连累父亲炸串店遭差评?流量红利与舆论反噬的真实真相

王鹤棣风波连累父亲炸串店遭差评?流量红利与舆论反噬的真实真相

露珠聊影视
2026-05-27 14:39:39
1969年许世友为王近山求情,毛主席打趣:放虎归山,哪个军区敢要

1969年许世友为王近山求情,毛主席打趣:放虎归山,哪个军区敢要

磊子讲史
2026-05-26 18:56:24
8000公里外传来意外之喜,这就是中国国运!美国急疯也没任何作用

8000公里外传来意外之喜,这就是中国国运!美国急疯也没任何作用

趣文说娱
2026-05-27 20:16:37
四年一到必须走人,这才是中国最“狠”的铁饭碗

四年一到必须走人,这才是中国最“狠”的铁饭碗

复转这些年
2026-05-26 19:09:41
2026-05-27 22:36:49
机器之心Pro incentive-icons
机器之心Pro
专业的人工智能媒体
13097文章数 142653关注度
往期回顾 全部

科技要闻

韬定律:全球在卷纳米数 华为换了一把尺子

头条要闻

女子称车祸住院遭男医生侵犯 送检的纸巾检出医生精斑

头条要闻

女子称车祸住院遭男医生侵犯 送检的纸巾检出医生精斑

体育要闻

这群老阿姨,是最硬核的马刺球迷

娱乐要闻

王鹤棣风波连累父亲炸串店遭差评?

财经要闻

中国半导体的阳谋

汽车要闻

限时补贴价9.28-10.98万 MG 4X正式上市

态度原创

本地
亲子
教育
游戏
公开课

本地新闻

用剪纸的方式,打开江苏扬州

亲子要闻

凡是把孩子扔给公婆、父母和保姆带,自己上班的宝妈,妈妈显年轻,孩子听话;而一心带孩子全职宝妈,易显老还被轻看

教育要闻

5577人毕业,86.1%落实就业!这所"听起来像野鸡大学"的学校,就业率碾压

《巫师3》新DLC终于来了!CDPR这次会再次封神吗?

公开课

李玫瑾:为什么性格比能力更重要?

无障碍浏览 进入关怀版