研究员首次全线落败——AI架构、数据、算法三战获科学发现级突破|实验|神经网络|ai架构

研究员首次全线落败——AI架构、数据、算法三战获科学发现级突破

2026-03-30 11:16:36　来源: 机器之心Pro

河北举报

分享至

「AI的发展，已经进入决赛圈。决赛圈比拼的，是AI自进化的加速度」 —— 项目负责人

DeepMind 德米斯·哈萨比斯曾用一句话定义他毕生的使命：「先解决智能问题，然后用它来解决其他一切问题。

这句话背后藏着一个极其深刻的逻辑——智能，是打开人类一切重大命题的万能钥匙。物理、化学、生物……所有领域的突破，本质上都在等待同一件事的发生：AI 真正掌握自我进化的能力。一旦这道门被打开，它所释放的能量，将同时涌入人类知识版图的每一个角落。

AI 的每一次进步，背后都是人类研究员在架构设计、数据清洗、算法调优上投入的海量人力——这是一条以人力为燃料的线性赛道：效率低下，迭代缓慢，而我们所期望的是那条指数级跃升的曲线。

AI 在加速，但驾驶它的，还是人类的双手。这，正是决赛圈真正的瓶颈所在。直到今天，这个瓶颈，第一次被正面击穿。

图：AI自主实现架构、数据、算法三大核心领域的科学发现级突破，其光芒向外辐射，驱动数学、生物医学、物理学等整片知识星系，迈入全新轨道。

来自创智学院、上海交通大学刘鹏飞研究团队（GAIR）发布的「超智能-进化」框架：ASI-Evolve，已经可以在不依赖人类研究员的前提下，独立完成「发现问题 → 设计方案 → 迭代验证 → 提炼规律」的完整科研闭环。

更重要的是，这一次并非某个局部领域的小试牛刀——而是在 AI 研发最硬核的三大核心战场上，同时交出了科学发现级别的答卷：

神经网络架构设计——AI 独立发现超越人类专家的全新架构。
预训练数据筛选——AI 自主优化数据策略，MMLU 评测提升超 18 个百分点。
⚙️强化学习算法设计——AI 设计出全新训练算法，数学竞赛题上超越 GRPO 基线达 12.5 分。

三场硬仗，三场胜利。人类研究员，在 AI 自我进化的加速度竞赛中，首次全线落败。如果说过去大家更多看到的是 AI 帮人类做研究，那么 ASI-Evolve 展示的是另一件事：AI 开始加速 AI。

不仅如此，团队还进一步证明，AI 优化出的设计可以直接迁移到真实药物发现任务，形成从 AI 研究到科学应用的完整链条。

开源链接：https://github.com/GAIR-NLP/ASI-Evolve

技术报告：https://github.com/GAIR-NLP/ASI-Evolve/blob/main/assets/paper.pdf

为什么这件事难？

AI 研究不是「给一个答案」

真实世界里的 AI 研究，本质上要同时跨过三重门槛：

执行成本高：一次有效验证往往要消耗数小时甚至更久的计算资源，还伴随真实工程接入与运行成本。
搜索空间大：目标开放、边界不预设，系统必须在大规模候选方向中自主找到有价值的探索路径。
反馈维度多：结果不是简单的「对 / 错」，而是多维、间接、甚至彼此冲突的信号，必须经过分析才能转化为下一步行动。

真正困难的，不是生成一个点子，而是在漫长、昂贵、弱反馈的实验循环里，持续进化自己的研究能力。ASI-Evolve 正是为这个问题而设计的。

三大核心成果：

AI 首次打通 AI 研发闭环

ASI-Evolve 的核心结果，不是几个彼此并列的案例，而是一条完整主线：AI 首次在统一框架下，打通了 AI 研发的三大核心支柱。

架构：AI 开始自主做模型架构研究

在神经网络架构设计任务中，ASI-Evolve 以 DeltaNet 为起点，围绕高效线性注意力展开长周期自主探索。系统累计进行了1773 轮演化实验，在验证阶段发现了105 个超过 DeltaNet 的新架构，最终最优模型相较 DeltaNet 获得大幅提升，接近当前人类设计 SOTA 增益的3 倍

更重要的是，这不是只在单一开发集上「刷出来」的结果。在扩展到1.3B 参数、100B token的大规模验证后：

开发集最高达到57.28%平均准确率，超过 DeltaNet 的 55.76%。
6 个 held-out OOD 任务上也达到45.40%，超过 DeltaNet 的 44.74%。

这说明 AI 发现的不是只对榜单有效的技巧，而是真正可以泛化的结构性改进。

数据：AI 开始自主塑造下一代模型要吃什么数据

AI自主处理训练数据，大幅提升模型表现

数据策略不再只是人工规则工程，也开始成为AI 可以持续研究、反复迭代、主动优化的对象。

算法：AI 不只是调超参，而是在发明新的 RL 训练算法

在强化学习算法设计任务中，ASI-Evolve 以 GRPO 为强基线，直接改写 advantage 分配与梯度更新机制。系统在 300 轮演化中训练并评估大量候选算法，其中 10 个在探索阶段超过 GRPO，最终有 3 个算法进入 14B 规模验证。最终算法在数学与代码等多类任务上相对 GRPO 取得一致提升：AMC32 上最高 +12.5 分、AIME24 上 +11.67 分、OlympiadBench 上 +5.04 分，并在数学、抽象推理、STEM、金融与代码等更广泛评测上保持优势。

AI自主设计算法

最有代表性的两个创新方向：

一个方向通过成对比较的 advantage 估计和不对称 clipping，显式建模「好的回答究竟比其他回答好多少」。
另一个方向引入全局更新预算，为每个 token 动态分配可信更新半径，从数学上约束 noisy training 中的策略更新稳定性。

它做的不是参数搜索，而是在真正进入算法层面的数学创新。这三项结果合在一起，说明AI 已经开始在架构、数据、算法这三大核心研发环节中形成闭环，直接参与 AI 自身的进化。

ASI-Evolve：

完整的 Learn-Design-Experiment-Analyze 闭环

为了解决这些复杂的科研任务，框架设计了「学习-设计-实验-分析」闭环，由五个相互配合的角色构成：

研究员：提出新假设、生成候选方案。
工程师：把方案真正放进实验环境执行，拿到真实结果。
分析者：阅读复杂实验输出，把杂乱日志、指标和现象提炼成可复用的洞察。
数据库：积累自身研究经验，形成对于具体任务的专业见解。
认知池：作为人类知识的图书馆，提供高质量的领域信息。

相比于以往的自动化科研工作流，改进在于两方面：一是让 AI 在实验中充分吸收人类科研积累，站在巨人的肩膀上，把盲目、冗余的探索压到最低；二是真正读懂并剖析实验输出，让每一次实验都被充分利用。

横向对比，效率明显提升

论文中的分析实验也展示了这一设计的必要性：在数学领域的 circle packing 任务上，ASI-Evolve 最快只用17 步就达到 SOTA 级结果，明显快于 OpenEvolve 和 GEPA；而当去除分析者，系统进化很快进入平台期；离开了认知池，启动明显变慢。这更说明了自主科研不是以量取胜的盲目搜索，而应该是「知识先验 + 实验反思」双重驱动下的高效演化。

消融实验，分析和认知缺一不可

从 AI 研究到真实应用：药物发现的迁移验证

然而，AI 优化出的 AI，在真实应用场景下真的有用吗？

为回答这个问题，GAIR 团队把 ASI-Evolve 演化出的架构迁移到了药物-靶点相互作用预测任务中，用 AI 自动发现的新架构去解决生物医药问题。

ASI-Evolve自主优化模型架构，实现跨领域应用提升

相较 DrugBAN 基线，ASI-Evolve 发现的架构在多个 benchmark 上都实现了稳定提升：

BindingDB 开发集：AUROC 提升 +1.91，F1 提升 +2.95。
随机测试集：AUROC 提升 +1.05。

更重要的是，在更困难、也更接近真实应用价值的cold-start场景里，面对从未见过的新药或新蛋白时，提升更大：

unseen drug 场景：AUROC 最高提升 +6.94。
unseen protein 场景：AUROC 提升 +3.56。
双重泛化（药物 + 蛋白均未见）：AUROC 提升 +4.36。

这说明 AI 自主研究得到的并不是「只对 AI benchmark 有效」的技巧，而是具有跨领域迁移价值的真实设计能力。AI 优化的 AI，开始在真实科学应用场景里显示出实用价值。

对开源社区与 AI 研究范式的意义

ASI-Evolve 真正值得关注的，不只是拿到了几个更高的分数，而是第一次在统一系统中，把「AI Accelerates AI」这件事系统性地展开并验证了出来。

GAIR 团队展示的是：AI 已经可以在架构、数据、算法这些 AI 发展的基础环节上，通过系统的自我进化闭环持续推进研究。这意味着，当 AI 智能快速发展时，这种增长不只体现在解题、写代码或执行任务上，也开始能够反哺 AI 自身科研，加速下一轮发明，形成 AI research level 的迭代进化，并辐射赋能 Math、Drug 等其他学科。

未来展望

随着 AI 持续变强，这种自我科研加速不会停留在架构、数据、算法三层，而可能进一步扩展到框架优化、推理加速等更完整的 AI 工作流。

在更宏观的层面上，随着进化系统承担越来越多实现、试验和迭代工作，人类可以把更多精力从「执行方案」转向「定义问题」，把最重要的问题设定、研究方向判断和价值选择留给人，把更大规模的假设空间探索交给 AI。

ASI-Evolve 展示的，是 AI 自我科研加速从设想走向系统性验证的一步。当 AI 开始真正参与 AI 的发明过程，我们看到的或许不只是效率提升，而是AI 研发范式本身开始发生变化

特别声明：以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布，本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.