网易首页 > 网易号 > 正文 申请入驻

研究员首次全线落败——AI架构、数据、算法三战获科学发现级突破

0
分享至



「AI的发展,已经进入决赛圈。决赛圈比拼的,是AI自进化的加速度」 —— 项目负责人

DeepMind 德米斯·哈萨比斯曾用一句话定义他毕生的使命:「先解决智能问题,然后用它来解决其他一切问题。

这句话背后藏着一个极其深刻的逻辑——智能,是打开人类一切重大命题的万能钥匙。物理、化学、生物……所有领域的突破,本质上都在等待同一件事的发生:AI 真正掌握自我进化的能力。一旦这道门被打开,它所释放的能量,将同时涌入人类知识版图的每一个角落。

AI 的每一次进步,背后都是人类研究员在架构设计、数据清洗、算法调优上投入的海量人力——这是一条以人力为燃料的线性赛道:效率低下,迭代缓慢,而我们所期望的是那条指数级跃升的曲线。

AI 在加速,但驾驶它的,还是人类的双手。这,正是决赛圈真正的瓶颈所在。直到今天,这个瓶颈,第一次被正面击穿。



图:AI自主实现架构、数据、算法三大核心领域的科学发现级突破,其光芒向外辐射,驱动数学、生物医学、物理学等整片知识星系,迈入全新轨道。

来自创智学院、上海交通大学刘鹏飞研究团队(GAIR)发布的「超智能-进化」框架:ASI-Evolve,已经可以在不依赖人类研究员的前提下,独立完成「发现问题 → 设计方案 → 迭代验证 → 提炼规律」的完整科研闭环。

更重要的是,这一次并非某个局部领域的小试牛刀——而是在 AI 研发最硬核的三大核心战场上,同时交出了科学发现级别的答卷:

  • 神经网络架构设计——AI 独立发现超越人类专家的全新架构。
  • 预训练数据筛选——AI 自主优化数据策略,MMLU 评测提升超 18 个百分点。
  • ⚙️强化学习算法设计——AI 设计出全新训练算法,数学竞赛题上超越 GRPO 基线达 12.5 分。

三场硬仗,三场胜利。人类研究员,在 AI 自我进化的加速度竞赛中,首次全线落败。如果说过去大家更多看到的是 AI 帮人类做研究,那么 ASI-Evolve 展示的是另一件事:AI 开始加速 AI。

不仅如此,团队还进一步证明,AI 优化出的设计可以直接迁移到真实药物发现任务,形成从 AI 研究到科学应用的完整链条。

开源链接:https://github.com/GAIR-NLP/ASI-Evolve

技术报告:https://github.com/GAIR-NLP/ASI-Evolve/blob/main/assets/paper.pdf

为什么这件事难?

AI 研究不是「给一个答案」

真实世界里的 AI 研究,本质上要同时跨过三重门槛:

  • 执行成本高:一次有效验证往往要消耗数小时甚至更久的计算资源,还伴随真实工程接入与运行成本。
  • 搜索空间大:目标开放、边界不预设,系统必须在大规模候选方向中自主找到有价值的探索路径。
  • 反馈维度多:结果不是简单的「对 / 错」,而是多维、间接、甚至彼此冲突的信号,必须经过分析才能转化为下一步行动。

真正困难的,不是生成一个点子,而是在漫长、昂贵、弱反馈的实验循环里,持续进化自己的研究能力。ASI-Evolve 正是为这个问题而设计的。

三大核心成果:

AI 首次打通 AI 研发闭环

ASI-Evolve 的核心结果,不是几个彼此并列的案例,而是一条完整主线:AI 首次在统一框架下,打通了 AI 研发的三大核心支柱。

架构:AI 开始自主做模型架构研究

在神经网络架构设计任务中,ASI-Evolve 以 DeltaNet 为起点,围绕高效线性注意力展开长周期自主探索。系统累计进行了1773 轮演化实验,在验证阶段发现了105 个超过 DeltaNet 的新架构,最终最优模型相较 DeltaNet 获得大幅提升,接近当前人类设计 SOTA 增益的3 倍



更重要的是,这不是只在单一开发集上「刷出来」的结果。在扩展到1.3B 参数、100B token的大规模验证后:

  • 开发集最高达到57.28%平均准确率,超过 DeltaNet 的 55.76%。
  • 6 个 held-out OOD 任务上也达到45.40%,超过 DeltaNet 的 44.74%。

这说明 AI 发现的不是只对榜单有效的技巧,而是真正可以泛化的结构性改进。

数据:AI 开始自主塑造下一代模型要吃什么数据





AI自主处理训练数据,大幅提升模型表现



数据策略不再只是人工规则工程,也开始成为AI 可以持续研究、反复迭代、主动优化的对象。

算法:AI 不只是调超参,而是在发明新的 RL 训练算法

在强化学习算法设计任务中,ASI-Evolve 以 GRPO 为强基线,直接改写 advantage 分配与梯度更新机制。系统在 300 轮演化中训练并评估大量候选算法,其中 10 个在探索阶段超过 GRPO,最终有 3 个算法进入 14B 规模验证。最终算法在数学与代码等多类任务上相对 GRPO 取得一致提升:AMC32 上最高 +12.5 分、AIME24 上 +11.67 分、OlympiadBench 上 +5.04 分,并在数学、抽象推理、STEM、金融与代码等更广泛评测上保持优势。



AI自主设计算法

最有代表性的两个创新方向:

  • 一个方向通过成对比较的 advantage 估计和不对称 clipping,显式建模「好的回答究竟比其他回答好多少」。
  • 另一个方向引入全局更新预算,为每个 token 动态分配可信更新半径,从数学上约束 noisy training 中的策略更新稳定性。

它做的不是参数搜索,而是在真正进入算法层面的数学创新。这三项结果合在一起,说明AI 已经开始在架构、数据、算法这三大核心研发环节中形成闭环,直接参与 AI 自身的进化。

ASI-Evolve:

完整的 Learn-Design-Experiment-Analyze 闭环





为了解决这些复杂的科研任务,框架设计了「学习-设计-实验-分析」闭环,由五个相互配合的角色构成:

  • 研究员:提出新假设、生成候选方案。
  • 工程师:把方案真正放进实验环境执行,拿到真实结果。
  • 分析者:阅读复杂实验输出,把杂乱日志、指标和现象提炼成可复用的洞察。
  • 数据库:积累自身研究经验,形成对于具体任务的专业见解。
  • 认知池:作为人类知识的图书馆,提供高质量的领域信息。

相比于以往的自动化科研工作流,改进在于两方面:一是让 AI 在实验中充分吸收人类科研积累,站在巨人的肩膀上,把盲目、冗余的探索压到最低;二是真正读懂并剖析实验输出,让每一次实验都被充分利用。



横向对比,效率明显提升

论文中的分析实验也展示了这一设计的必要性:在数学领域的 circle packing 任务上,ASI-Evolve 最快只用17 步就达到 SOTA 级结果,明显快于 OpenEvolve 和 GEPA;而当去除分析者,系统进化很快进入平台期;离开了认知池,启动明显变慢。这更说明了自主科研不是以量取胜的盲目搜索,而应该是「知识先验 + 实验反思」双重驱动下的高效演化。



消融实验,分析和认知缺一不可

从 AI 研究到真实应用:药物发现的迁移验证

然而,AI 优化出的 AI,在真实应用场景下真的有用吗?

为回答这个问题,GAIR 团队把 ASI-Evolve 演化出的架构迁移到了药物-靶点相互作用预测任务中,用 AI 自动发现的新架构去解决生物医药问题。





ASI-Evolve自主优化模型架构,实现跨领域应用提升

相较 DrugBAN 基线,ASI-Evolve 发现的架构在多个 benchmark 上都实现了稳定提升:

  • BindingDB 开发集:AUROC 提升 +1.91,F1 提升 +2.95。
  • 随机测试集:AUROC 提升 +1.05。

更重要的是,在更困难、也更接近真实应用价值的cold-start场景里,面对从未见过的新药或新蛋白时,提升更大:

  • unseen drug 场景:AUROC 最高提升 +6.94。
  • unseen protein 场景:AUROC 提升 +3.56。
  • 双重泛化(药物 + 蛋白均未见):AUROC 提升 +4.36。

这说明 AI 自主研究得到的并不是「只对 AI benchmark 有效」的技巧,而是具有跨领域迁移价值的真实设计能力。AI 优化的 AI,开始在真实科学应用场景里显示出实用价值。

对开源社区与 AI 研究范式的意义

ASI-Evolve 真正值得关注的,不只是拿到了几个更高的分数,而是第一次在统一系统中,把「AI Accelerates AI」这件事系统性地展开并验证了出来。

GAIR 团队展示的是:AI 已经可以在架构、数据、算法这些 AI 发展的基础环节上,通过系统的自我进化闭环持续推进研究。这意味着,当 AI 智能快速发展时,这种增长不只体现在解题、写代码或执行任务上,也开始能够反哺 AI 自身科研,加速下一轮发明,形成 AI research level 的迭代进化,并辐射赋能 Math、Drug 等其他学科。

未来展望

随着 AI 持续变强,这种自我科研加速不会停留在架构、数据、算法三层,而可能进一步扩展到框架优化、推理加速等更完整的 AI 工作流。

在更宏观的层面上,随着进化系统承担越来越多实现、试验和迭代工作,人类可以把更多精力从「执行方案」转向「定义问题」,把最重要的问题设定、研究方向判断和价值选择留给人,把更大规模的假设空间探索交给 AI。

ASI-Evolve 展示的,是 AI 自我科研加速从设想走向系统性验证的一步。当 AI 开始真正参与 AI 的发明过程,我们看到的或许不只是效率提升,而是AI 研发范式本身开始发生变化

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
一夜暴跌25%!小马哥最怕的事还是发生了:年轻人正在从腾讯溜走

一夜暴跌25%!小马哥最怕的事还是发生了:年轻人正在从腾讯溜走

潮鹿逐梦
2026-03-21 11:54:42
借7000元买手机,背上1.6万债:谁在拿iPhone做局?

借7000元买手机,背上1.6万债:谁在拿iPhone做局?

雷科技
2026-03-29 14:20:13
焦泊乔离队并非家人被骂,杜锋遭受无妄之灾,三人成虎谣言太可怕

焦泊乔离队并非家人被骂,杜锋遭受无妄之灾,三人成虎谣言太可怕

砚底沉香
2026-03-30 13:51:04
48小时摧毁以装甲营,人命代价给特朗普上课

48小时摧毁以装甲营,人命代价给特朗普上课

你是我心中最美星空
2026-03-30 12:37:54
内塔尼亚胡:以色列已改变中东面貌,伊朗已不再是过去的伊朗!此前万斯认为其对冲突预判“太乐观”,以军参谋长:常规部队已“完全崩溃”

内塔尼亚胡:以色列已改变中东面貌,伊朗已不再是过去的伊朗!此前万斯认为其对冲突预判“太乐观”,以军参谋长:常规部队已“完全崩溃”

每日经济新闻
2026-03-30 07:26:10
骑士消息:字母哥有望加盟,名宿力挺哈登,战爵士出场更新

骑士消息:字母哥有望加盟,名宿力挺哈登,战爵士出场更新

冷月小风风
2026-03-30 12:09:56
78岁汪明荃回上海老家探亲,带罗家英给祖父母扫墓,顺便踏青赏花

78岁汪明荃回上海老家探亲,带罗家英给祖父母扫墓,顺便踏青赏花

阿伧说事
2026-03-30 09:58:45
沪深两市成交额超1万亿元,较上一交易日此时放量1617亿元

沪深两市成交额超1万亿元,较上一交易日此时放量1617亿元

每日经济新闻
2026-03-30 10:37:12
马筱梅为玥儿箖箖推迟行程,过完台湾儿童节再回京,看起来很疲惫

马筱梅为玥儿箖箖推迟行程,过完台湾儿童节再回京,看起来很疲惫

嫹笔牂牂
2026-03-30 07:11:50
辟谣辟谣!广州供电局“疯狂”辟谣!

辟谣辟谣!广州供电局“疯狂”辟谣!

新快报新闻
2026-03-29 16:34:02
西红柿立大功!医生研究发现:老人吃西红柿,或能缓解4种症状

西红柿立大功!医生研究发现:老人吃西红柿,或能缓解4种症状

医学原创故事会
2026-01-21 21:50:30
蔡磊透露身体近况:四个人同时搀扶也无法迈步,感觉最对不起的就是妻子

蔡磊透露身体近况:四个人同时搀扶也无法迈步,感觉最对不起的就是妻子

极目新闻
2026-03-29 22:40:10
台中市长卢秀燕发布声明

台中市长卢秀燕发布声明

果妈聊娱乐
2026-03-29 10:00:45
同学聚会,班长让我给迟到的镇长让座,下一秒,县长向我道歉

同学聚会,班长让我给迟到的镇长让座,下一秒,县长向我道歉

农村情感故事
2026-03-23 07:31:39
李荣浩手撕单依纯!代言品牌天塌了!

李荣浩手撕单依纯!代言品牌天塌了!

李东阳朋友圈
2026-03-30 14:46:26
对肝特别好的四大食物,轮流着吃,第三种你可能想不到

对肝特别好的四大食物,轮流着吃,第三种你可能想不到

距离距离
2026-03-28 17:23:37
李荣浩预判封神,单依纯道歉果然甩锅团队!李荣浩再发四连问声讨

李荣浩预判封神,单依纯道歉果然甩锅团队!李荣浩再发四连问声讨

露珠聊影视
2026-03-29 17:57:06
人不会无故得阴道癌!医生直言:有阴道癌的女性,多半有3个习惯

人不会无故得阴道癌!医生直言:有阴道癌的女性,多半有3个习惯

健康之光
2026-02-11 14:14:41
国家出手逮捕的3名华人首富,疯狂敛财坑害百姓,每个都罪有应得

国家出手逮捕的3名华人首富,疯狂敛财坑害百姓,每个都罪有应得

林轻吟
2026-03-25 07:15:32
特朗普私下问:2028,万斯还是鲁比奥?

特朗普私下问:2028,万斯还是鲁比奥?

观察者网
2026-03-30 11:25:25
2026-03-30 15:15:00
机器之心Pro incentive-icons
机器之心Pro
专业的人工智能媒体
12638文章数 142599关注度
往期回顾 全部

科技要闻

DeepSeek性能异常问题已解决,服务恢复

头条要闻

美国如果发动地面战 本次战事军费或突破10万亿美元

头条要闻

美国如果发动地面战 本次战事军费或突破10万亿美元

体育要闻

想进世界杯,意大利还要过他这一关

娱乐要闻

单依纯凌晨发长文道歉!李荣浩再回应

财经要闻

油价冲击,有些亚洲货币先扛不住了!

汽车要闻

理想i9要来了!外形似小号MEGA 能冲击高端纯电市场?

态度原创

健康
数码
房产
艺术
公开课

干细胞抗衰4大误区,90%的人都中招

数码要闻

荣耀MagicBook 14/16 2026笔记本开启新品预约

房产要闻

32亿,三开三罄!谁在硬控海口楼市高端局?

艺术要闻

600 年前的「产亡孤魂」,藏着中国女性最痛的记忆

公开课

李玫瑾:为什么性格比能力更重要?

无障碍浏览 进入关怀版