网易首页 > 网易号 > 正文 申请入驻

北大斯坦福联手打造「AI科学家」,预测精度超越人类专家

0
分享至



作者丨论文团队

编辑丨ScienceAI

如果 AI 能够比人类更精准、更高效地发现统治 AI 系统的「牛顿定律」,那么 AI 自我进化的奇点是否已经临近?

Scaling Laws(扩展定律)被誉为现代 AI 领域最接近「科学」的工具。从 Chinchilla 到 GPT-4,它指导研究者利用「小规模实验」精准预测「大模型的性能」,决定了算力分配、数据配比等关键决策。

然而,随着 AI 技术的演进,Scaling Law 的发现过程正变得愈发艰难。从经典的预训练拓展到强化学习、混合专家模型(MoE),每一个新场景都需要研究人员手动进行大量的假设、拟合与试错。

既然 AI 如此强大,为什么不让 AI 自己去发现 Scaling Law 呢?

近日,来自北京大学、斯坦福大学、宽德投资和清华大学的研究团队提出了一项开创性工作:Scaling Law Discovery (SLD)。这项工作不仅构建了包含 5000 多个真实实验的基准测试 SLDBench,还提出了一种基于进化的智能体框架 SLDAgent。令人惊讶的是,这个 AI 智能体发现的 Scaling Law,在预测精度和外推能力上已经超越了人类专家。



目前,该论文已被 ICLR 2026 接收。

论文地址:https://arxiv.org/abs/2507.21184

项目主页:https://linhaowei1.github.io/scaling_law_discovery/

HuggingFace:https://huggingface.co/collections/pkuHaowei/scaling-law-discovery

痛点:被「手动档」卡住的 AI 科研

Scaling Law 本质上是一个经验公式,预测模型性能(Loss、准确率等)与规模变量(模型参数量 N、数据量 D、计算量 C 等)之间的关系。

最经典的莫过于 Chinchilla 定律:



虽然公式看似简洁,但在实际科研中,发现正确的公式往往伴随着巨大的试错成本。

作者团队分享了一个真实的「血泪史」:在 2023 年进行大模型微调研究时,他们试图用预训练中经典的幂律(Power Law)去拟合微调性能,结果彻底失败。他们发现微调过程存在一个明显的「预幂律阶段(pre-power phase)」,现有 Scaling Law 公式根本无法准确描述。



微调过程中观察到的两阶段行为:预幂律阶段和幂律阶段。

最终,团队不得不专门写了一篇论文(https://arxiv.org/abs/2402.02314,发表于 ICML2024)来提出「修正后的 Scaling Law」。虽然结果很好(误差 RMSD 从 0.036 降到了 0.007),但过程极其耗时。



这揭示了一个残酷的现实: 每一项新的 AI 技术的大规模拓展(SFT、MoE、词表大小、并行策略等)都在呼唤新的 Scaling Law,而目前发现 Scaling Law 的这种「假设 → 拟合 → 失败 → 重来」的人工试错循环,已经成为制约 AI 发展的瓶颈。

SLDBench:首个 Scaling Law 发现基准

为了解决这个问题,研究团队首先需要定义:什么叫做「做好了 Scaling Law 研究」?

为此,他们构建了 SLDBench。这不是一个普通的合成数据集,而是基于从现有文献中收集的超过 5000 个真实的大模型训练实验构建的实验数据。



SLDBench 涵盖了从预训练、微调到 MoE 等多种场景的任务。

SLDBench 的独特之处在于:

1. 真实数据:智能体拿到的是真实的实验结果,不需要自己跑昂贵的训练。

2. 客观评估:不仅看拟合得好不好,更看外推(Extrapolation)得准不准。即用小规模数据发现规律,预测大规模模型的效果。

3. 未知探索:即便对人类专家来说,许多任务也没有已知的「完美公式」。SLDBench 完全模拟了真实世界中的「开放式科研」探索。

4. 高效轻量:相比于其他智能体评测任务(例如 SWEBench,MLEBench),SLDBench 不需要复杂的环境就能运行,科学发现的难度却不亚于这些任务。

这使得 SLDBench 成为衡量 AI 是否具备「科学发现能力」的绝佳标尺。

SLDAgent:公式和优化算法的共进化

发现 Scaling Law 绝不仅仅是找出一个数学公式 f(x) 那么简单。作者团队指出:「发现一个公式」和「找到让公式生效的拟合过程」同等重要。

许多漂亮的数学公式因为数值不稳定、难以拟合,在实际工程中毫无价值。

因此,该研究提出了 SLDAgent。这是一个基于进化算法(Evolutionary Algorithm)的智能体,它不是在单点优化,而是同时协同进化两个部分:

1. 符号表达式(Expression):即 Scaling Law 的数学形式。

2. 优化器(Optimizer):即如何稳健地拟合该公式参数的算法代码。



SLDAgent 的进化管线,同时搜索公式形式和拟合策略。

SLDAgent 从一个基线(如 Power Law + BFGS)出发,通过变异、交叉等操作不断生成新的变体,并利用类似 MAP-Elites 的机制保持种群的多样性。这种「协同优化」完美模拟了人类研究员「提出假设 → 调整拟合方法 → 验证」的科研闭环。

实验结果:AI 战胜了人类

在 SLDBench 上,SLDAgent 展现出了惊人的能力。在多个任务中,AI 发现的定律在准确性和外推能力上均超越了人类此前发表的成果。



SLDAgent 在各项任务中均优于人类发现的定律。

更有趣的是 AI 赢的方式。它并不是靠堆砌复杂的公式来「过拟合」,而是经常能发现更具物理意义的简洁形式。

案例 1:SFT 定律的物理意义





在 SFT 任务上,SLDAgent 发现的定律比人类提出的定律在量纲上更可解释。

案例 2:自动寻找最佳超参(学习率 & Batch Size)

对于预训练来说,如何根据模型规模选择最佳的学习率(lr)和 Batch Size(bsz)是老大难问题。

传统方法(来自阶跃星辰:https://step-law.github.io/)可能需要跑 3000 个实验,然后只选出 17 个「最优作为点」来拟合规律。而 SLDAgent 选择了一条更硬核的路:直接对整个 Loss 曲面 L (N, D, lr, bsz) 建模。

一旦得到了 Loss 曲面的公式,通过求偏导并令其为零,SLDAgent 就能直接推导出最优超参数的闭式解。这不仅利用了所有实验数据,还极大地提升了预测的鲁棒性。



SLDAgent 提出的 Scaling Law 求导后得到的最优超参非常接近最优超参。

迈向 AI 科学家

这篇 ICLR 2026 的接收论文给社区带来了一个重要的启示:

目前的 AI Agent 评估大多集中在写代码或做数学题上,而 SLD(Scaling Law Discovery) 提供了一个全新的视角 —— 评估 AI 进行科学研究的能力。

它要求 AI 具备符号推理能力、多场景泛化能力、长程规划能力,以及面对真实世界嘈杂数据时的鲁棒性。

正如作者在文中所言:「SLDBench 是我们将『AI 用于 AI 研究』这一概念进行程序化、基准化乃至最终自动化的初步尝试。」

也许在不久的将来,当我们面对新的 AI 架构时,不再需要人类苦苦试错,而是直接交给 AI 科学家,静待它给出那个支配系统的「牛顿定律」。

声明:包含AI生成内容

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
解禁仅1天!贾国龙再辩冰冻西兰花,罗永浩发《征服》,网友不解

解禁仅1天!贾国龙再辩冰冻西兰花,罗永浩发《征服》,网友不解

大嘴爱哔哔
2026-02-05 10:58:05
有个瞒着自己生二胎的爸妈是啥体验?网友:50多还能接二连三生

有个瞒着自己生二胎的爸妈是啥体验?网友:50多还能接二连三生

解读热点事件
2026-01-30 04:02:43
离春节半个月,深陷财务危机的王健林,因一个举动令大众刮目相看

离春节半个月,深陷财务危机的王健林,因一个举动令大众刮目相看

春之寞陌
2026-02-04 20:40:13
李亚鹏年会上哽咽发言:相信能度过难关 感谢那英、董宇辉等人捐款援助

李亚鹏年会上哽咽发言:相信能度过难关 感谢那英、董宇辉等人捐款援助

快科技
2026-02-05 18:07:36
四川9名厅级干部职务调整

四川9名厅级干部职务调整

金台资讯
2026-02-05 16:51:36
刚刚,28多家公司出现重大利好 利空消息,有没有与你相关的个股?

刚刚,28多家公司出现重大利好 利空消息,有没有与你相关的个股?

股市皆大事
2026-02-05 09:07:05
在小县城名声很臭是啥体验?网友:脸皮够厚,一切不成问题

在小县城名声很臭是啥体验?网友:脸皮够厚,一切不成问题

解读热点事件
2026-02-04 00:05:07
终极对决!稀土大决战,已经打响了!

终极对决!稀土大决战,已经打响了!

大嘴说天下
2026-02-05 20:36:16
牢A反驳罗翔,算是踢到钢板了

牢A反驳罗翔,算是踢到钢板了

大张的自留地
2026-01-30 15:10:44
热身赛:U19国青1-0乌兹别克斯坦U19,贾伟伟制胜球

热身赛:U19国青1-0乌兹别克斯坦U19,贾伟伟制胜球

懂球帝
2026-02-05 18:47:16
5270万,加盟火箭!斯通这次看走眼了,被管理层摆上货架略显无奈

5270万,加盟火箭!斯通这次看走眼了,被管理层摆上货架略显无奈

呆哥聊球
2026-02-05 13:04:10
节省1亿奢侈税!骑士成大赢家,哈登首秀时间来了,勇士成联盟第1

节省1亿奢侈税!骑士成大赢家,哈登首秀时间来了,勇士成联盟第1

巴叔GO聊体育
2026-02-05 11:10:41
自卫队写入日本宪法,会产生怎样的影响?

自卫队写入日本宪法,会产生怎样的影响?

新民周刊
2026-02-05 08:59:46
契丹人有多讲究?签订澶渊之盟后,100多年和北宋几乎秋毫无犯

契丹人有多讲究?签订澶渊之盟后,100多年和北宋几乎秋毫无犯

历史摆渡
2026-02-02 20:05:03
山东小伙娶只有8岁智商的新娘,笑的合不拢嘴,网友:赚大了!

山东小伙娶只有8岁智商的新娘,笑的合不拢嘴,网友:赚大了!

观察鉴娱
2026-02-01 15:02:49
阿斯:平图斯的阻氧面罩整套3万欧,帮助规划球员体能、强度

阿斯:平图斯的阻氧面罩整套3万欧,帮助规划球员体能、强度

懂球帝
2026-02-05 19:05:10
敢不敢打?我军重大人事变故后菲律宾南海演习,更像是一种试探

敢不敢打?我军重大人事变故后菲律宾南海演习,更像是一种试探

悦心知足
2026-02-01 00:50:48
普通人进步最快的方式是什么?看网友的分享我醍醐灌顶,全是细糠

普通人进步最快的方式是什么?看网友的分享我醍醐灌顶,全是细糠

另子维爱读史
2026-01-25 20:16:05
别再被北京退休金骗了!企退人员的真实工资,扎心了

别再被北京退休金骗了!企退人员的真实工资,扎心了

童童聊娱乐啊
2026-02-05 19:42:06
499隔衣服摸胸!私人影院暗藏涉黄:299元起步撕丝袜,还有更过火

499隔衣服摸胸!私人影院暗藏涉黄:299元起步撕丝袜,还有更过火

没有偏旁的常庆
2025-12-31 02:25:28
2026-02-05 21:24:49
ScienceAI incentive-icons
ScienceAI
关注人工智能与其他前沿技术
1227文章数 223关注度
往期回顾 全部

科技要闻

美团7.17亿元收购叮咚买菜

头条要闻

男子从着火电车救下3人未获评见义勇为 当地:系过错方

头条要闻

男子从着火电车救下3人未获评见义勇为 当地:系过错方

体育要闻

奇才:我学生……独行侠:成交!

娱乐要闻

微博之夜卷入座位风波!杨幂超话沦陷

财经要闻

中美"只会有好消息" 经济冷暖看房价

汽车要闻

李想为全新L9预热 all in AI造更好的车

态度原创

艺术
教育
亲子
手机
旅游

艺术要闻

他热爱绘画,生活中的每一刻都充满激情!

教育要闻

夫妻双方都是公立学校的老师,真的会很幸福吗?

亲子要闻

萌娃童言无忌,问妈妈的问题让妈妈无言以对,他问了什么?

手机要闻

荣耀方飞谈苹果要做折叠手机,称面对的挑战远比Air难得多

旅游要闻

直击现场!好玩好逛!2026岭南年货节明天在佛山南海开幕

无障碍浏览 进入关怀版