网易首页 > 网易号 > 正文 申请入驻

MIT最新发现:这十年,算法进步被高估了

0
分享至



机器之心报道

机器之心编辑部

在过去十年中,AI 的进步主要由两股紧密相关的力量推动:迅速增长的计算预算,以及算法创新。

相比之下,计算量的增长较容易衡量,但我们仍然缺乏对算法进步的清晰量化,究竟哪些变化带来了效率提升,这些提升的幅度有多大,以及它们在不同计算规模下是否依然成立。

2024 年,有研究通过分析数百个语言模型,他们估计在过去十年里,算法进步在所谓的有效计算量(effective compute)方面贡献了超过 4 个数量级的提升;而根据对历史 AI 文献的分析,计算规模本身增长了 7 个数量级。

具体而言,所有算法创新加起来使模型的效率提高了大约 22,000 倍,这意味着在理论上可以用少得多的浮点运算次数(FLOPs)达到相同的性能水平。

然而,我们仍然缺乏对这类进步的精确分解,而关于算法进步来源的许多关键问题仍未得到充分研究。例如:各种算法改进之间是如何相互作用的?算法进步是由一系列小改动累积而成,还是由少数几次重大突破推动的?算法改进是像摩尔定律那样平滑持续地发展,还是呈现间断平衡(即长时间停滞 + 突然大跳跃)的模式?

为回答这些问题,来自 MIT 等机构的研究者采用了三种互补的方法:

  • 对语言模型中的重要算法改进进行消融实验;
  • 开展 scaling 实验,以测量不同架构在最优 scaling 行为上的差异;
  • 对数据与参数 scaling 转换进行理论分析。



  • 论文地址:https://arxiv.org/pdf/2511.21622
  • 论文标题:On the Origin of Algorithmic Progress in AI

最终得到三条结论:

1:经过实验评估的大多数算法创新都只带来了小幅的、与规模无关的效率提升,总体计算效率提升不到 10 倍,并且在推算到 2025 年的计算能力极限(2 × 10²³ FLOPs)时,这些提升仅占总改进的不到 10%。这表明,与规模无关的算法进步在整体效率提升中所占的份额很小

2:本文发现有两项强烈依赖规模(scale-dependent)的算法创新:从 LSTM 到 Transformer,以及从 Kaplan 到 Chinchilla 。当将其外推到 2025 年的计算前沿时,这两项创新合计占据了全部效率提升的 91%。这意味着:对于小规模模型而言,算法进步的幅度比此前认为的要小几个数量级。

3:在规模依赖型创新的情况下,效率提升不仅需要持续的计算投入,而且算法进步的速度还强烈依赖于你选择的参考算法。换句话说,相对于某一个基线算法,连续模型之间的进步率可能看起来是指数级的;但相对于另外一个基线算法,它却可能完全为零。

总体来看,这些发现表明:算法进步可能本质上就是依赖规模的,要真正体现其效益需要不断增长计算规模。同时,这也意味着算法进步对大模型开发者的益处远大于对小规模参与者的益处。



规模不变型算法

本文首先通过大量的消融实验来分析单个算法的影响,从而绘制出算法改进的细粒度图景。此外,本文还尝试估计了多项算法组合后的联合效果。

本文发现:原始论文(即提出某项算法改进的那篇论文)所声称的效率提升,往往远高于后续文献给出的估计,也高于本文的实验结果。



规模不变型算法的效率提升既小且分布高度不均

实验中发现,从 LSTM 切换到 Modern Transformer 的总效率提升为 6.28×,而从 LSTM 切换到 Retro Transformer 的效率提升为 4.69×。这比 Ho 等人(2024)的估计(他们认为 LSTM→Transformer 的提升约 60×)小得多。

虽然本文确实观察到一些改进(例如 Adam 优化器、以及从 post-layernorm 切换到 pre-RMSNorm)带来了大约 2× 的效率提升,但作者测量的大多数创新带来的提升都很小。

有趣的是,他们看到一个高度偏斜的效率提升分布:尽管所有被消融的创新带来的提升都低于 4×,但提升倍数却极不均匀,主要集中在少数几项改进上,例如 Adam 或 pre-layernorm。

从这个角度来看,算法进步比之前想象的更加断裂 / 不连续:多年小幅改进之后,会出现一次较大的算法跃迁。

许多改进的效率提升幅度很小,这也推动本文开展第二部分实验,比较算法变化在不同规模下的影响,从而揭示这些变化对神经网络 scaling laws 的作用。

依赖于规模的算法

前文提到,算法改进在小规模模型上带来的收益非常有限。因此自然会产生一个问题:在大规模下,算法收益会变得更大吗?

因此,本文对不同架构、优化器,以及算法创新进行了 scaling 实验,以更好地理解它们的效率提升如何随计算规模变化。

实验模型主要为 LSTM、Transformer,以及两种 Transformer 变体:Modern Transformer、Retro Transformer。

规模扩展实验:从 LSTM 到 Transformer

图 4A 展示了 LSTM 与现代 Transformer 在 scaling 上的差异,图 4B 展示了现代 Transformer 与 Retro Transformer 的 scaling 差异。



Scaling 图表表明,神经网络架构的改进并不是规模不变的,而是具有随规模增加而回报提升的特性(increasing returns to scale)。

算法进步强烈依赖于算力规模与参考基线

算法进步可能主要由算力提升所驱动

本文提出一个疑问:此前将算法进步与时间挂钩的说法,是否其实是由算力投入的持续增长所驱动?

已有估计表明,前沿模型的计算预算正以每年 4.2 倍的速度呈指数增长。因此,随着算力预算呈指数级提升,算法进步的速率可能更多是受这一规律性的算力扩张所推动,而不是源于不断涌现的算法创新。

本文发现:在 2017–2025 年间,几乎所有可解释的算法进步都来自两项规模依赖型的创新:从 LSTM 换成 Transformer,以及从 Kaplan 换成 Chinchilla 的训练策略。其他所有算法改进加起来只占很小一部分。

在总计 21,400 倍(相对于 LSTM 模型)的性能提升中,本文发现 846 倍的提升是通过从 LSTM 模型转向 Kaplan Transformer 模型实现的,而近 10 倍的提升则归功于 Chinchilla 调整训练策略。这两项创新共同构成了总相对效率提升的 91%。



算法进步的速度,取决于你拿谁当对照组

如果算法变得更强,是不是意味着进步更快,其实这完全取决于你选谁来当参照物。换个参照物,算法进步的速度立刻就变了。

因为有些算法改进是规模依赖型(scale-dependent) 的:在大模型、大算力下提升巨大;但在小模型、小算力下几乎没作用。

这导致一个有趣现象:如果你用 LSTM 当参照:Transformer 系列(尤其是更大模型)会显得算法进步是指数增长的(论文测到一年增长率大约 63%,非常快);但如果你用 Transformer 自己当参照,随着规模变大,你只看到算法只比以前好 2 倍,几乎没增长。

也就是说:换个对照组,算法进步就从指数增长变成增长幅度很少。



特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
奖金缩水,阿尔卡拉斯夺冠后将缴纳134.9万澳元税款

奖金缩水,阿尔卡拉斯夺冠后将缴纳134.9万澳元税款

懂球帝
2026-02-02 14:18:30
隋棠只穿蕾丝内衣「浑圆翘臀」被看光! 重训10个月真实身材公开

隋棠只穿蕾丝内衣「浑圆翘臀」被看光! 重训10个月真实身材公开

ETtoday星光云
2026-02-02 22:22:04
江苏盐城一座在建桥梁垮塌

江苏盐城一座在建桥梁垮塌

界面新闻
2026-02-02 23:46:52
连申线月港大桥塌落事故情况通报

连申线月港大桥塌落事故情况通报

扬子晚报
2026-02-03 07:20:52
孩子私卖长辈金镯被金店1.7万元回收,家长半年后发现要求退还遭拒绝,市监局和警方介入调查

孩子私卖长辈金镯被金店1.7万元回收,家长半年后发现要求退还遭拒绝,市监局和警方介入调查

极目新闻
2026-02-02 13:58:31
一天2.2万人爽约!灵隐寺这次算是被白嫖党,给狠狠上了一课!

一天2.2万人爽约!灵隐寺这次算是被白嫖党,给狠狠上了一课!

云中浮生
2026-02-02 13:57:22
为什么我听马三立老先生的相声,觉得不可乐?网友评论有道理

为什么我听马三立老先生的相声,觉得不可乐?网友评论有道理

墙头草
2026-02-02 13:59:07
太扎心了!聊城34岁离异女子宁愿住北京出租屋,也不回老家过年…

太扎心了!聊城34岁离异女子宁愿住北京出租屋,也不回老家过年…

火山诗话
2026-02-02 21:57:52
三上悠亚自曝:我的体毛曾拍出300万日元的天价!

三上悠亚自曝:我的体毛曾拍出300万日元的天价!

随波荡漾的漂流瓶
2026-02-02 21:18:42
心脏装了6个支架的王石日本看病实录,值得深思

心脏装了6个支架的王石日本看病实录,值得深思

深度报
2026-01-01 23:17:29
30亿核潜艇南海撞废,美军反常没咬中国,背后是被谁逼停了?

30亿核潜艇南海撞废,美军反常没咬中国,背后是被谁逼停了?

近史博览
2026-02-02 20:31:45
德国军官分析100式坦克优缺点:美国下一代坦克必须超越它

德国军官分析100式坦克优缺点:美国下一代坦克必须超越它

触摸史迹
2026-02-02 18:48:37
他的剧,还是好癫啊!

他的剧,还是好癫啊!

桃桃淘电影
2026-02-02 10:15:13
国际奥委会感到失望,上海、成都、广州三座城市均未提交申请。

国际奥委会感到失望,上海、成都、广州三座城市均未提交申请。

南权先生
2026-02-02 15:57:03
公安处从辉煌走向衰落

公安处从辉煌走向衰落

文雅笔墨
2026-02-02 19:48:22
男人切记:搞定女人的“千古定律”,只有一条,屡试不爽!

男人切记:搞定女人的“千古定律”,只有一条,屡试不爽!

云端小院
2026-01-31 08:59:12
11岁小玥儿正脸照曝光,长得不像大S,而是妥妥的汪小菲模样!

11岁小玥儿正脸照曝光,长得不像大S,而是妥妥的汪小菲模样!

娱乐团长
2026-02-03 09:39:02
投资圈大佬去世!年仅40岁,坊间流传死因或与黄金白银暴跌有关

投资圈大佬去世!年仅40岁,坊间流传死因或与黄金白银暴跌有关

火山诗话
2026-02-03 09:11:09
曝C罗知悉本泽马交易后很愤怒!与PIF矛盾已无法调和 将继续罢赛

曝C罗知悉本泽马交易后很愤怒!与PIF矛盾已无法调和 将继续罢赛

风过乡
2026-02-03 07:22:33
国家下狠手了!体制内大地震,少爷、公主们的“天”,要塌了

国家下狠手了!体制内大地震,少爷、公主们的“天”,要塌了

霹雳炮
2026-01-19 22:24:13
2026-02-03 11:31:00
机器之心Pro incentive-icons
机器之心Pro
专业的人工智能媒体
12238文章数 142562关注度
往期回顾 全部

科技要闻

马斯克官宣,SpaceX并购xAI,打造天基算力

头条要闻

克林顿夫妇同意就爱泼斯坦案调查赴美众议院作证

头条要闻

克林顿夫妇同意就爱泼斯坦案调查赴美众议院作证

体育要闻

澳网男单决赛,属于阿尔卡拉斯的加冕仪式

娱乐要闻

小S致词:感谢具俊晔陪伴大S的最后3年

财经要闻

“精准查人”黑产链条遭查

汽车要闻

全新宝马X5领衔 宝马2026巴黎车展阵容公布

态度原创

亲子
健康
本地
数码
公开课

亲子要闻

孩子变得黏人,可能是在向你求救

耳石症分类型,症状大不同

本地新闻

云游中国|拨开云雾,巫山每帧都是航拍大片

数码要闻

“iPod之父”呼吁苹果重启iPod:借怀旧情怀与纯粹体验抢占市场

公开课

李玫瑾:为什么性格比能力更重要?

无障碍浏览 进入关怀版