网易首页

注册免费邮箱

网易首页 > 网易号 > 正文申请入驻

o3崛起，但推理模型离「撞墙」只剩一年？

2025-05-31 12:14:36　来源: 新智元

北京举报

0

分享至

新智元报道

编辑：英智

【新智元导读】OpenAI的o3推理模型席卷AI界，算力暴增10倍，能力突飞猛进！但专家警告：最多一年，推理模型可能一年内撞上算力资源极限。OpenAI还能否带来惊喜？

最多一年，推理模型就会撞上训练算力的「天花板」。

OpenAI的o3这样的推理模型，诞生还不到一年，能力已经突飞猛进。OpenAI的研究人员非常乐观地认为，这种趋势会持续下去。

但问题来了：推理模型到底还能进步到什么程度？

Epoch AI是一个独立的AI研究团队，专注于对大模型的发展速度、发展轨迹以及可能产生的社会影响进行前瞻性研究。

他们认为，推理模型确实还有进步空间，但想让OpenAI或者其他顶尖AI公司实现「指数级大飞跃」，基本不太可能。

按现在的节奏，每几个月计算能力翻10倍（就像o1到o3那样），估计最多一年就会撞墙。

到2026年，扩展速度将会放缓，回落到每年4倍的增速水平，模型的升级速度也会跟着变慢。

如果类似o1到o3这样的规模提升持续下去，推理计算资源增长的可能轨迹

研究的主要线索如下：

o3的训练算力是o1的10倍，基本是指推理训练阶段，o3在o1发布4个月后就推出了。
虽然不知道o1具体用了多少算力，但DeepSeek-R1可以用来参考。
英伟达的Llama-Nemotron、微软的Phi-4-reasoning，也透露出一些训练细节。
Anthropic CEO Dario Amodei也发表过相关看法。

前沿推理模型得烧多少算力？

OpenAI的o3和其他推理模型，都是从传统大语言模型发展而来的。

最开始，模型会用海量人工标注数据进行「预训练」；然后进入强化学习阶段，通过反馈优化模型解决难题的能力，这就是「推理训练」。

从历史上看，算力是AI发展的关键。

所以得搞清楚：现在推理训练到底用了多少算力？还能增加多少，这又会怎么影响模型的能力？

虽然推理模型在AI圈火得一塌糊涂，但推理模型的推理训练算力的公开信息却很少。

从o1到o3：推理算力翻了十倍

OpenAI发过一张图，对比o1和o3在AIME基准测试的表现，横轴是推理训练的算力。

它表明，o3的训练算力是o1的10倍。

摘自OpenAI的o3直播发布会

为啥说横轴不是总算力？

因为o1早期版本的算力比o3少4个数量级，但AIME得分也有25%，要是算总算力，这个成绩就太离谱了。

此外，如果横轴是总计算资源，就意味着OpenAI训练了许多预训练阶段高度不完整的o1版本。

OpenAI研究员最近也透露，公司接下来打算重点发展强化学习，投入的计算资源会比训练初始模型时还要多。

o3具体用了多少算力？目前没实锤，得从其他模型和业内人士的话里找线索。

来自DeepSeek-R1的见解

大部分AI公司都把训练细节捂得严严实实，但DeepSeek大方公开了R1的数据：

DeepSeek-R1在强化学习阶段花了6×10²³次浮点运算（成本约100万美元），生成了2万亿个token，大约是基础模型DeepSeek-V3预训练成本的20%。

这个数据虽然有误差，但仍然很有帮助，DeepSeek-R1和o1水平差不多，可作为基准。

不过，由于各种原因，DeepSeek-R1的推理算力可能与o1不同。两个模型参数量、计算效率都不一样，所以结果仅供参考。

其他推理模型的启示

英伟达的Llama-Nemotron Ultra 253B和微软的Phi-4-reasoning也公开过数据：

Llama-Nemotron Ultra：强化学习阶段用了14万小时H100算力（约1×10²³次浮点运算），不到基础模型预训练成本的1%。
Phi-4-reasoning：推理阶段规模更小，生成4.6亿个token，计算成本不到1×10²⁰次浮点运算，算力消耗不到预训练的0.01%。

这两个模型在基准测试中都取得了出色的成绩，Llama-Nemotron的成绩与DeepSeek-R1和o1相当。

但它们在强化学习阶段之前都做了「监督微调」，用了大量其他推理模型生成的高质量推理链示例，和o1、o3这种前沿模型的训练逻辑不太一样，参考价值有限。

业内大佬怎么看？

总体而言，这些信息对于了解o1或o3的训练算力规模帮助有限。

有一点可以确定：像Phi-4这样的某些模型，推理训练计算资源（至少在强化学习阶段）可能相对较少。

这并不意味着o3也是用同样少的计算资源进行训练的，但这确实表明，仅从一个推理模型在基准测试中表现良好，很难判断其推理算力的规模。

此外，传统的监督微调在推理模型的开发中可能发挥着重要作用。由于训练方法多种多样，在没有公开训练细节的情况下，很难猜测推理模型的推理训练规模。

Anthropic CEO Dario Amodei今年1月提到：

现在的强化学习训练还在「新手村」，花100万美元就能比花10万美元强很多。大家都在拼命砸钱扩大训练规模，把这个阶段的投入提到数亿、数十亿，我们正处在一个关键转折点，新范式刚起步，所以增长特别快。

无法确定10万美元或100万美元是否反映了他对特定模型（如o1、o3或DeepSeek-R1）的训练成本的估计。

但能看出他觉得，目前推理模型的训练成本，还没到烧钱烧到飞起的程度，远低于数亿美元，即1×10²⁶次浮点运算。

总体而言，这些估计表明，o1和o3的推理算力规模和「算力天花板」的差距可能不会达到多个数量级，毕竟已经有模型（如DeepSeek-R1和Llama-Nemotron Ultra）在推理阶段用到1×10²³次浮点运算以上，o1、o3用的计算资源可能更多。

推理算力增长如何影响AI进步？

推理模型目前的算力水平，对AI短期发展有重要影响。

o3靠10倍算力碾压o1，数学、编程、写代码全面升级，至少在这些领域，训练算力和模型能力挂钩，砸越多算力，效果越明显。

这些模型可以对问题进行更多计算，从而提高其性能，但缺点是它们完成任务所需的时间比传统模型更长。

虽然目前还没有像预训练规模定律那样关于推理训练规模定律的严谨研究，但OpenAI展示的规模曲线与经典的对数线性规模定律颇为相似。

DeepSeek-R1论文中的图表也显示，随着推理训练步数的增加，准确率大致呈对数线性增长。

这表明，至少在数学和编程任务上，推理模型的性能与推理训练之间的关系，和预训练类似，存在一定的规模效应。

因此，在接下来的几次规模扩展中，可能会看到模型性能出现显著且快速的提升。

o1在AIME测试中的表现与训练计算资源的关系

但推理算力一旦摸到天花板，增长速度可能就会从「几个月翻10倍」掉到「每年翻4倍」。

如果推理训练和整体前沿算力差距只有几个数量级（如小于三个数量级），估计一年内增速就得放缓。

推理真能Scaling吗？

现实没那么简单。光堆显卡可不够，数据才是卡脖子的关键。

推理训练需要大量难题数据，但高质量的题目不是无限的，找题、编题、生成数据都不容易。

在数学、编程以外的复杂场景里，比如理解人类复杂情感，推理模型能不能同样好用，目前还是未知数。

开发推理模型，真正花钱的可能不是训练本身，而是大量的试错实验——测试不同的题目、打分规则、训练方法，这些成本目前没人公开。

虽然随着技术成熟，成本可能会降下来，但这些隐藏成本可能限制模型的扩展。

对AI行业来说，任何暗示推理模型在短期内可能会触及发展瓶颈的消息，都让人心里一紧。

毕竟，AI行业为了开发这类模型，砸进去了大量资源。

已有研究表明，运行推理模型的成本极高，相比某些传统模型，更容易出现幻觉。

不过也有好消息：即使算力增长放缓，模型说不定还能靠数据、算法创新接着变强。但无论如何，算力增长依然是关键，值得重点关注。

毕竟，OpenAI和行业大佬们都信心满满，o3大概率没触达极限，后面肯定还有惊喜！

参考资料：

https://epoch.ai/gradient-updates/how-far-can-reasoning-models-scale

https://techcrunch.com/2025/05/12/improvements-in-reasoning-ai-models-may-slow-down-soon-analysis-finds/

特别声明：以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布，本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐

热点推荐

改掉幻觉=杀死AI？Science曝光大模型「先天死穴」

新智元 2025-11-09 11:21:12
0 跟贴 0
HuggingFace发布实战指南，从决策到落地手把手教你训练大模型

机器之心Pro 2025-11-10 10:42:48
0 跟贴 0

突破LLM遗忘瓶颈，谷歌「嵌套学习」让AI像人脑一样持续进化

机器之心Pro 2025-11-10 10:46:18
0 跟贴 0

仅0.2B就比GPT-4.1强？加州大学新指标：组合推理基准首次超越人类

新智元 2025-11-08 19:10:54
0 跟贴 0
字节Seed团队发布循环语言模型Ouro，在预训练阶段直接「思考」

机器之心Pro 2025-11-04 11:58:36
0 跟贴 0

杨立昆、李飞飞等提出空间超感知范式，用预测未来代替暴力记忆

DeepTech深科技 2025-11-08 21:19:07
7 跟贴 7

一次美国自驾，看清中美AI的差异性

钛媒体APP 2025-08-01 08:20:10
406 跟贴 406
英伟达、DeepSeek集体跟进！18个月前被忽视，如今统治AI推理

新智元 2025-11-09 13:33:03
64 跟贴 64

谁在抢占AI推理的“最后一公里”？

钛媒体APP 2025-11-10 09:46:51
0 跟贴 0
LLM首次达到人类语言专家水平！OpenAI o1拿下拆解句法、识别歧义、推理音律

新智元 2025-11-08 12:34:47
0 跟贴 0
全球第二、国内第一！最强文本的文心5.0 Preview一手实测来了

机器之心Pro 2025-11-10 10:18:51
0 跟贴 0
6.4万star的开源智能体框架重构！OpenHands重大升级，叫板OpenAI

机器之心Pro 2025-11-10 10:23:50
0 跟贴 0
科大讯飞董事长刘庆峰：AI红利兑现需具备四大核心要素

每日经济新闻 2025-11-10 11:27:12
0 跟贴 0
AI狂造人类失踪案，百万网友疯狂上头！爆款视频脑洞太离谱，原地笑疯

新智元 2025-11-10 12:03:10
0 跟贴 0
LLaVA-OneVision-1.5开源，8B模型预训练只需4天、1.6万美元

机器之心Pro 2025-10-13 18:37:02
0 跟贴 0
668三年级这道题好难哦，做为数学老师的我，也是绞尽脑汁

我服子佩 2025-11-07 10:05:28
1 跟贴 1
以为学渣考试作弊，没想到发现竟是数学天才

辰晓星看剧 2025-11-07 09:54:48
1 跟贴 1
神秘数字令人细思极恐

小二铲史官 2025-11-09 07:31:37
0 跟贴 0
谢赛宁、李飞飞、LeCun联手提出多模态LLM新范式，空间超感知登场

机器之心Pro 2025-11-10 12:03:27
0 跟贴 0
爸爸辅导作业被整懵，这不掉坑里出不来了，数学是体育老师教的！

搞笑新奇怪 2025-11-09 11:53:35
1 跟贴 1
街霸2:温州阿胜的极限操作我是万万没想到

铁蛋儿解说 2025-11-07 11:56:43
7 跟贴 7
小升初几何题难倒了无数考生，就连学霸也摇头

公考客栈店小二 2025-11-06 08:36:00
0 跟贴 0
猫妈妈的数学挺好啊

每日看点汇 2025-11-06 01:35:38
0 跟贴 0
英格兰足球竟有这样规则在比赛中允许踢人？

咪咕体育 2025-11-09 11:09:53
0 跟贴 0
675一年级奥数：孩子看到这题就头大，别说还真不好做

我服子佩 2025-11-09 20:45:23
1 跟贴 1
到底是谁发明的数学，看看都把孩子，逼成什么了！

生活哈哈镜 2025-11-08 13:52:31
1 跟贴 1
670二年级甲乙共有98人，甲比乙多6人，甲乙各多少人？

我服子佩 2025-11-07 10:27:31
1 跟贴 1
华罗庚杯小学数学竞赛题，会做的孩子寥寥无几

公考客栈店小二 2025-11-08 14:28:00
1 跟贴 1
3A大作!阿里ROLL团队从基建->算法->机理,推动RL4LLM全栈协同优化

机器之心Pro 2025-11-10 12:49:19
0 跟贴 0
俄媒：俄军即将攻占乌克兰"第三首都"

每日经济新闻 2025-11-08 22:55:11
48055 跟贴 48055
小升初几何题，难倒了不少小学毕业生

公考客栈店小二 2025-11-06 22:49:20
5 跟贴 5
652网红题：很多人非常感兴趣的一道题，98%的人做不出来

我服子佩 2025-11-06 10:27:58
1 跟贴 1
小学数学课要求做一个表，女孩把“争分夺秒”这个词具象化了

逛吃青岛 2025-11-09 21:19:03
0 跟贴 0
两个机器人的星际邂逅，竟改变人类文明的命运轨迹

胖鱼看剧 2025-11-07 11:14:41
1 跟贴 1
赞！二七区兴华小学教育集团数学学科图图画画完成思维进阶

大象新闻 2025-11-10 10:42:07
0 跟贴 0
轴对称之美，思维之趣——信阳市羊山中学本部八年级数学学科活动

时代报告 2025-11-10 12:01:24
0 跟贴 0
小心，从大模型中得到的大都还不能算是知识

白驹谈人机 2025-11-09 00:08:20
0 跟贴 0
分享下两周备考意外过了数学教资科三的感受

阿柯考研百宝箱 2025-11-08 19:53:11
0 跟贴 0
小学数学讲题小美女【15】

讲题课堂 2025-11-08 16:00:08
5 跟贴 5
语文老师眼中的学渣，竟然是个隐藏的数学天才

兔八哥影视 2025-11-10 10:57:51
1 跟贴 1

亲戚听说你上岸后啥态度？网友：酸炸了，气到住院还要我掏医药费

亲戚听说你上岸后啥态度？网友：酸炸了，气到住院还要我掏医药费

夜深爱杂谈

2025-11-07 17:31:14

全球首销！华为新机官宣：11月11日，正式发售！

全球首销！华为新机官宣：11月11日，正式发售！

科技堡垒

2025-11-10 12:29:02

上海校花，172cm身段45kg，貌美如花，倾国倾城，这也太迷人了

上海校花，172cm身段45kg，貌美如花，倾国倾城，这也太迷人了

小椰的奶奶

2025-11-09 14:35:07

市值蒸发2800亿，退订率高达19%！小米汽车陷入信任危机？

市值蒸发2800亿，退订率高达19%！小米汽车陷入信任危机？

单手搓核弹

2025-11-07 14:14:43

攻不了也守不住？中国空军在西藏上空，被印度空军足足欺负了40年

攻不了也守不住？中国空军在西藏上空，被印度空军足足欺负了40年

易昂杨

2025-10-07 18:22:20

如果不降低部分人员的养老金，养老金制度或将不可持续

如果不降低部分人员的养老金，养老金制度或将不可持续

逻辑与常识

2025-10-09 07:09:53

蛇类不会无缘无故进入住宅，一旦入屋往往预示着这三件事情

蛇类不会无缘无故进入住宅，一旦入屋往往预示着这三件事情

青青会讲故事

2025-11-05 16:55:04

詹姆斯·沃森去世，因发现“DNA双螺旋结构”享誉世界，晚年宣称“黑人因基因智力低”而饱受争议

詹姆斯·沃森去世，因发现“DNA双螺旋结构”享誉世界，晚年宣称“黑人因基因智力低”而饱受争议

生物世界

2025-11-08 08:11:39

南京国锦赛落幕！诞生5个赢家，4个输家！吴宜泽、丁俊晖位列其中

南京国锦赛落幕！诞生5个赢家，4个输家！吴宜泽、丁俊晖位列其中

球场没跑道

2025-11-09 21:55:17

15小时亏损百亿，订单暴跌9%，跨境电商为何集体倒戈中国平台？

15小时亏损百亿，订单暴跌9%，跨境电商为何集体倒戈中国平台？

削桐作琴

2025-11-07 14:57:56

银行开始直接下场儿卖房了…

大碗楼市

2025-11-10 08:06:21

绝了！姆巴佩伊万卡“共睡”是公益，烛光晚餐带爆童装

绝了！姆巴佩伊万卡“共睡”是公益，烛光晚餐带爆童装

罗氏八卦

2025-11-09 18:45:32

尴尬！房主任抱杨幂引争议；被吐槽没有边界感，杨幂嫌弃写在脸上

尴尬！房主任抱杨幂引争议；被吐槽没有边界感，杨幂嫌弃写在脸上

TVB的四小花

2025-11-10 12:20:14

加拉塔萨雷主席：租借梅西？我们的经济状况足以支持高昂转会

加拉塔萨雷主席：租借梅西？我们的经济状况足以支持高昂转会

懂球帝

2025-11-10 11:44:06

曝苹果18 Pro系列取消“灵动岛”挖孔方案采用HIAA方案

曝苹果18 Pro系列取消“灵动岛”挖孔方案采用HIAA方案

手机中国

2025-11-07 13:46:30

国足新科主帅邵佳一：年薪比洋帅低得多，平凡妻子陪他风雨兼程

国足新科主帅邵佳一：年薪比洋帅低得多，平凡妻子陪他风雨兼程

细品名人

2025-11-10 07:29:13

上海全运队徐根宝对申花的刘诚宇跑位不满意，那刘诚宇的反应如何

上海全运队徐根宝对申花的刘诚宇跑位不满意，那刘诚宇的反应如何

越岭寻踪

2025-11-10 08:55:06

足坛一夜综述！巴萨4-2，皇马0-0爆冷，曼城3-0利物浦，巴黎绝杀

足坛一夜综述！巴萨4-2，皇马0-0爆冷，曼城3-0利物浦，巴黎绝杀

万花筒体育球球

2025-11-10 11:15:44

披露：刘道玉被免去武汉大学校长的真实原因！

披露：刘道玉被免去武汉大学校长的真实原因！

尚曦读史

2025-05-17 23:08:05

“华人圈最红女优”被全网“开盒”荡妇羞辱，她却用恶评赚6000万

“华人圈最红女优”被全网“开盒”荡妇羞辱，她却用恶评赚6000万

诗意世界

2025-11-07 10:23:31

AI产业主平台领航智能+时代

13830文章数 66240关注度

往期回顾全部

科技要闻

存储芯片大厂涨价50%！华强北一天一个价

头条要闻

老人花1500元装的净水器次日就漏水生产厂家经营异常

头条要闻

老人花1500元装的净水器次日就漏水生产厂家经营异常

体育要闻

战绩崩盘！东契奇交易余震撕裂独行侠

娱乐要闻

郝蕾风波升级？

财经要闻

俄罗斯大幅加税中国汽车出口骤降58%

汽车要闻

智能又务实奇瑞瑞虎9X不只有性价比

态度原创

+arrTaiduYuanC[i].tag+' | '+arrTaiduYuanC[i].title+'
\

游戏

教育

手机

亲子

家居

无需多言！S15夺冠Faker再现经典手势！

教育要闻

青岛富源路小学：掐丝珐琅里，非遗与亲情共闪光

手机要闻

欧洲地区限制严格苹果iPhone 18系列电池受限

亲子要闻

守护稚嫩肺脾小儿膏方夯实健康根基

家居要闻

现代自由功能美学居所

© 1997-2025 网易公司版权所有 About NetEase | 公司简介 | 联系方法 | 招聘信息 | 客户服务 | 隐私政策 | 不良信息举报 Complaint Center | 廉正举报 | 侵权投诉

无障碍浏览进入关怀版