网易首页 > 网易号 > 正文 申请入驻

有300亿美元也未必“再造GPT-4”?尤洋长文:AI增长瓶颈的真相

0
分享至

允中 发自 凹非寺
量子位 | 公众号 QbitAI

2026年将至,ChatGPT发布三周年,但关于“AI瓶颈期”的焦虑正达到顶峰。

当全行业都在讨论如何通过量化、蒸馏来“省钱”时,新加坡国立大学校长青年教授、潞晨科技创始人尤洋却提出了一个更为本质的拷问:

如果给你300亿美元预算,今天我们真的能训出比GPT-4强出几个维度的模型吗?

在《智能增长的瓶颈》一文中,尤洋教授一针见血地指出:

  • 当前智能增长的瓶颈,本质上是我们现有的技术范式,已经快要“消化”不动持续增长的算力了。

他提出了几个颠覆常规认知的硬核观点:

  • 智能的本质是能源转化:过去10年,AI的本质是将电力通过计算转化为可复用的智能,而转化效率正面临大考。
  • Transformer的秘密:它之所以胜出,并非因为更像人脑,而是因为它是一台“伪装成神经网络的并行计算机”,完美契合了英伟达GPU的堆料逻辑。
  • 效率不等于智能:Mamba等新架构提升了吞吐量,但在“算力转智能”的终极上限上,它们真的比Transformer更强吗?
  • 未来的出路:抛弃Adam优化器?回归高精度计算(FP32/64)?

从电影制作到地震时间预测,我们离真正的AGI还有多远?……



这篇深度长文,或许能带你穿透“降本增效”的迷雾,直达算力与智能最底层的逻辑。

一起来看。

智能的核心不是解释,而是预测

什么是智能?

尤洋没有照搬任何形式化或哲学化的“智能定义”。

相反,他采用了一种非常工程化、面向能力评估的处理方式,通过一组可验证、可实践的判断标准来刻画智能的边界:

  • 在关键人生决策上,是否愿意完全听从AI;
  • 在高风险、高不确定性领域,是否敢让AI替代专家;
  • 在创作层面,是否已经无法分辨作品是否由AI生成;

这些例子背后,指向的是同一个核心能力:即对未来状态进行预测,并为预测结果承担实际后果的能力



这一锋利的判断,不仅解释了为什么Next-Token Prediction能在过去几年成为事实上的“智能发动机”,也解释了为何许多“在封闭评测中表现出色”的系统,一旦进入真实世界就迅速暴露短板——

它们往往擅长组织与解释已有信息,却难以在不确定环境中对未来做出稳定、可执行的判断。

当然,需要强调的是,将智能高度凝聚为“预测”,更像是在给智能划定一个工程上可对齐算力投入的核心能力维度,而非穷尽智能的全部内涵。

这是一个足够清晰也足够有解释力的硬核视角。而规划、因果建模以及长期一致性等能力,是否能够完全被还原为预测问题,仍然是一个开放议题。

但当我们把智能简化为预测能力时,下一步的问题自然落到:算力是如何转化为这种能力的?

预训练、SFT、RL之争,本质上是“算力分配”问题

过去几年,行业对训练范式的讨论,常常被“方法论优越感”主导;但如果把目标限定为单位算力能换来多少智能,那么范式本身就不再神秘,而变成了一种算力使用策略。

不同于主流叙事,尤洋在文章中直接把预训练、微调、强化学习三者拉到统一层面,即三者本质上都是在计算梯度,更新参数。



文章指出,当前模型的主要智能来源,依然是预训练阶段——不是因为它更“聪明”,而是因为它消耗了最多的能源与计算

从智能增长角度看,这三者参数更新发生的频率与更新所消耗的算力规模确有不同,但是通过视角的转换,智能增长的讨论就从方法论之争,转向了一个更朴素,也更残酷的问题——

在算力持续投入的前提下,我们是否还能稳定地换取能力增长?

Transformer的胜出,不只是算法胜利

为了回答这个问题,这篇文章回溯了过去十年大模型快速进化的原因。尤洋指出,这一轮智能跃迁的成立,依赖于三件事情同时发生:

  • 一是GPU体系在硬件层面持续提供指数级增长的并行算力;
  • 二是Transformer架构在计算结构上天然支持大规模并行,能够充分“吃下”这些算力;
  • 三是Next-Token Prediction这一训练目标为模型提供了近乎无限、且高度统一的学习信号。

因此,Transformer的成功,并不仅仅是算法层面的胜利,更源于模型架构与硬件体系高度匹配的系统性结果

在这三者共同作用下,算力增长、模型规模扩大与能力提升之间形成了一条相对稳定的正反馈链路。

需要注意的是,这一范式的有效性,也在一定程度上受益于语言任务本身的结构特性:语言高度符号化、序列化,且评测体系与训练目标高度一致。

这使得算力增长、模型规模扩大与能力提升之间,在这一阶段形成了一条相对稳定的正反馈链路。

也正是在这一历史条件下,从GPT-1、GPT-2到GPT-3,再到ChatGPT,智能水平得以沿着同一范式持续抬升。

这也自然引出了后文的核心问题:

当算力继续增长时,我们是否还拥有同样可扩展的范式?

真正的瓶颈,并不是算力停了,而是算力“吃不动”了

尤洋在文中提出了一个非常具体、也非常可操作的标准来判断智能的瓶颈:

  • 当一次训练的FLOPS从10^n变成10^{n+3}时,我们是否还能稳定地获得显著更强的模型?

如果答案开始变得不确定,那么问题就不在于“算力是否继续增长”,而在于:

  • 现有范式对新增算力的吸收效率是否下降;
  • 计算规模的扩大,是否被通信、同步和系统开销所抵消。

这也是文章里反复强调FLOPS的原因:

Token数、参数量、推理速度,往往会混合效率与商业因素;而FLOPS才是最底层、也最难被包装或美化的算力尺度

在这个意义上,所谓“瓶颈”,并不是红利消失,而是算力增长与智能增长之间的映射关系开始松动

更值得一提的是,尤洋在文章中刻意把讨论从“效率优化”里拎出来,换了一个更接近一线大厂决策的场景:

假设今天Google拍给你一张“300亿美元预算”的支票,给你半年DDL——在这种极限训练目标下,你还会优先选择Mamba这类“吞吐量更高”的架构吗?

未必。因为吞吐量解决的是“同等智能更便宜”,不自动等价于“同等成本更聪明”。

真正的难点变成:我们到底有没有一种扩展性更强的架构或Loss函数,能把新增算力更稳定地“吃进去”,并把它转换成可兑现的能力增量?

那么如何能在单位时间内吃下更多算力,并真正将它转化为智能呢?

未来未定,问题的答案可能在多个探索区间内

在正式回答算力转化智能的问题之前,尤洋还对硬件与基础设施层面进行了深入的探讨。

他根据自身多年的从业经验得出,计算开销/通信开销的比值,必须维持或提升,这样才能在继续堆叠GPU的情况下,线性地换来更多智能。

因此,未来AI基础设施的核心目标,应该关注并行计算体系在软硬件层面的整体扩展性,而不仅仅是单点芯片性能。

在这一基础上,尤洋最后提出了多个探索方向,比如更高精度、高阶优化器,更可扩展的架构或者Loss函数,更多epoch与更深度的超参数探索。

这些探索方向,都在试图回答同一个命题——如何让模型在“吃掉”万亿级投入的同时,吐出等比例增强的智能?

对于智能的进一步增长而言,真正重要的,是在极端算力条件下持续变强的能力——这也意味着,预训练所能承载的智能增长空间,可能还远未走到尽头。

回到最初讨论的问题,算力到底还能不能继续转化为智能?

尤洋并未给出断言,但逻辑已经清晰:

  • 只要我们还能找到更高效组织计算的方式,智能的上限就远未到来。

原文传送门:

https://zhuanlan.zhihu.com/p/1989100535295538013

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
王文澜也没想到,66岁倪萍主持晚会摇头晃脑,担心的事还是发生了

王文澜也没想到,66岁倪萍主持晚会摇头晃脑,担心的事还是发生了

白面书誏
2026-01-05 17:12:41
被美国打了14年,如今成了亲美国家,国内女性为美军生下数万混血

被美国打了14年,如今成了亲美国家,国内女性为美军生下数万混血

博览历史
2026-01-04 18:39:54
王石终于被田朴珺抛弃了?

王石终于被田朴珺抛弃了?

智识漂流
2026-01-05 10:17:02
“性萧条”才是这个时代真正的危机

“性萧条”才是这个时代真正的危机

深蓝夜读
2025-09-24 16:00:09
《亚洲周刊》的教科书级回应让多少人无地自容

《亚洲周刊》的教科书级回应让多少人无地自容

天天热点见闻
2026-01-03 08:00:43
父母花84元网购“神奇手表”,儿子发现能测万物:猫咪血糖5.9,吸尘器血糖7.4,父母:下次不买了

父母花84元网购“神奇手表”,儿子发现能测万物:猫咪血糖5.9,吸尘器血糖7.4,父母:下次不买了

环球网资讯
2026-01-05 19:17:18
芯片天塌了。光刻机突然不金贵了。一条大新闻砸懵整个圈子。

芯片天塌了。光刻机突然不金贵了。一条大新闻砸懵整个圈子。

普陀动物世界
2026-01-04 12:02:53
齐达内执教曼联的两大条件曝光!阿莫林公开逼宫,帅位悬念拉满

齐达内执教曼联的两大条件曝光!阿莫林公开逼宫,帅位悬念拉满

夜白侃球
2026-01-05 21:00:47
1967年飞行员追敌机时一紧张误投减速伞,却让上级直接给他一等功

1967年飞行员追敌机时一紧张误投减速伞,却让上级直接给他一等功

宅家伍菇凉
2025-12-23 09:00:03
国产显卡工艺水准如何?拆解摩尔线程MTT S80独立显卡看看

国产显卡工艺水准如何?拆解摩尔线程MTT S80独立显卡看看

充电头网
2026-01-04 16:19:22
李咏遗孀哈文现状:定居美国富人区,7年了没再婚,女婿条件不错

李咏遗孀哈文现状:定居美国富人区,7年了没再婚,女婿条件不错

削桐作琴
2026-01-03 14:25:54
价值观不一致!德约科维奇宣布:彻底退出职业网球运动员协会

价值观不一致!德约科维奇宣布:彻底退出职业网球运动员协会

全景体育V
2026-01-05 06:45:39
特朗普宣告:地面行动已开始,委内瑞拉发声,坚信中方能应对美国

特朗普宣告:地面行动已开始,委内瑞拉发声,坚信中方能应对美国

兴史兴谈
2026-01-04 16:16:28
辣眼睛!艾格努从队友背后,做出不雅动作,曾有同性恋史

辣眼睛!艾格努从队友背后,做出不雅动作,曾有同性恋史

跑者排球视角
2026-01-05 06:38:05
太阳系边界大发现:我们竟生活在一个300亿公里的宇宙泡泡里?

太阳系边界大发现:我们竟生活在一个300亿公里的宇宙泡泡里?

百科密码
2026-01-05 14:36:37
小米称“200公里瞬间刹停”是驾驶感受并非广告语,把雷军语录当产品参数的粉丝失望了

小米称“200公里瞬间刹停”是驾驶感受并非广告语,把雷军语录当产品参数的粉丝失望了

Vista氢商业
2026-01-05 14:51:31
一饭桌抓拍,撕开王石和田朴珺的“体面”!两人只剩一家共同公司

一饭桌抓拍,撕开王石和田朴珺的“体面”!两人只剩一家共同公司

火山詩话
2025-12-30 09:11:12
洛夫顿18分上海战胜广厦,上海建队30年王博指导懂得风情

洛夫顿18分上海战胜广厦,上海建队30年王博指导懂得风情

李广专业体育评论
2026-01-05 21:51:31
中共中央批准,开除许传智党籍

中共中央批准,开除许传智党籍

新京报政事儿
2026-01-04 16:16:14
赌王陪嫁14亿,下嫁东北小伙的何超盈,再也藏不住早就变了的面相

赌王陪嫁14亿,下嫁东北小伙的何超盈,再也藏不住早就变了的面相

有范又有料
2026-01-04 16:54:11
2026-01-05 22:52:49
量子位 incentive-icons
量子位
追踪人工智能动态
11973文章数 176356关注度
往期回顾 全部

科技要闻

4100家科技企业集结赌城,CES揭开AI新战场

头条要闻

台官员称美抓捕马杜罗是对大陆的有力威慑 外交部回应

头条要闻

台官员称美抓捕马杜罗是对大陆的有力威慑 外交部回应

体育要闻

50年最差曼联主帅!盘点阿莫林尴尬纪录

娱乐要闻

《探索新境2》王一博挑战酋长岩

财经要闻

丁一凡:中美进入相对稳定的竞争共存期

汽车要闻

海狮06EV冬季续航挑战 "电"这事比亚迪绝对玩明白了

态度原创

亲子
教育
艺术
时尚
军事航空

亲子要闻

宝妈必学,孩子做噩梦,警惕这样的反应!

教育要闻

悲痛!又有几名学生跳楼!致家长:请不要再以各种名义给孩子配手机了!

艺术要闻

19幅 列宾美院学生优秀毕业作品

“大衣+连帽卫衣”才是今年冬天最时髦搭配,减龄又松弛!

军事要闻

马杜罗预计5日在纽约"首次出庭"

无障碍浏览 进入关怀版