网易首页 > 网易号 > 正文 申请入驻

Anthropic联创:Scaling Law没崩,但推理成天价!有了TTT,25年AI更加速

0
分享至

文章转载于新智元

Scaling Law要撞墙了?

Anthropic联创Jack Clark反驳了这一说法:绝非如此!

在他看来,目前的AI发展还远远没到极限,「所有告诉你AI进展正在放缓,或者Scaling Law正在撞墙的人,都是错误的。」

o3仍有很大的增长空间,但采用了不同的方法。

OpenAI的技术秘诀并不是让模型变得更大,而是让它们在运行时,使用强化学习和额外的计算能力。

这种「大声思考」的能力,为Scaling开辟了全新的可能性。

而Jack Clark预计,这一趋势在2025年还会加速,届时,科技公司都会开始将大模型的传统方法跟在训练和推理时使用计算的新方法相结合。

这个论断,跟OpenAI首次推出o系列模型时的说法完全吻合了。

在同一时间,MIT的研究者也发现,采用测试时训练(TTT)技术,能显著提高LLM进行逻辑推理和解决问题的能力。

论文地址:https://ekinakyurek.github.io/papers/ttt.pdf

1

Scaling Law撞墙,绝对错了

在他的新闻通讯《Import AI》中,Clark对关于AI发展已到达瓶颈的观点进行了反驳。

博文地址:https://jack-clark.net/

比如OpenAI的o3模型,就证明了AI极大的发展空间。

在现有强大基础模型之上,采用一种新方法——让大语言模型在推理时「边思考边执行」,即测试时计算(test-time compute)。这种方式能带来巨大的回报。

因此Clark预计,下一个合理的发展方向将是同时扩展强化学习(RL)和底层基础模型,这将带来更为显著的性能提升。

这意味着,随着现有方法(大模型scaling)与新方法(强化学习驱动的测试时计算等)的结合,2025年的AI进展相对2024年会进一步加速。

OpenAI著名研究员Jason Wei也表示,更加关键的是,从o1到o3的进步也仅仅只用了3个月,这说明了在推动人工智能领域发展方面来讲,强化学习驱动的推理扩展计算范式,会比预训练基础模型的传统扩展范式快得多。

这并非空谈,Clark列举了不少o3的亮眼成绩来证明他的观点。

首先,o3有效突破了「GPQA」科学理解基准(88%),这彰显了它在科学领域进行常识推理和解答的能力。

它在「ARC-AGI」这一任务上的表现优于亚马逊众包平台(MTurk)雇佣的人类工作者。

甚至,o3在FrontierMath上达到了25%的成绩——这是一个由菲尔兹奖得主设计的数学测试,就在几个月前,SOTA的成绩仅为2%。

并且,在Codeforces上,o3获得了2727分,排名第175。这让它成为这一极其困难基准上的最佳竞技程序员之一。

1

模型成本将更难预测

Clark认为,大多数人还没有意识到未来进展的速度将会有多快。

「我认为,基本上没有人预见到——从现在开始,AI进展将会有多么急剧。」

同时,他也指出,算力成本是急速进展中的一个主要挑战。

o3之所以如此优秀,其中的一个原因是,它在推理时的运行成本更高。

o3的最先进版本需要的算力比基础版多170倍,而基础版的算力需求已经超出了o1的需求,而o1本身所需的算力又超过了GPT-4。

o系列模型的性能与成本

Clark解释说,这些基于推理扩展范式的新模型使得成本预测变得更加困难。

过去,模型的成本费用是很直观的,主要取决于模型的大小和输出长度。

但在o3这类模型中,由于其资源需求会根据具体任务的不同而变化,所以也更难直观地给出模型执行任务时的花费。

o3推理成本达新高

除了FrontierMath和Codeforces上的成绩,o3在GPT Diamond Benchmar上,对于博士级的科学问题也拿到了87.7%,远高于各自领域博士专家70%的平均分。

ARC-AGI基准测试开发者、Keras之父François Chollet,将o3的性能称为「AI能力中令人惊讶且重要的阶跃函数增长」

而这背后付出的代价,就是运行o3极高的成本。

之所以会造成如此高的成本,就是源于o3和其他模型处理问题方式的不同。

传统的LLM主要依靠的是检索存储模式,但o3处理问题时,却是靠实时创建新程序,来解决不熟悉的挑战。

Chollet表示,o3系统的工作原理,似乎和谷歌DeepMind的AlphaZero国际象棋程序类似。后者会有条不紊地搜索可能的解决方案,直到找到正确方法。

这个过程也就解释了,为什么o3需要如此多的算力——只为单个任务,模型就需要处理多达3300万个token。

跟当前的AI系统相比,这种密集的token处理成本,简直是天价!

高强度推理版本的每个任务,运行费用约为20美元。

也就是说,100个测试任务的成本为2012美元,全套400个公共任务的成本则达到了6677美元(按平均每个任务花费17美元计算)。

而对于低强度推理版本,OpenAI尚未透露确切的成本,但测试显示,此模型可以处理33至1.11亿个token,每个任务需要约1.3分钟的计算时间。

o3在ARC-AGI基准测试中必须解决的视觉逻辑问题示例

1

等待Anthropic的下一步

所以,Anthropic下一步会给我们带来什么呢?

目前,由于Anthropic尚未发布推理模型(reasoning model)或测试时模型(test-time model),来与OpenAI的o系列或Google的Gemini Flash Thinking竞争,Clark的这一番预测,不禁让人好奇Anthropic的计划。

他们之前宣布的Opus 3.5旗舰模型至今仍没有确切消息。

开发周期长达一个月,过程充满不确定性

在11月,Anthropic CEO Dario Amodei曾证实,公司正在开发Claude Opus的新版本。

起初,Opus 3.5定于今年发布,但后来Amodei再提到它时,只是说它会在「某个时刻」到来。

不过Amodei倒是透露,公司最近更新和发布的Haiku 3.5,性能已经跟原始的Opus 3相匹敌,同时运行速度还更快,成本也更低。

其实,这也不仅仅是Anthropic面临的问题。

自GPT-4亮相以来,LLM的功能并没有取得重大飞跃,这种停滞已经成为AI行业内一种普遍的广泛趋势。

更多时候,新发布的模型只是微小的进步,跟之前有一些细微的差别。

开发更先进的LLM,为何如此复杂

在Lex Fridman的播客访问中,Amodei详细讲述了开发这些AI模型的复杂性。

他表示,仅训练阶段,就有可能会拖延数个月,还会需要大量的计算能力,用上数以万计的专用芯片,如GPU或TPU。

预训练过后,模型将经历复杂的微调的过程,一个关键部分就是RLHF。

人类专家会煞费苦心地审查模型的输出,根据不同标准对其进行评分,帮助模型学习和改进。

接下来,就是一系列内部测试和外部审计,来检查模型的安全问题,通常是与美国和英国的AI安全组织合作。

总之,Amodei总结道:虽然AI的突破在圈外人士看来,像一个巨大的科学飞跃,但其实很多进步都可以归结为枯燥和无聊的技术细节。

在此过程中,最困难的部分通常是软件开发、让模型运行得更快,而不是重大的概念进步。

而且,每个新版本模型的「智能」和「个性」,也都会发生不可预测的变化。在他看来,正确训练模型与其说是一门科学,不如说是一门艺术。

即使真正发布的Opus 3.5的性能有了提升,却也不足以证明其高昂的运营成本是合理的。

不过,虽然有人认为Anthropic没有紧跟推理模型的步伐,已经足以反映LLM扩展的巨大挑战;但不得不说,Opus 3.5也并非毫无意义。

显然,它帮助训练了全新的Sonnet 3.5,它已经成为了当今市场上最受欢迎的LLM。

参考资料:

https://the-decoder.com/ai-progress-in-2025-will-be-even-more-dramatic-says-anthropic-co-founder/

https://jack-clark.net/2024/12/23/import-ai-395-ai-and-energy-demand-distributed-training-via-demo-and-phi-4/

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
毛主席后人第四代的孩子,一个比一个优秀,毛甜懿填志愿备受关注

毛主席后人第四代的孩子,一个比一个优秀,毛甜懿填志愿备受关注

大江
2026-06-29 13:32:09
布朗1换5交易评级出炉!76人赢麻了评A 绿军回报惨淡评D+

布朗1换5交易评级出炉!76人赢麻了评A 绿军回报惨淡评D+

罗说NBA
2026-07-02 07:22:51
WTT美国大满贯:拒绝大爆冷!王楚钦孙颖莎0:2落后,3:2晋级4强

WTT美国大满贯:拒绝大爆冷!王楚钦孙颖莎0:2落后,3:2晋级4强

国乒二三事
2026-07-02 06:49:12
宿命轮回!克鲁伊维特父子26年后同日点球宴客致荷兰出局

宿命轮回!克鲁伊维特父子26年后同日点球宴客致荷兰出局

星耀国际足坛
2026-07-01 23:40:09
新加坡放弃135平方公里圣诞岛,为何死守0.002平方公里的白礁岛?

新加坡放弃135平方公里圣诞岛,为何死守0.002平方公里的白礁岛?

世界纵横说
2026-06-30 22:09:35
湖人得到凯斯勒!4年1.3亿先签后换!大中锋终于来了

湖人得到凯斯勒!4年1.3亿先签后换!大中锋终于来了

野球帝
2026-07-02 10:15:49
固态电池神话彻底破灭,中科院曾连发"王炸",电池行业迎来变局

固态电池神话彻底破灭,中科院曾连发"王炸",电池行业迎来变局

黑翼天使
2026-06-24 13:56:28
NBA养老院不过如此!最小36岁,俩超过40!

NBA养老院不过如此!最小36岁,俩超过40!

篮球大图
2026-07-01 13:21:38
关注:2026届1270万毕业生,超七成6月底暂时还没定工作——

关注:2026届1270万毕业生,超七成6月底暂时还没定工作——

叶初七
2026-07-01 11:47:29
WTT美国大满贯:日本男单0:3被淘汰!王楚钦高歌猛进,冲击双冠王

WTT美国大满贯:日本男单0:3被淘汰!王楚钦高歌猛进,冲击双冠王

国乒二三事
2026-07-02 05:42:59
老来嫌?詹姆斯的潜在追求者名单又缩水了

老来嫌?詹姆斯的潜在追求者名单又缩水了

本泽体育
2026-07-02 09:44:21
葡萄牙发布高温预警 最高气温或达47摄氏度

葡萄牙发布高温预警 最高气温或达47摄氏度

环球网资讯
2026-07-02 07:10:08
我给局长开了3年车,并娶了他的地下情人,新婚夜我才知道赚大了

我给局长开了3年车,并娶了他的地下情人,新婚夜我才知道赚大了

千秋文化
2026-06-26 20:00:22
火箭签约神射手博格丹 博格丹明明没油了 火箭为何还浪费一个名额

火箭签约神射手博格丹 博格丹明明没油了 火箭为何还浪费一个名额

大话火箭队
2026-07-01 17:29:37
华为Mate新机,6月30日,再次降价

华为Mate新机,6月30日,再次降价

科技堡垒
2026-06-30 09:42:28
刘世锦:建议划拨20万亿国资充实社保,3年内将储蓄率降至40%以下

刘世锦:建议划拨20万亿国资充实社保,3年内将储蓄率降至40%以下

混沌录
2026-07-01 18:19:12
樊振东正式加盟德甲豪门杜塞尔多夫,将于8月22日迎来主场首秀

樊振东正式加盟德甲豪门杜塞尔多夫,将于8月22日迎来主场首秀

懂球帝
2026-07-01 23:33:09
难以置信,北京协和证实:40岁后男性最优运动,并非跑步撸铁

难以置信,北京协和证实:40岁后男性最优运动,并非跑步撸铁

华庭讲美食
2026-06-21 15:26:10
6月遇到它别手软,2元一斤浑身是宝,3种吃法,祛湿解乏比肉香

6月遇到它别手软,2元一斤浑身是宝,3种吃法,祛湿解乏比肉香

阿龙美食记
2026-06-22 15:08:45
Shams:武切维奇1年390万美元重返魔术,他拒绝了其他球队更高报价

Shams:武切维奇1年390万美元重返魔术,他拒绝了其他球队更高报价

懂球帝
2026-07-01 23:49:20
2026-07-02 10:43:00
硅星人 incentive-icons
硅星人
硅(Si)是创造未来的基础,欢迎来到这个星球。
3206文章数 10508关注度
往期回顾 全部

科技要闻

可灵AI上市前夜,快手想给它融30亿美元

头条要闻

"狗咖"倒闭数十只哈士奇疑遭弃 女店主自称有400只狗

头条要闻

"狗咖"倒闭数十只哈士奇疑遭弃 女店主自称有400只狗

体育要闻

世界杯硬核球迷,把自己变成了雕像

娱乐要闻

霍震霆回应霍启山娜然结婚传闻

财经要闻

千亿茶市场无赢家:澜沧巨亏 八马停"蹄"

汽车要闻

1.5T混动/综合续航约2000KM 全新一代红旗H7来了

态度原创

本地
旅游
游戏
艺术
数码

本地新闻

强烈建议,全国高校都向这所大学看齐!

旅游要闻

青海乌兰: 炎夏湖迎客来 千年盐韵焕新彩

任天堂回应宝可梦卡牌高价倒卖 正研究合适策略

艺术要闻

宋朝:生活品味,比权力和财富更重要!

数码要闻

笔记本电脑全线涨价 商家预测7月还要涨20% 提前囤货商户已赚百万

无障碍浏览 进入关怀版