网易首页 > 网易号 > 正文 申请入驻

“训练为王”终结:AI推理新浪潮,英伟达谷歌华为切换赛道

0
分享至

来源:21世纪经济报道

在AI算力需求结构重构、争夺推理时代入场券的竞赛中,国产算力厂商正加大押注力度。

市场共识已经形成,AI推理的转折点已经到来。英伟达创始人兼CEO黄仁勋提出,AI推理的规模,很快将达到训练负载的十亿倍。

AI推理芯片企业曦望董事长徐冰认为,2026年AI推理计算需求将达到训练需求的4—5倍,推理算力租赁价格半年涨幅近40%。

市场调研机构IDC则预计,到2028年推理工作负载占比将达到73%。随着OpenClaw(龙虾)智能体应用规模化铺开,将进一步推动算力需求向推理侧迁移。

头部厂商的动作高度一致,种种动作表明,AI算力的重心,已从训练逐步切换至推理,国产算力厂商无法忽视这一变化。

AI推理新浪潮

AI计算大致分为两个层面,首先是对模型进行训练(training),整个过程可能耗时数天甚至数周;之后是训练出的模型响应实际请求,做出推理(inference)。训练是一次性、批量化的投入,对单卡峰值算力和集群规模敏感;推理则是持续性、碎片化的运营支出,对时延、并发和单位Token(词元)成本更为敏感。

随着智能体在企业应用中加速渗透,推理计算一直是业界竞争激烈的方向,与传统对话式AI一问一答的调用模式不同,智能体在执行任务时往往需要多轮推理、工具调用和长上下文记忆,单个任务消耗的Token数量可能是传统对话的数十倍。

目前,英伟达旗下的GPU虽然占据训练市场,多数推理任务仍由CPU承担。GPU虽然速度快、功能强大,能够同时执行数十亿个简单任务,但其主要用途在于训练。

与此同时,推理所需的算力比GPU通常提供的要少,但需要更多内存。如果内存不足,芯片无法足够快地获取数据,就会形成瓶颈,迫使用户更长时间等待模型响应,而长时间等待是用户无法容忍的。

“我们发现用户对AI推理的时延预期其实是非常高的。”云服务厂商Akamai亚太区云计算架构师总监李文涛告诉21世纪经济报道记者,他介绍,以首Token时延为例,游戏用户(尤其是大规模、多用户的在线游戏)往往希望在15毫秒拿到首Token,在电商行业则约20毫秒,智能体自助服务约50毫秒,客服自动应答机器人等领域约100毫秒。

不同场景对时延的差异化要求,意味着单一规格的通用推理芯片难以同时覆盖全部负载,硬件厂商必须在吞吐、时延、成本之间做出取舍。

黄仁勋认为,推理Token的价值已显著抬升,市场具备了按响应速度分层定价的条件。他以软件工程师为例称,这类高价值用户愿意为更低延迟的Token付费以提升生产力。为此,英伟达将Groq纳入CUDA生态,在传统高吞吐量路径之外,开辟响应更快但吞吐量较低的推理细分市场,以覆盖对速度敏感的高端需求。

华泰证券表示,云服务进入涨价周期,算力资源稀缺性进一步强化。在此背景下,国产模型与国产硬件协同优化持续推进,国产加速卡与超节点方案进入密集落地阶段,国内算力景气度与国产替代进程均有望持续强化。

芯片门派“出招”

应对推理计算需求爆炸式增长,谷歌是最新作出回应的科技巨头。在Google Cloud Next26大会上,谷歌发布第八代TPU的两款新品,面向训练的TPU 8t与面向推理的TPU 8i,这也是TPU历史上首次按训练/推理拆分架构。

其中,TPU 8i颇受外界关注,该芯片瞄准AI实时推理需求,发力多智能体协同等复杂应用场景,为实现更快的任务响应,TPU 8i着重优化了内存配置与片内数据吞吐能力,降低数据传输延迟,并提升了多芯片间的通信效率。

据谷歌介绍,得益于架构优化,TPU 8i在推理环节的性价比提升了近80%,这意味着在同等算力成本下,企业将能够支撑更大规模的AI并发调用需求。

谷歌云AI与基础设施高级副总裁兼首席技术官Amin Vahdat指出:“随着人工智能代理的兴起,我们认为,如果芯片能够根据训练和服务的需求进行个性化定制,那么整个社区将会受益。”

海外巨头动作频频,国产算力厂商亦紧跟技术趋势。观察来看,中国公司并未简单跟随海外巨头路径,而是结合自身的技术底座与国内应用场景,走出了满足本土需求的差异化发展道路。

目前,中国AI训练与推理需求正迎来爆发式增长,全国算力总量已跃居全球第二,全球占比超过30%。国际知名投资研究机构伯恩斯坦(Bernstein)指出,以华为昇腾、寒武纪思元系列为代表的国产AI芯片正加速崛起,行业地位持续攀升。

技术上,华为在推理产品上体现了Prefill(预填充)-Decode(解码)分离思路。

寒武纪则强调训练与推理一体化的架构与生态。寒武纪在硬件端迭代至第五代MLUarch微架构,7nm思元590芯片集群FP16算力2.048PFLOPS,支持Chiplet异构集成与MLU-Link8卡互联,性能对标国际主流;新一代微架构及指令集持续研发,重点优化大模型训练推理场景。

寒武纪的技术路线有两个关键支点。一是自研指令集,公司自2016年起已迭代至第四代商用指令集,同一套指令集同时支持训练和推理,覆盖云边端不同场景,这为其构建统一软件生态提供了底层基础。二是训推一体的软件平台Cambricon Neuware整合了底层软件栈,并与TensorFlow、PyTorch等主流框架深度融合,以缩短用户从模型研发到部署的周期。在客户侧,思元590已在互联网大厂的千卡级集群中商用部署。

除了华为和寒武纪,其他国产厂商也在推理赛道上展开差异化布局。摩尔线程等公司则围绕通用GPU路线持续推进,在推理场景中重点突破多卡互联和软件工具链领域的技术瓶颈;曦望等AI芯片企业则瞄准细分场景,提高效率降低成本,例如推荐系统、长上下文推理、端侧部署等,试图在巨头主导的通用市场之外寻找市场机会。

更关键的挑战在生态。CUDA经过近二十年积累,已构建起涵盖编程模型、核心库、分布式框架、优化工具、推理引擎和主流框架原生支持的完整体系,这也是英伟达最深的护城河。华为去年宣布CANN编译器和Mind系列套件于2025年底前完成开源,寒武纪也在持续开放NeuWare工具链,意图正是降低开发者迁移门槛。

(作者:彭新 编辑:倪雨晴,朱益民)

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
震惊!网传云南某明星演唱会,因舞台像某标志被叫停,真相来了…

震惊!网传云南某明星演唱会,因舞台像某标志被叫停,真相来了…

火山詩话
2026-04-24 10:39:54
简直是霸王条款!男子花21999元网购三星三折叠手机 被要求必须当面激活才能签收

简直是霸王条款!男子花21999元网购三星三折叠手机 被要求必须当面激活才能签收

闪电新闻
2026-04-25 08:55:39
快讯!特朗普提出组建五国集团!

快讯!特朗普提出组建五国集团!

达文西看世界
2026-04-25 11:34:00
秦昊让整个娱乐圈都笑疯了!一句:外面有人了还要送啊?

秦昊让整个娱乐圈都笑疯了!一句:外面有人了还要送啊?

一盅情怀
2026-04-25 16:25:46
乌度卡谈最后崩盘:我不知道他们是太年轻,还是惧怕关键时刻

乌度卡谈最后崩盘:我不知道他们是太年轻,还是惧怕关键时刻

懂球帝
2026-04-25 12:18:07
伊朗国防部发言人:敌人试图体面逃离战争泥潭

伊朗国防部发言人:敌人试图体面逃离战争泥潭

界面新闻
2026-04-25 18:24:09
打虎!伍浩被查

打虎!伍浩被查

新京报政事儿
2026-04-25 17:24:03
19岁女孩失控的人生:14个月在直播间豪掷1700万公款

19岁女孩失控的人生:14个月在直播间豪掷1700万公款

潇湘晨报
2026-04-24 22:36:30
大规模无人机侵扰美核军事基地事件持续7天,美国防部前高官:没一架被击落,没人被抓

大规模无人机侵扰美核军事基地事件持续7天,美国防部前高官:没一架被击落,没人被抓

红星新闻
2026-04-24 21:09:18
北上的广汽,用“改革”彻底打破枷锁

北上的广汽,用“改革”彻底打破枷锁

汽车公社
2026-04-25 08:34:37
这条无耻新闻,引起公愤了!

这条无耻新闻,引起公愤了!

胖胖说他不胖
2026-04-25 14:07:02
张军失联前的荒诞细节:老婆去要人

张军失联前的荒诞细节:老婆去要人

鲁八两
2026-04-25 14:43:09
虎狼之词啊!一公共女厕提示走红网络,“屙尿时对准坑位”引热议

虎狼之词啊!一公共女厕提示走红网络,“屙尿时对准坑位”引热议

火山詩话
2026-04-25 06:12:02
张军被带走传闻多日,多种迹象表明情况严重,任职高校撤掉其信息

张军被带走传闻多日,多种迹象表明情况严重,任职高校撤掉其信息

米修体育
2026-04-25 09:38:35
观察|团结还是分裂?新旧秩序交叠下的伊朗政权谜题

观察|团结还是分裂?新旧秩序交叠下的伊朗政权谜题

澎湃新闻
2026-04-25 07:16:34
突发重磅!双金奥运冠军落马!羽协主席张军被查,细节不简单

突发重磅!双金奥运冠军落马!羽协主席张军被查,细节不简单

丹妮观
2026-04-25 13:03:54
尚界汽车法务部:北京国际车展现场有观众蓄意破坏展车内饰,造成车辆损伤,已做好取证

尚界汽车法务部:北京国际车展现场有观众蓄意破坏展车内饰,造成车辆损伤,已做好取证

都市快报橙柿互动
2026-04-25 12:33:09
上海人终于体会到了引进印度人的“快乐”!

上海人终于体会到了引进印度人的“快乐”!

步论天下事
2026-04-25 09:34:47
外交部一锤定音!赖清德没资格,郑丽文就算赢了选举也不认!

外交部一锤定音!赖清德没资格,郑丽文就算赢了选举也不认!

果妈聊娱乐
2026-04-25 13:48:35
五一前后,尽量不要买这“3菜2果”,贩子自己都不吃,看完长见识

五一前后,尽量不要买这“3菜2果”,贩子自己都不吃,看完长见识

阿龙美食记
2026-04-25 14:05:22
2026-04-25 19:12:49
新浪财经 incentive-icons
新浪财经
新浪财经是一家创建于1999年8月的财经平台
3009831文章数 6919关注度
往期回顾 全部

科技要闻

DeepSeek V4发布!黄仁勋预言的"灾难"降临

头条要闻

男童7岁18斤被当脑瘫治多年 父母查出生病历发现大问题

头条要闻

男童7岁18斤被当脑瘫治多年 父母查出生病历发现大问题

体育要闻

火箭0-3触发百分百出局定律:本季加时赛9战8败

娱乐要闻

邓超最大的幸运,就是遇见孙俪

财经要闻

90%订单消失,中东旺季没了

汽车要闻

2026款乐道L90亮相北京车展 乐道L80正式官宣

态度原创

手机
房产
家居
数码
公开课

手机要闻

W16周排名出炉:vivo第四、小米第五,冠军还是它

房产要闻

新一轮教育大爆发来了!海口,开始疯狂建学校!

家居要闻

自然肌理 温润美学

数码要闻

雷达感应自动开关灯,Yeelight新品来了

公开课

李玫瑾:为什么性格比能力更重要?

无障碍浏览 进入关怀版