网易首页 > 网易号 > 正文 申请入驻

AI驶入“推理时代”:英伟达欲加冕“Token国王”,中国大模型已凭性价比抢跑

0
分享至

“推理的拐点已然到来。”

当地时间3月16日,在美国圣何塞举行的GTC(GPU技术大会)上,英伟达CEO黄仁勋为全球AI竞赛划定了全新的战场。

在这场万众瞩目的演讲中,黄仁勋抛出了一个新的商业概念——“AI Token工厂”。

他指出,随着AI大模型从单纯的“聊天工具”进化为“自主执行任务的智能体(Agent)”,AI的核心战事已从一次性的模型训练,全面转向持续、海量的Token生成(即推理)。

在这个规模到2027年或将高达万亿美元的新市场里,谁能把Token的生产成本降到最低,谁就能加冕为“Token国王”。


图片来源:黄仁勋演讲视频截图

为此,英伟达祭出了能将生成Token成本暴降90%的新一代Vera Rubin计算平台。

就在黄仁勋高呼“降本”的同时,中国AI厂商已在推理市场上悄然拿下了全球定价权。

数据显示,自2026年2月以来,伴随着OpenClaw等智能体应用引发的Token消耗量狂飙,中国AI大模型凭借极致的性价比——仅为国外竞品1/6至1/10的Token单价,在全球最大的API聚合平台OpenRouter上,周调用量已连续多次强势反超美国同行,并长期霸榜。

这绝非一场简单的市场份额易手,而是一场关于AI降本路径的底层逻辑大碰撞。

当AI全面驶入“推理时代”,这场争夺定价权的“Token战”已正式打响。


图片来源:每日经济新闻

黄仁勋定调新战场:AI竞争核心已从训练转向Token生产效率

在2026年的GTC大会上,黄仁勋用近两个小时的主题演讲,为AI行业的下一阶段竞争划定了赛道——推理(Inference)。

黄仁勋强调,随着AI从简单的聊天机器人演进到能自主完成任务的智能体(Agentic AI),AI行业的核心工作正从一次性的模型训练,转向持续不断地运行模型以生成结果,即推理。

每一次AI的问答、创作或分析背后,都是模型对Token的处理和生成。

Token是AI处理信息的最小数据单元,可以是一个单词的一部分,也可以是图像的像素块。黄仁勋指出,Token是新AI时代的基础构建单元,而AI应用的价值也越来越多地体现在持续、高效地生成Token上。

基于这一判断,黄仁勋重提他早在2024年就提出的概念:“AI Token工厂”。


图片来源:黄仁勋演讲视频截图

他认为,数据中心的角色已经发生了根本性转变。

“在上次工业革命中,进入工厂的原材料是水,出来的产品是电。”黄仁勋在2024年的GTC大会上曾说,“如今,进入这些(服务器)房间的原材料是数据和电力,出来的则是Token。这些Token虽然无形,但非常有价值,将被分发到世界各地”。

这个概念的转变至关重要。过去,数据中心一直被视为企业的“成本中心和资本支出”,但黄仁勋试图让市场接受一种新的经济模型:算力直接与收入挂钩。“如果没有算力,就没有Token;没有Token,就没有收入”。在这种模型下,“AI Token工厂”的效率,将成为衡量云服务商和AI公司的核心经营指标。

黄仁勋给出了一个惊人的预测,到2027年,AI计算基础设施的市场规模可能会接近1万亿美元。一年前,英伟达给出的预期数字还只是5000亿美元。黄仁勋解释说,无论是初创公司还是大型企业,对算力的需求都在激增,“如果他们能获得更多算力,就能生成更多Token,他们的收入就会提升”。

在以提高Token生产效率为目标的战场上,谁能以最低成本生成Token,谁就掌握了主导权。黄仁勋在演讲中毫不讳言英伟达的雄心,他手举一条印有“InferenceX”(推理之王)的冠军腰带,并多次强调英伟达通过软硬件的“极致协同设计”(Extreme Co-design),实现了全球最低的Token成本,自封为“Token国王”。


英伟达发布新一代AI平台Vera Rubin,欲将Token成本降低90%

为了在自己定义的“推理时代”中巩固领先地位,英伟达在本次GTC上重点提及了自己的下一代AI计算平台——Vera Rubin。

黄仁勋宣称,Vera Rubin平台将带来一次“代际飞跃”,其每瓦特的推理性能是上一代Grace Blackwell的10倍,能够将生成Token的成本降低约90%。在AI应用能耗问题日益凸显的当下,这一能效比的巨大提升显得尤为关键。

此外,英伟达还首次详细披露了其整合Groq技术的成果。Groq是一家由谷歌TPU(张量处理单元)创始人创立的公司,英伟达在2025年12月斥资200亿美元收购了其大部分资产。Groq的核心技术是一种确定性数据流处理器(LPU),专为低延迟推理而设计。

英伟达创造了一种创新的混合架构。在这套系统中,推理过程中需要大量算力和内存的任务在Vera Rubin GPU上完成;而对速度要求极高的任务,即最终生成Token的步骤,则交由Groq的LPU处理。

黄仁勋表示,Vera Rubin与Groq LPU的组合可以将推理性能提升高达35倍。这种“GPU负责高吞吐,LPU负责低延迟”的混合模式,旨在应对不同AI任务对成本、延迟和吞吐量的复杂要求,帮助客户在不同价值层级的Token生成中找到最佳平衡点。黄仁勋表示:“如果你的工作主要是高吞吐,100%使用Vera Rubin;如果你有大量高价值的编程级别的Token生成需求,拿出25%的数据中心规模给Groq。”


图片来源:黄仁勋演讲视频截图

英伟达的野心不止于芯片。从Vera Rubin GPU、Vera CPU,到BlueField 4存储系统、CPO Spectrum X光学交换机,再到名为Kyber的全新液冷机架系统,英伟达展示了一套从芯片到系统的全栈解决方案。黄仁勋在演讲中反复强调,加速计算不是一个芯片问题,而是一个系统问题,必须进行垂直整合。

为了让“AI工厂”的建设更加标准化,英伟达甚至推出了名为NVIDIA DSX的数字孪生平台。该平台基于其Omniverse技术,允许客户在虚拟世界中规划、设计和模拟整个吉瓦级AI工厂的运行,包括机械、热学、电气和网络系统,甚至可以与电网协同进行节能调度,以求在设计阶段就将效率最大化。


图片来源:黄仁勋演讲视频截图

通过定义Token经济、发布降本硬件、推出全栈方案乃至制定建厂标准,英伟达正试图定义整个AI工厂的构建模式,将自己从一个芯片供应商,升级为AI时代的“工厂架构师、操作系统供应商和通行费征收者”。


凭借架构创新和电力优势实现低价Token,中国AI已领跑全球市场

就在黄仁勋描绘“将Token成本降低90%”的宏伟蓝图时,中国的AI大模型厂商早已凭借性价比优势,在全球市场领跑。

2026年以来,OpenClaw的出现让全球AI大模型的Token消耗量相比于“聊天机器人”时代呈指数级提升。

因此,开发者和用户对于大模型Token价格更加敏感。借仅为国外大模型1/6~1/10的Token价格,中国大模型成为全球智能体(AI Agent)用户的优先选择。

全球最大的AI大模型API聚合平台OpenRouter数据显示,今年2月9日~15日当周,中国AI大模型以4.12万亿的Token调用量,首次超过同期美国AI大模型的2.94万亿Token。到3月9日~15日当周,上榜的AI大模型中,中国AI大模型的周调用量上升至4.69万亿Token,再次连续两周超越美国。


而且,在调用量排名前列的AI大模型中,中国AI大模型持续占据多数。


此前,OpenClaw默认选择Claude4.5大模型,但有部分开发者认为其成本较高。而中国AI大模型运营实际成本远低于美国AI大模型。

根据Artificial Analysis数据,以Minimax M2.5为例,运行一轮Artificial Analysis测试成本仅需125美元,而以Claude Opus 4.6运行一轮测试需要4970美元,使用GPT5.2-Codex测试一轮也需要花费3244美元。

中国AI大模型成本低,首先是因为Token价格低。比如,Minimax M2.5输入和输出价格仅为Claude Opus的6%和5%,是GPT5.2 Codex(xhigh)的17%和9%;


其次,单次运行测试所消耗的Token量少。以Minimax M2.5为例,运行一次测试消耗的Token量为58M,仅为Claude Opus的36%和GPT5.2-Codex(xhigh)的29%。


虽然价格便宜,但国产AI大模型的能力并不低。

根据Artificial Analysis上对代码能力的评分,智谱GLM-5、Kimi K2.5和MiniMax 2.5在代码测试集上分别得分44、40、37分,与GPT-5.1(high)、Claude 4.5 Sonnet持平。


国产AI大模型的性价比优势得益于两个方面。首先是推理架构。

2025年后,DeepSeek通过一套协同创新实现高效:Multi-Head Latent Attention(多头潜在注意力,MLA))大幅压缩KV缓存。Mixture-of-Experts(专家混合,MoE)架构、FP8混合精度训练、Multi Token Prediction(多Token预测,MTP),以及从DeepSeek-R1推理大模型蒸馏的知识。这套架构使其能在受限GPU上实现接近最先进的水平。

Kimi K2.5、智谱GLM5等大模型延续了DeepSeek思路,降低了推理成本。

电力成本优势是国产大模型高性价比的另一个原因。

申万宏源计算机分析师测算,使用中国数据中心电力,理论上一张英伟达B200人工智能芯片每年可以节省900美元。2026年预计H200/B200及同级别芯片出货量超1500万颗,理论上全球每年电价可节省空间为百亿美元。


单张GPU芯片推理作业中生成的Tokens及电价消耗量测算

国信证券分析师在研报中指出,相较于训练端比拼最先进芯片、超大规模集群和长周期前置投入,推理更看重用户生态、电力、网络和调度效率等方面,中国与美国的芯片差距被缩小。

免责声明:本文内容与数据仅供参考,不构成投资建议,使用前请核实。据此操作,风险自担。

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
团长打不退敌军进攻,17岁小兵站出来:让我来指挥!打不退杀我头

团长打不退敌军进攻,17岁小兵站出来:让我来指挥!打不退杀我头

云端小院
2026-05-10 06:38:31
套路一模一样!汉坦病毒又想栽赃中国,没想到被旅游博主记录下来

套路一模一样!汉坦病毒又想栽赃中国,没想到被旅游博主记录下来

魔都姐姐杂谈
2026-05-10 07:41:47
胎压2.5是谎言?干了十年汽修,我来告诉你真正的标准!

胎压2.5是谎言?干了十年汽修,我来告诉你真正的标准!

娱乐圈的笔娱君
2026-05-10 01:52:36
Switch神作骨折价:65美元游戏限时5美元

Switch神作骨折价:65美元游戏限时5美元

热搜摘要官
2026-05-09 20:08:21
西媒:弗里克的父亲于昨夜离世,他仍将带队出战国家德比

西媒:弗里克的父亲于昨夜离世,他仍将带队出战国家德比

懂球帝
2026-05-10 19:55:19
一个家庭最大的悲哀,是父母七八十岁了,还在做4件“糊涂事”

一个家庭最大的悲哀,是父母七八十岁了,还在做4件“糊涂事”

大熊欢乐坊
2026-05-10 20:20:25
做好准备硬扛30年,和日本当年一模一样,还清房贷经济才有起色

做好准备硬扛30年,和日本当年一模一样,还清房贷经济才有起色

阿离家居
2026-05-09 10:05:46
特斯拉活动延期,车主损失谁买单?

特斯拉活动延期,车主损失谁买单?

IT之家
2026-05-10 09:15:27
离谱!美国F-16C被伊朗击中,挂出7700紧急情况代码,伊朗F-4E得手后冲出跑道?

离谱!美国F-16C被伊朗击中,挂出7700紧急情况代码,伊朗F-4E得手后冲出跑道?

军武速递
2026-05-10 18:10:30
伊朗高层突然害怕了:再逼女性戴头巾,可能又出大事

伊朗高层突然害怕了:再逼女性戴头巾,可能又出大事

桂系007
2026-05-10 00:00:03
三亚皮皮虾事升级!老板身亡,亲属曝店铺彻底关闭,顾客恶行被扒

三亚皮皮虾事升级!老板身亡,亲属曝店铺彻底关闭,顾客恶行被扒

荒野老五
2026-05-10 01:58:30
赵丽颖“水母坐姿”火了,双腿弯成倒v字,网友傻眼:这谁看了不呆…

赵丽颖“水母坐姿”火了,双腿弯成倒v字,网友傻眼:这谁看了不呆…

阿废冷眼观察所
2026-05-09 19:44:22
杜新枝母亲节收到鲜花,笑得合不拢嘴,网友留言:两个儿媳都爱你

杜新枝母亲节收到鲜花,笑得合不拢嘴,网友留言:两个儿媳都爱你

汉史趣闻
2026-05-10 19:44:17
又一狗血新词!网传有员工被裁后再遭公司起诉"刻意隐瞒自身价值"

又一狗血新词!网传有员工被裁后再遭公司起诉"刻意隐瞒自身价值"

火山詩话
2026-05-08 18:00:57
游客投诉演唱会座椅脏污被桂林文旅“拉黑” 场馆方称做了清洁,当事人要求道歉

游客投诉演唱会座椅脏污被桂林文旅“拉黑” 场馆方称做了清洁,当事人要求道歉

封面新闻
2026-05-09 19:20:03
胡适评价毛主席写的词,“没有一句通的”,那么胡适的水平如何?

胡适评价毛主席写的词,“没有一句通的”,那么胡适的水平如何?

英子谈
2026-05-09 05:08:00
中国3大长寿食物,西兰花排第三;第一名我们天天见,却吃得的少

中国3大长寿食物,西兰花排第三;第一名我们天天见,却吃得的少

王二哥老搞笑
2026-05-09 00:06:41
郑州街头法桐树飞絮密集宛如飘雪,有市民称眼睛和鼻子过敏,园林部门回应

郑州街头法桐树飞絮密集宛如飘雪,有市民称眼睛和鼻子过敏,园林部门回应

极目新闻
2026-05-10 13:03:22
马云预言又应验!若无意外,2026年起,中国房地产或迎来3大转变

马云预言又应验!若无意外,2026年起,中国房地产或迎来3大转变

社会日日鲜
2026-05-02 09:45:05
印尼联手菲律宾逼走中企,中国一招破局

印尼联手菲律宾逼走中企,中国一招破局

白浅娱乐聊
2026-05-10 13:22:25
2026-05-10 20:59:00
每日经济新闻 incentive-icons
每日经济新闻
中国主流财经全媒体平台。
1563866文章数 2725837关注度
往期回顾 全部

科技要闻

DeepSeek融资,改写所有人的估值

头条要闻

罕见一幕 韩国总统、国会议长、执政党党首同日飙泪

头条要闻

罕见一幕 韩国总统、国会议长、执政党党首同日飙泪

体育要闻

那个曾让詹姆斯抱头的兄弟,40岁从大学毕业了

娱乐要闻

大S女儿玥儿开通账号,用烟花缅怀母亲

财经要闻

白酒大逃杀

汽车要闻

轴距加长/智驾拉满 阿维塔07L定位大五座SUV

态度原创

艺术
数码
家居
游戏
公开课

艺术要闻

19位艺术家的母亲

数码要闻

微软Win11 Xbox模式实测:英伟达、AMD显卡游戏性能均获提升

家居要闻

菁英人居 全能豪宅

《GTA6》成本居高不下 Take-Two高管表示毫无压力

公开课

李玫瑾:为什么性格比能力更重要?

无障碍浏览 进入关怀版