网易首页 > 网易号 > 正文 申请入驻

推理成本打到1元/百万token,浪潮撬动Agent规模化“最后一公里”

0
分享至

允中 发自 凹非寺
量子位 | 公众号 QbitAI

当前全球AI产业已从模型性能竞赛迈入智能体规模化落地的“生死竞速”阶段,“降本”不再是可选优化项,而是决定AI企业能否盈利、行业能否突破的核心命脉。

在此大背景下,浪潮信息推出元脑HC1000超扩展AI服务器,将推理成本首次击穿至1元/每百万token

这一突破不仅有望打通智能体产业化落地“最后一公里”的成本障碍,更将重塑AI产业竞争的底层逻辑。

浪潮信息首席AI战略官刘军强调:

  • 当前1元/每百万token的成本突破仅是阶段性胜利,面对未来token消耗量指数级增长、复杂任务token需求激增数十倍的必然趋势,现有成本水平仍难支撑AI的普惠落地。

未来,AI要真正成为如同 “水电煤” 般的基础资源,token成本必须在现有基础上实现数量级跨越,成本能力将从“核心竞争力”进一步升级为“生存入场券”,直接决定AI企业在智能体时代的生死存亡。


△浪潮信息首席AI战略官刘军

智能体时代,token成本就是竞争力

回顾互联网发展史,基础设施的“提速降费”是行业繁荣的重要基石。

从拨号上网以Kb计费,到光纤入户后百兆带宽成为标配,再到4G/5G时代数据流量成本趋近于零——每一次通信成本的显著降低,都推动了如视频流媒体、移动支付等全新应用生态的爆发。

当前的AI时代也处于相似的临界点,当技术进步促使token单价下滑之后,企业得以大规模地将AI应用于更复杂、更耗能的场景,如从早期的简短问答,到如今支持超长上下文、具备多步规划与反思能力的智能体……

这也导致单任务对token的需求已呈指数级增长。如果token成本下降的速度跟不上消耗量的指数增长,企业将面临更高的费用投入,这昭示着经济学中著名的“杰文斯悖论”正在token经济中完美重演。

(杰文斯悖论是1865年经济学家威廉·斯坦利·杰文斯提出的悖论:指当技术进步提高了效率,资源消耗不仅没有减少,反而激增。例如,瓦特改良的蒸汽机让煤炭燃烧更加高效,但结果却是煤炭需求飙升。)

来自多方的数据也有力佐证了token消耗量的指数级增长趋势。

  • 火山引擎最新披露的数据显示,截至今年12月,字节跳动旗下豆包大模型日均token使用量突破50万亿,较去年同期增长超过10倍,相比2024年5月刚推出时的日均调用量增长达417倍;
  • 谷歌在10月披露,其各平台每月处理的token用量已达,相当于日均43.3万亿,而一年前月均仅为9.7万亿。


△谷歌公布其token处理量变化

当使用量达到“百万亿token/月”的量级时,哪怕每百万token成本只下降1美元,也可能带来每月1亿美元的成本差异。

对此,刘军认为:

  • token成本就是竞争力,它直接决定了智能体的盈利能力。要让AI真正进入规模化普惠阶段,token成本必须在现有基础上继续实现数量级的下降。
深挖token成本“暗箱”:架构不匹配是核心瓶颈

当下,全球大模型竞赛从“盲目堆算力”转向“追求单位算力产出价值”的新阶段。

单位算力产出价值受到能源价格、硬件采购成本、算法优化、运营成本等多种因素的影响,但不可否认的是,现阶段token成本80%以上依然来自算力支出。

而阻碍成本下降的核心矛盾,在于推理负载与训练负载截然不同,沿用旧架构会导致算力、显存与网络资源难以同时最优,造成严重的“高配低效”。

一是算力利用率(MFU)的严重倒挂

训练阶段MFU可达50%以上,但在推理阶段,特别是对于追求低延迟的实时交互任务,由于token的自回归解码特性,在每一轮计算中,硬件必须加载全部的模型参数,却只为了计算一个token的输出,导致昂贵的GPU大部分时间在等待数据搬运,实际MFU往往仅为5%-10%。这种巨大的算力闲置是成本高企的结构性根源。

二是“存储墙”瓶颈在推理场景下被放大

在大模型推理中,随着上下文长度的增加,KV Cache呈指数级增长。这不仅占用了大量的显存空间,还导致了由于访存密集带来的高功耗。

这种存算分离不仅带来数据迁移功耗和延迟,还必须配合使用价格高昂的HBM,已经成为阻碍token成本下降的重要瓶颈。

三是网络通信与横向扩展代价愈发高昂

当模型规模突破单机承载能力时,跨节点通信成为新瓶颈。传统RoCE或InfiniBand网络的延迟远高于芯片内部的总线延迟,通信开销可能占据总推理时间的30%以上,导致企业被迫通过堆砌更多资源来维持响应速度,推高了总拥有成本(TCO)。

对此,刘军指出,降低token成本的核心不是“把一台机器做得更全”,而是围绕目标重构系统

把推理流程拆得更细,支持P/D分离、A/F分离、KV并行、细粒度专家拆分等计算策略,让不同计算模块在不同卡上按需配置并发,把每张卡的负载打满,让“卡时成本”更低、让“卡时产出”更高。

基于全新超扩展架构,元脑HC1000实现推理成本首次击破1元/每百万token

当前主流大模型的token成本依然高昂。以输出百万token为例,Claude、Grok等模型的价格普遍在10-15美元,国内大模型虽然相对便宜,也多在10元以上。

在天文数字级别的调用量下,如此高的token成本让大规模商业化应用面临严峻的ROI挑战。

因此,要打破成本僵局,必须从计算架构层面进行根本性重构,从而大幅提升单位算力的产出效率。


△主流LLM的百万token价格

为此,浪潮信息推出元脑HC1000超扩展AI服务器

该产品基于全新设计的全对称DirectCom极速架构,采用无损超扩展设计,可高效聚合海量本土AI芯片,支持极大推理吞吐量,推理成本首次击破1元/每百万token,为智能体突破token成本瓶颈提供极致性能的创新算力系统。


△元脑HC1000超扩展AI服务器

对此,刘军表示:

  • 我们看到原来的AI计算是瞄着大而全去建设的,五脏俱全,各种各样的东西都在里面。但是当我们聚焦降低token成本这一核心目标之后,我们重新思考系统架构设计,找到系统瓶颈,重构出一个极简设计的系统。

元脑HC1000创新设计了DirectCom极速架构,每计算模组配置16颗AIPU,采用直达通信设计,解决传统架构的协议转换和带宽争抢问题,实现超低延迟;计算通信1:1均衡配比,实现全局无阻塞通信;全对称的系统拓扑设计,可以支持灵活的PD分离、AF分离方案,按需配置计算实例,最大化资源利用率。


△全对称DirectCom极速架构

同时,元脑HC1000支持超大规模无损扩展,DirectCom架构保障了计算和通信均衡,通过算网深度协同、全域无损技术实现推理性能1.75倍提升,并且通过对大模型的计算流程细分和模型结构解耦,实现计算负载的灵活按需配比,单卡MFU最高可提升5.7倍。


△超大规模无损扩展

此外,元脑HC1000通过自适应路由和智能拥塞控制算法,提供数据包级动态负载均衡,实现KV Cache传输和All to All通信流量的智能调度,将KV Cache传输对Prefill、Decode计算实例影响降低5-10倍。

刘军强调,当前“1元/每百万token”还远远不够,面对未来token消耗量的指数级增长,若要实现单token成本的持续、数量级下降,需要推动计算架构的根本性革新。

这也要求整个AI产业的产品技术创新,要从当前的规模导向转为效率导向,从根本上重新思考和设计AI计算系统,发展AI专用计算架构,探索开发大模型芯片,推动算法硬件化的专用计算架构创新,实现软硬件深度优化,这将是未来的发展方向。

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
爆发冲突,有人受伤!深圳知名商场连夜发布说明!“警察到场协调”

爆发冲突,有人受伤!深圳知名商场连夜发布说明!“警察到场协调”

南方都市报
2026-01-06 09:44:55
畜生父亲韦乐被判死刑,法庭上高喊:我这辈子不亏

畜生父亲韦乐被判死刑,法庭上高喊:我这辈子不亏

墨染尘香
2024-12-11 22:00:48
美媒:歼-36三号原型机首飞

美媒:歼-36三号原型机首飞

武器纵论
2026-01-06 12:54:06
支付宝调级气炸中产,代言人梁朝伟被误伤了

支付宝调级气炸中产,代言人梁朝伟被误伤了

ZAKER新闻
2026-01-06 13:59:33
梅艳芳为何红颜薄命?白龙王揭秘:她本有长寿之相,错在关键一步

梅艳芳为何红颜薄命?白龙王揭秘:她本有长寿之相,错在关键一步

萧竹轻语
2025-11-14 17:10:43
2999元,这可能是苹果今年最香的新机

2999元,这可能是苹果今年最香的新机

刘奔跑
2026-01-04 23:56:41
东莞观音山27项问题举报提交巡视组:樟木头镇答复被指“敷衍且掩饰错误”

东莞观音山27项问题举报提交巡视组:樟木头镇答复被指“敷衍且掩饰错误”

时尚的弄潮
2026-01-05 14:10:57
俄罗斯“幻梦神婆”预言:血色北极光,十二星,2026 梦碎世界

俄罗斯“幻梦神婆”预言:血色北极光,十二星,2026 梦碎世界

心灵短笛
2025-12-25 11:08:11
回国后我才敢说:越南是我去过的所有国家中,最被低估的

回国后我才敢说:越南是我去过的所有国家中,最被低估的

阿纂看事
2025-12-29 09:43:52
唐嫣在国外很豪放!穿连体衣下面不系扣,难道不好好穿衣就时髦?

唐嫣在国外很豪放!穿连体衣下面不系扣,难道不好好穿衣就时髦?

章眽八卦
2026-01-05 12:27:07
苍天饶过谁!拒唱国歌否认中国籍,俩儿子落户国外,她现状如何?

苍天饶过谁!拒唱国歌否认中国籍,俩儿子落户国外,她现状如何?

悦君兮君不知
2025-11-12 19:49:36
曝罗志祥已立好遗嘱,停药后反应迟钝,含泪谈患病母亲看哭网友

曝罗志祥已立好遗嘱,停药后反应迟钝,含泪谈患病母亲看哭网友

心静物娱
2025-11-20 14:24:06
中国六代机歼36第三架原型机震撼亮相!9大改进全部完成

中国六代机歼36第三架原型机震撼亮相!9大改进全部完成

高原一剑客
2026-01-06 08:28:41
年薪50万带公司牛奶回家被妻子指责:知情人曝内情,果然有情况

年薪50万带公司牛奶回家被妻子指责:知情人曝内情,果然有情况

静若梨花
2026-01-04 17:12:41
随着英超前冠军莱斯特城2-1绝杀,英冠最新积分榜出炉

随着英超前冠军莱斯特城2-1绝杀,英冠最新积分榜出炉

侧身凌空斩
2026-01-06 06:12:27
开年在深圳被禁标3个月!中建八局工地发生致死事故遭通报

开年在深圳被禁标3个月!中建八局工地发生致死事故遭通报

南方都市报
2026-01-06 16:39:36
房产证上的人去世了,继承别再花大几千的公证费,80块钱就能搞定

房产证上的人去世了,继承别再花大几千的公证费,80块钱就能搞定

室内设计师有料儿
2025-12-07 16:05:28
“买不起羽绒服,还敢生5个孩子?”老师一句话,让家长无地自容

“买不起羽绒服,还敢生5个孩子?”老师一句话,让家长无地自容

妍妍教育日记
2026-01-06 10:18:39
换人了!淮安一批干部密集调整!

换人了!淮安一批干部密集调整!

微淮安
2026-01-06 20:29:44
东北一户人家忘关水龙头,家里直接变广寒宫,网友:这真的是冻结固定资产

东北一户人家忘关水龙头,家里直接变广寒宫,网友:这真的是冻结固定资产

环球网资讯
2026-01-05 17:23:45
2026-01-07 02:52:49
量子位 incentive-icons
量子位
追踪人工智能动态
11977文章数 176356关注度
往期回顾 全部

科技要闻

速看!黄仁勋万字实录:甩出"物理AI"王牌

头条要闻

俄罗斯发表关于委内瑞拉局势的声明

头条要闻

俄罗斯发表关于委内瑞拉局势的声明

体育要闻

从NBA最菜首发控卫,到NBA最强乔治

娱乐要闻

2026年央视春晚彩排照曝光!

财经要闻

50万亿存款"洪流"将至 四大去向引关注

汽车要闻

摩登出街潮品 实拍奇瑞QQ冰淇淋女王版

态度原创

教育
手机
本地
亲子
家居

教育要闻

刚刚,南京中小学期末考最新动态!

手机要闻

曾助力华为拿下中国第一!Mate 80系列累计销量冲刺150万大关

本地新闻

云游内蒙|初见呼和浩特,古今交融的北疆都会

亲子要闻

孩子叫你“妈妈”和“妈”,是何感受?

家居要闻

引光之宅 地下室也有生机

无障碍浏览 进入关怀版