网易首页 > 网易号 > 正文 申请入驻

浪潮信息刘军:AI产业不降本难盈利,1元钱/每百万Token的成本还远远不够!

0
分享至

北京2025年12月25日/美通社/ -- 当前全球AI产业已从模型性能竞赛迈入智能体规模化落地的"生死竞速"阶段,"降本" 不再是可选优化项,而是决定AI企业能否盈利、行业能否突破的核心命脉。在此大背景下,浪潮信息推出元脑HC1000超扩展AI服务器,将推理成本首次击穿至1元/每百万token。这一突破不仅有望打通智能体产业化落地"最后一公里"的成本障碍,更将重塑AI产业竞争的底层逻辑。

浪潮信息首席AI战略官刘军强调,当前1元/每百万token的成本突破仅是阶段性胜利,面对未来token消耗量指数级增长、复杂任务token需求激增数十倍的必然趋势,现有成本水平仍难支撑AI的普惠落地。未来,AI要真正成为如同 "水电煤" 般的基础资源,token成本必须在现有基础上实现数量级跨越,成本能力将从"核心竞争力"进一步升级为"生存入场券",直接决定AI企业在智能体时代的生死存亡。



浪潮信息首席AI战略官刘军

智能体时代,token成本就是竞争力

回顾互联网发展史,基础设施的"提速降费"是行业繁荣的重要基石。从拨号上网以Kb计费,到光纤入户后百兆带宽成为标配,再到4G/5G时代数据流量成本趋近于零——每一次通信成本的显著降低,都推动了如视频流媒体、移动支付等全新应用生态的爆发。

当前的AI时代也处于相似的临界点,当技术进步促使token单价下滑之后,企业得以大规模地将AI应用于更复杂、更耗能的场景,如从早期的简短问答,到如今支持超长上下文、具备多步规划与反思能力的智能体……这也导致单任务对token的需求已呈指数级增长。如果token成本下降的速度跟不上消耗量的指数增长,企业将面临更高的费用投入。这昭示着经济学中著名的"杰文斯悖论"正在token经济中完美重演。

来自多方的数据也有力佐证了token消耗量的指数级增长趋势。火山引擎最新披露的数据显示,截至今年12月,字节跳动旗下豆包大模型日均token使用量突破50万亿,较去年同期增长超过10倍,相比2024年5月刚推出时的日均调用量增长达417倍;谷歌在10月披露,其各平台每月处理的token用量已达1300万亿,相当于日均43.3万亿,而一年前月均仅为9.7万亿。



谷歌公布其token处理量变化

当使用量达到"百万亿token/月"的量级时,哪怕每百万token成本只下降1美元,也可能带来每月1亿美元的成本差异。刘军认为:"token成本就是竞争力,它直接决定了智能体的盈利能力。要让AI真正进入规模化普惠阶段,token成本必须在现有基础上继续实现数量级的下降。"

深挖token成本"暗箱":架构不匹配是核心瓶颈

当下,全球大模型竞赛从"盲目堆算力"转向"追求单位算力产出价值"的新阶段。单位算力产出价值受到能源价格、硬件采购成本、算法优化、运营成本等多种因素的影响,但不可否认的是,现阶段token成本80%以上依然来自算力支出,而阻碍成本下降的核心矛盾,在于推理负载与训练负载截然不同,沿用旧架构会导致算力、显存与网络资源难以同时最优,造成严重的"高配低效"。

一是算力利用率(MFU)的严重倒挂。训练阶段MFU可达50%以上,但在推理阶段,特别是对于追求低延迟的实时交互任务,由于token的自回归解码特性,在每一轮计算中,硬件必须加载全部的模型参数,却只为了计算一个token的输出,导致昂贵的GPU大部分时间在等待数据搬运,实际MFU往往仅为5%-10%。这种巨大的算力闲置是成本高企的结构性根源。

二是"存储墙"瓶颈在推理场景下被放大。在大模型推理中,随着上下文长度的增加,KV Cache呈指数级增长。这不仅占用了大量的显存空间,还导致了由于访存密集带来的高功耗。这种存算分离不仅带来数据迁移功耗和延迟,还必须配合使用价格高昂的HBM,已经成为阻碍token成本下降的重要瓶颈。

三是网络通信与横向扩展代价愈发高昂。当模型规模突破单机承载能力时,跨节点通信成为新瓶颈。传统RoCE或InfiniBand网络的延迟远高于芯片内部的总线延迟,通信开销可能占据总推理时间的30%以上,导致企业被迫通过堆砌更多资源来维持响应速度,推高了总拥有成本(TCO)。

对此,刘军指出,降低token成本的核心不是"把一台机器做得更全",而是围绕目标重构系统:把推理流程拆得更细,支持P/D分离、A/F分离、KV并行、细粒度专家拆分等计算策略,让不同计算模块在不同卡上按需配置并发,把每张卡的负载打满,让"卡时成本"更低、让"卡时产出"更高。

基于全新超扩展架构,元脑HC1000实现推理成本首次击破1元/每百万token

当前主流大模型的token成本依然高昂。以输出百万token为例,Claude、Grok等模型的价格普遍在10-15美元,国内大模型虽然相对便宜,也多在10元以上。在天文数字级别的调用量下,如此高的token成本让大规模商业化应用面临严峻的ROI挑战。要打破成本僵局,必须从计算架构层面进行根本性重构,从而大幅提升单位算力的产出效率。



主流LLM的百万token价格 (注:9月26日(AICC2025大会当日)数据,9月29日DeepSeek发布V3.2 Exp价格降为3元/每百万Token)

为此,浪潮信息推出元脑HC1000超扩展AI服务器。该产品基于全新设计的全对称DirectCom极速架构,采用无损超扩展设计,可高效聚合海量本土AI芯片,支持极大推理吞吐量,推理成本首次击破1元/每百万token,为智能体突破token成本瓶颈提供极致性能的创新算力系统。



元脑HC1000超扩展AI服务器

刘军表示:"我们看到原来的AI计算是瞄着大而全去建设的,五脏俱全,各种各样的东西都在里面。但是当我们聚焦降低token成本这一核心目标之后,我们重新思考系统架构设计,找到系统瓶颈,重构出一个极简设计的系统。"

元脑HC1000创新设计了DirectCom极速架构,每计算模组配置16颗AIPU,采用直达通信设计,解决传统架构的协议转换和带宽争抢问题,实现超低延迟;计算通信1:1均衡配比,实现全局无阻塞通信;全对称的系统拓扑设计,可以支持灵活的PD分离、AF分离方案,按需配置计算实例,最大化资源利用率。



全对称DirectCom极速架构

同时,元脑HC1000支持超大规模无损扩展,DirectCom架构保障了计算和通信均衡,通过算网深度协同、全域无损技术实现推理性能1.75倍提升,并且通过对大模型的计算流程细分和模型结构解耦,实现计算负载的灵活按需配比,单卡MFU最高可提升5.7倍。



超大规模无损扩展

此外,元脑HC1000通过自适应路由和智能拥塞控制算法,提供数据包级动态负载均衡,实现KV Cache传输和All to All通信流量的智能调度,将KV Cache传输对Prefill、Decode计算实例影响降低5-10倍。

刘军强调,当前"1元/每百万token"还远远不够,面对未来token消耗量的指数级增长,若要实现单token成本的持续、数量级下降,需要推动计算架构的根本性革新。这也要求整个AI产业的产品技术创新,要从当前的规模导向转为效率导向,从根本上重新思考和设计AI计算系统,发展AI专用计算架构,探索开发大模型芯片,推动算法硬件化的专用计算架构创新,实现软硬件深度优化,这将是未来的发展方向。

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
必须加鸡腿!主人经期贫血晕厥,2只狗狗开门找邻居求救

必须加鸡腿!主人经期贫血晕厥,2只狗狗开门找邻居求救

观威海
2026-05-02 10:40:06
上海男篮季后赛12人大名单!四位超级外援,六名国手,阵容太豪华

上海男篮季后赛12人大名单!四位超级外援,六名国手,阵容太豪华

篮球大陆
2026-05-02 09:10:05
境外势力掏钱让你“躺平”?这波操作,真把年轻人当韭菜割了

境外势力掏钱让你“躺平”?这波操作,真把年轻人当韭菜割了

迷世书童H9527
2026-04-28 10:30:43
纳指站上25000点!苹果大涨超3%,英特尔市值破5000亿,美油一度重挫近6%

纳指站上25000点!苹果大涨超3%,英特尔市值破5000亿,美油一度重挫近6%

第一财经资讯
2026-05-02 07:08:13
撤兵?那就撤吧。德国外长一句话,把特朗普威胁变成全世界的笑柄

撤兵?那就撤吧。德国外长一句话,把特朗普威胁变成全世界的笑柄

菁菁子衿
2026-05-01 16:50:07
如果没有她,海南岛和南海诸岛200多万海域,可能早已不属于中国

如果没有她,海南岛和南海诸岛200多万海域,可能早已不属于中国

抽象派大师
2026-05-02 00:17:09
被骂疯子的米莱终结阿根廷几十年赤字

被骂疯子的米莱终结阿根廷几十年赤字

桂系007
2026-04-28 15:20:23
便携式气象站应用场景与综合价值

便携式气象站应用场景与综合价值

测控技术有限公司
2026-03-10 15:55:30
张雪机车两位车手双双进入前十,WSBK匈牙利站排位赛出分

张雪机车两位车手双双进入前十,WSBK匈牙利站排位赛出分

新京报
2026-05-01 23:06:03
季后赛被打废!最失望阵容:从核心到角色,顶薪打飞了!

季后赛被打废!最失望阵容:从核心到角色,顶薪打飞了!

篮球盛世
2026-05-02 01:12:29
终于开放!深圳巨型山谷公园,很野很欢乐

终于开放!深圳巨型山谷公园,很野很欢乐

深圳微时光
2026-05-01 23:35:00
李嘉诚和巴菲特同步清仓,背后的信号不简单

李嘉诚和巴菲特同步清仓,背后的信号不简单

深度报
2026-03-30 22:23:58
七大刚闭幕,毛主席突然主动找到朱瑞:听说你对工作安排有意见?

七大刚闭幕,毛主席突然主动找到朱瑞:听说你对工作安排有意见?

老橝说体育
2026-04-30 22:59:38
50岁陈坤董洁牵手三月,现状曝光,儿子生母真相

50岁陈坤董洁牵手三月,现状曝光,儿子生母真相

时光流转追梦人
2026-05-01 14:23:48
一条传了近30年的谣言,澄清为何那么难?

一条传了近30年的谣言,澄清为何那么难?

网络辟谣
2026-04-27 08:11:30
伊朗突然翻脸,俄罗斯沉默,这场战争,把“战略伙伴”打回原形

伊朗突然翻脸,俄罗斯沉默,这场战争,把“战略伙伴”打回原形

悬崖边上的爱情
2026-05-02 07:23:59
美专家亲口承认,卡住美军工脖子的,是当年他们甩给中国的小产业

美专家亲口承认,卡住美军工脖子的,是当年他们甩给中国的小产业

墨语家
2026-04-29 14:11:03
央视主持大洗牌!3位旧人离场,杨帆处境尴尬,撒贝宁成最大赢家

央视主持大洗牌!3位旧人离场,杨帆处境尴尬,撒贝宁成最大赢家

阿雹娱乐
2026-05-01 16:59:54
“我可能不再建议学计算机”!图灵奖得主炮轰半个行业,并断言:AI Agent最后全是数据库问题

“我可能不再建议学计算机”!图灵奖得主炮轰半个行业,并断言:AI Agent最后全是数据库问题

InfoQ
2026-04-30 13:42:39
保洁员误拿快递,沟通中突发脑溢血 谁为“致命沟通”负责?律师:抢救超48小时或难认定工伤

保洁员误拿快递,沟通中突发脑溢血 谁为“致命沟通”负责?律师:抢救超48小时或难认定工伤

红星新闻
2026-05-01 12:31:46
2026-05-02 11:27:00
美通社PRNewswire incentive-icons
美通社PRNewswire
全球最大的商业新闻通讯社
63809文章数 12286关注度
往期回顾 全部

科技要闻

AI热潮耗尽库存,Mac Mini起售调高200美元

头条要闻

牛弹琴:一觉醒来美国对欧洲"下狠手" 特朗普格外兴奋

头条要闻

牛弹琴:一觉醒来美国对欧洲"下狠手" 特朗普格外兴奋

体育要闻

无奈!约基奇:这要在塞尔维亚 全队早被炒了

娱乐要闻

白百何罕晒大儿子 18岁元宝越来越帅

财经要闻

雷军很努力 小米还是跌破了30港元大关

汽车要闻

新纪录!零跑汽车4月交付达71387台

态度原创

教育
亲子
手机
房产
公开课

教育要闻

什么样的学校能让教师留下来——谈一个普通教师对学校的四层期待

亲子要闻

新升级合生元派星进口奶粉实测:三重自护+高效吸收,完胜两款进口奶粉

手机要闻

Q1国内激活量数据出炉,华为第一,苹果第二

房产要闻

所有户型全卖爆!海口TOP级豪宅,景观样板间五一全线开放!

公开课

李玫瑾:为什么性格比能力更重要?

无障碍浏览 进入关怀版