网易首页 > 网易号 > 正文 申请入驻

8.9ms推理速度新纪录!1元百万token,浪潮信息加速智能体产业化

0
分享至

克雷西 henry 发自 凹非寺
量子位 | 公众号 QbitAI

一百万Token的输出推理成本,只要一块钱了。

今年的人工智能计算大会上,浪潮信息发布了超扩展AI服务器元脑HC1000,把AI推理成本狠狠地打了下来。

与此同时,浪潮信息还推出另一杀手锏——元脑SD200超节点,也将DeepSeek-R1的Token生成时间打到了毫秒量级。


浪潮信息首席AI战略官刘军

随着AI竞赛进入智能体产业化阶段,能力、速度和成本成为了决胜的核心三要素。

浪潮信息打出的这套组合拳,针对的就是其中涉及到AI Infra的两项关键指标——速度与成本。



元脑SD200和元脑HC1000,将为多智能体协同与复杂任务推理的规模化落地,提供高速度、低成本的算力基础设施。

DeepSeek-R1推理进入10ms时代

首先来看元脑SD200超节点AI服务器。

它可以在单机内同时运行DeepSeek-R1、Kimi K2等四大国产开源模型,支持超万亿参数大模型推理以及多智能体实时协作,还支持同时运行64个AlphaFold3蛋白质预测模型。

特别是在速度上,元脑SD200率先将大模型端到端推理延迟控制在了10ms以内。

实测中,元脑SD200在运行DeepSeek-R1时,TPOT(每Token输出时间)仅有8.9ms,领先了前SOTA(15ms)近一倍,还使DeepSeek-R1 671B的推理性能实现了最高16.3倍的超线性扩展率



并且元脑SD200并没有因为速度而牺牲系统的稳定性与可靠性,而是分别在系统硬件层、基础软件层和业务软件层等层面进行针对性设计和优化,保证整机运行高可靠设计,真正做到了“快而不乱”。

为什么元脑SD200如此强调“速度”?

因为速度已经成为智能体时代AI竞争的关键变量。

随着AI进入智能体时代,交互方式发生了巨大改变,过去大模型只需进行人机对话,但现在还需要智能体与智能体之间的交流,对模型的生成速度更加敏感。

特别是在实际应用场景中,智能体与智能体之间的交互轮次更多,延迟会随这一过程不断累积,导致整个系统运行速度无法被用户接受,在竞争中将成为致命缺陷。



除了用户的直观感受,造成商业场景对速度要求苛刻的原因还有许多。

比如在金融交易当中,对响应时效的要求极为苛刻,反欺诈算法需要在10毫秒的时间里识别风险交易,否则后果不堪设想。

因此,Token生成速度不仅影响用户体验,更直接关乎商业产出的稳定性与可靠性。

那么,制约Token生成速度提升的因素,又是什么呢?

问题主要出在了通信环节。

当参数规模快速突破万亿级别,模型必须拆分到几十甚至上百张卡上时,原本在单机内部的高速通信变成了跨机的网络传输,通信就成为了更严峻的挑战。

特别是在处理推理过程中大量的小数据包时,延迟问题变得极为突出,而且每一次跨机通信都可能带来额外延迟,当多个万亿级模型需要实时协作时,传统架构已经完全无法应对。

针对这些问题,元脑SD200先是在架构层面进行了革新。

具体来说,元脑SD200采用了创新的多主机3D Mesh系统架构,由自研的Open Fabric Switch贯通,将多个主机的GPU资源整合成一个统一的计算域,并且当中能够实现跨主机域全局统一编址。

这一架构让显存统一地址空间扩增8倍,可实现单机64路的Scale up纵向扩展,最大可以提供4TB显存和64TB内存,构建超大的KV缓存分级存储空间。

并且通过Smart Fabric Manager,元脑SD200实现了超节点64卡全局最优路由的自主创建,保障AI芯片间通信路径最短,进一步缩短基础通信延迟。



除了架构,在互联协议方面,为了实现极低的Latency通信,元脑SD200采用了极简的三层协议栈,无需网络/传输层,仅凭物理层、数据链路层和事务层三层即可实现GPU直接访问远端节点的显存或主存。

这种模式无需“发送-接收”式的消息语义拷贝,将基础通信的延迟打到了百纳秒级。

同时,为了实现稳定可靠通信,元脑SD200原生支持由硬件逻辑实现的链路层重传,可将重传延迟降低至微秒级;通过采用分布式、预防式流控机制,从根本上避免拥塞和丢包。



此外,元脑SD200还通过采用通信库优化、并行推理框架、PD分离策略及动态负载均衡等创新技术,充分发挥超节点的性能优势。

最终DeepSeek-R1 671B推理,从16卡扩展到64卡,实现了16.3倍超线性的扩展率。

百万Token推理只要一块钱

除了元脑SD200,浪潮信息还带来了超扩展AI服务器元脑HC1000

元脑HC1000不仅支持极大推理吞吐量,还能让单卡成本降低60%、均摊系统成本降低50%,将每百万Token输出成本降低至1元。



如果说速度是智能体应用的生命线,那么成本则决定了度过生存关的应用能否实现盈利。

在智能体时代,Token消耗量正在暴增,以辅助编程为例,每月消耗的Token数比一年前增长了50倍。

如果从经济角度考虑,企业每部署一个智能体,平均每个月消耗的Token成本将达到5000美元。

并且随着任务复杂度、使用频率等指标不断攀升,据浪潮信息预计,未来5年智能体应用带来的Token消耗将呈现出指数级增长。



Token数量只增不减,如果不把单个Token成本打下来,那么在高强度交互的智能体环境中,Token成本必定成为规模化部署的瓶颈。

那么,Token推理成本又为什么居高不下呢?

推理阶段算效(MFU)低是主要原因。

具体来说,在训练时,模型的FLOPs的利用率可能达到50%,但在推理阶段,这个数值可能低出一个数量级。

进一步的原因是推理的每个阶段的运算特点均不相同,与算力不能实现有效匹配。

元脑HC1000瞄准的出发点正在于此——

既然每个阶段有不同的运算特点,那就将推理的计算流程拆解,对模型结构进行解耦。

元脑HC1000不仅将推理过程的Prefill和Decode阶段分离,还将Decode阶段进一步分解成了注意力运算和FNN,从而提高资源利用效率。

解耦之后的另一个好处是,对于芯片的指标要求不再是“五边形战士”,可以针对性地做进一步成本削减,节约成本的同时还能降低功耗。

在硬件层面,元脑HC1000创新16卡计算模组设计、单卡“计算-显存-互连”均衡设计,大幅降低单卡成本和每卡系统分摊成本。同时,全对称的系统拓扑设计支持超大规模无损扩展。

据测算,元脑HC1000的推理性能相比传统RoCE提升1.75倍,单卡模型算力利用率最高提升5.7倍。

另外,元脑HC1000还采用全对称DirectCom极速架构,能够以超低延迟直达通信,保障计算、通信实现1:1均衡分配。

面向未来的AI创新计算架构

面向智能体AI时代,浪潮信息通过元脑SD200与元脑HC1000两大杀手锏,破解了智能体规模化落地中的速度与成本两大关键难题。

一方面,在智能体商业化过程中,Agent应用往往遵循“快杀慢”的规律——

面对海量选择,用户更倾向于选择输出速度更快、交付效率更高的工具;

另一方面,随着应用规模扩大、交互频次提升,行业关注的重点也从单纯算力转向总体拥有成本,尤其是直接影响商业可行性的单Token成本。

基于此,浪潮信息面向未来智能体的商业化场景,在速度与成本上率先突围,把“百万Token上下文”从高成本的技术演示,转化为可规模化运营的现实能力。

然而,AI算力的可持续发展依然面临三大挑战——系统规模接近工程极限电力基础设施压力巨大,以及算力投入与产出不平衡

在此背后,是GPGPU主导的通用计算架构的局限性正在逐渐显现。

因此,有必要转变思维,思考新的路径,从规模导向转为效率导向,重新规划和设计AI计算架构,发展AI专用计算系统。

浪潮信息首席AI战略官刘军指出:

  • 通用架构效率低,但适应性强,易于产业化推广;专用架构效率高,但应用面窄,不利于普及推广。计算产业发展的历程,就是一个专用与通用对立统一、交替发展的过程。

这意味着,以GPGPU等主导的通用AI计算架构正在面临多重挑战,正在向细分化、专业化的应用阶段加速转型。

顺应这一趋势,浪潮信息通过软硬件协同设计与深度优化,面向具体应用,探索AI下半场的算力新路径。

目前,浪潮信息已经交出了元脑SD200和元脑HC1000这样的答卷。

未来,其将进一步针对核心算法算子进行硬件化、电路化设计,实现性能的数量级提升,从而有效应对未来Token规模持续增长所带来的巨大计算需求,为智能体时代的高效落地提供可持续、可扩展的基础设施保障。

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
张凌赫新剧热恋孙千,他凭2大理由,火速挤走原定男主敖瑞鹏

张凌赫新剧热恋孙千,他凭2大理由,火速挤走原定男主敖瑞鹏

陈意小可爱
2026-03-26 14:09:51
卷来卷去,工资重回3000元时代!为什么这次大家不再抱怨了?

卷来卷去,工资重回3000元时代!为什么这次大家不再抱怨了?

另子维爱读史
2026-01-26 20:08:00
“贞洁是女孩最高贵的嫁妆”,公交广告别变公害广告|新京报快评

“贞洁是女孩最高贵的嫁妆”,公交广告别变公害广告|新京报快评

新京报
2026-03-25 13:18:07
跌宕起伏,火箭加时13-0一度占优,森林狼15-0逆转创历史纪录

跌宕起伏,火箭加时13-0一度占优,森林狼15-0逆转创历史纪录

懂球帝
2026-03-26 13:21:12
杨鸣谈广东现状:外援持球过多,让球队丢失了拿手的进攻组织

杨鸣谈广东现状:外援持球过多,让球队丢失了拿手的进攻组织

懂球帝
2026-03-26 12:27:11
为何美国敢打伊朗,却不敢打朝鲜?因为朝鲜成功学到了中国精髓

为何美国敢打伊朗,却不敢打朝鲜?因为朝鲜成功学到了中国精髓

鉴史录
2026-03-25 18:19:06
提醒:这“5种”东西千万别从网上买,全是套路,再便宜也不行

提醒:这“5种”东西千万别从网上买,全是套路,再便宜也不行

美食格物
2026-03-14 01:05:06
马筱梅晒儿子满月宴!六菜一汤连家宴都不算,婆婆没表示也不重视

马筱梅晒儿子满月宴!六菜一汤连家宴都不算,婆婆没表示也不重视

手工制作阿歼
2026-03-26 14:04:28
192国收到通知,中国支持巴勒斯坦独立,以色列面临审判

192国收到通知,中国支持巴勒斯坦独立,以色列面临审判

菲儿爱蛋糕
2026-03-26 13:09:00
越扒越有!张雪峰去世早有预兆,他的2个不良爱好,或成催命符

越扒越有!张雪峰去世早有预兆,他的2个不良爱好,或成催命符

潮鹿逐梦
2026-03-26 11:34:46
东契奇:六连客最满意的是从不放弃,布朗尼相比去年进步很大

东契奇:六连客最满意的是从不放弃,布朗尼相比去年进步很大

懂球帝
2026-03-26 11:13:10
雷迪克谈父子同台:对布朗尼很有信心 他在聚光灯外默默进步

雷迪克谈父子同台:对布朗尼很有信心 他在聚光灯外默默进步

北青网-北京青年报
2026-03-26 13:55:05
1982年血色使馆:中国外交官唐健生为了生存杀光了所有同事

1982年血色使馆:中国外交官唐健生为了生存杀光了所有同事

阿校谈史
2026-03-20 11:03:27
赖清德“返核”让绿营崩溃?谢寒冰酸:苗博雅、黄捷精神错乱了

赖清德“返核”让绿营崩溃?谢寒冰酸:苗博雅、黄捷精神错乱了

海峡导报社
2026-03-25 08:17:03
马云预言应验了?未来5年,把存款换成4个资产,或将衣食无忧?

马云预言应验了?未来5年,把存款换成4个资产,或将衣食无忧?

璀璨幻行者
2026-01-31 18:59:25
原来她是张雪峰妻子,高校副教授历史博士,相差7岁认识40天闪婚

原来她是张雪峰妻子,高校副教授历史博士,相差7岁认识40天闪婚

奇思妙想草叶君
2026-03-26 14:01:49
1965年,毛主席点名让彭德怀复出,背后有人拼命阻挠,这人后来判了18年

1965年,毛主席点名让彭德怀复出,背后有人拼命阻挠,这人后来判了18年

史海孤雁
2026-03-25 18:31:11
玄学提醒:如果一个人还在穿着10年前的衣服,只说明3个问题

玄学提醒:如果一个人还在穿着10年前的衣服,只说明3个问题

洞读君
2026-03-04 14:30:12
毛新宇参观祖宅时突然发现家谱记载:原来毛主席是毛太华第20代孙

毛新宇参观祖宅时突然发现家谱记载:原来毛主席是毛太华第20代孙

老杉说历史
2026-03-14 20:54:20
你永远不知道勤快起来能闯多大祸!网友:想好怎么挨揍了吗

你永远不知道勤快起来能闯多大祸!网友:想好怎么挨揍了吗

另子维爱读史
2026-03-25 21:27:45
2026-03-26 14:47:00
量子位 incentive-icons
量子位
追踪人工智能动态
12346文章数 176424关注度
往期回顾 全部

科技要闻

Meta高管狂分百亿期权,700名员工却下岗

头条要闻

担心特朗普突然停战 以总理下令48小时尽力摧毁伊设施

头条要闻

担心特朗普突然停战 以总理下令48小时尽力摧毁伊设施

体育要闻

35岁替补门将,凭什么入选英格兰队?

娱乐要闻

张雪峰家人首发声 不设追思会丧事从简

财经要闻

黄仁勋:芯片公司的时代已经结束了

汽车要闻

一汽奥迪A6L e-tron开启预售 CLTC最大续航815km

态度原创

艺术
家居
房产
亲子
健康

艺术要闻

哪一座桥不是风景?

家居要闻

傍海而居 静观蝴蝶海

房产要闻

质价比标杆!三亚首创浮岛全景舱亮相,还得是万科!

亲子要闻

躺平的孩子意外觉醒了,在父母学会当“乌龟”!

转头就晕的耳石症,能开车上班吗?

无障碍浏览 进入关怀版