网易首页

注册免费邮箱

网易首页 > 网易号 > 正文申请入驻

8.9ms推理速度新纪录！1元百万token，浪潮信息加速智能体产业化

2025-09-29 13:55:55　来源: 量子位

北京举报

0

分享至

克雷西 henry 发自凹非寺
量子位 | 公众号 QbitAI

一百万Token的输出推理成本，只要一块钱了。

今年的人工智能计算大会上，浪潮信息发布了超扩展AI服务器元脑HC1000，把AI推理成本狠狠地打了下来。

与此同时，浪潮信息还推出另一杀手锏——元脑SD200超节点，也将DeepSeek-R1的Token生成时间打到了毫秒量级。

浪潮信息首席AI战略官刘军

随着AI竞赛进入智能体产业化阶段，能力、速度和成本成为了决胜的核心三要素。

浪潮信息打出的这套组合拳，针对的就是其中涉及到AI Infra的两项关键指标——速度与成本。

元脑SD200和元脑HC1000，将为多智能体协同与复杂任务推理的规模化落地，提供高速度、低成本的算力基础设施。

DeepSeek-R1推理进入10ms时代

首先来看元脑SD200超节点AI服务器。

它可以在单机内同时运行DeepSeek-R1、Kimi K2等四大国产开源模型，支持超万亿参数大模型推理以及多智能体实时协作，还支持同时运行64个AlphaFold3蛋白质预测模型。

特别是在速度上，元脑SD200率先将大模型端到端推理延迟控制在了10ms以内。

实测中，元脑SD200在运行DeepSeek-R1时，TPOT（每Token输出时间）仅有8.9ms，领先了前SOTA（15ms）近一倍，还使DeepSeek-R1 671B的推理性能实现了最高16.3倍的超线性扩展率

并且元脑SD200并没有因为速度而牺牲系统的稳定性与可靠性，而是分别在系统硬件层、基础软件层和业务软件层等层面进行针对性设计和优化，保证整机运行高可靠设计，真正做到了“快而不乱”。

为什么元脑SD200如此强调“速度”？

因为速度已经成为智能体时代AI竞争的关键变量。

随着AI进入智能体时代，交互方式发生了巨大改变，过去大模型只需进行人机对话，但现在还需要智能体与智能体之间的交流，对模型的生成速度更加敏感。

特别是在实际应用场景中，智能体与智能体之间的交互轮次更多，延迟会随这一过程不断累积，导致整个系统运行速度无法被用户接受，在竞争中将成为致命缺陷。

除了用户的直观感受，造成商业场景对速度要求苛刻的原因还有许多。

比如在金融交易当中，对响应时效的要求极为苛刻，反欺诈算法需要在10毫秒的时间里识别风险交易，否则后果不堪设想。

因此，Token生成速度不仅影响用户体验，更直接关乎商业产出的稳定性与可靠性。

那么，制约Token生成速度提升的因素，又是什么呢？

问题主要出在了通信环节。

当参数规模快速突破万亿级别，模型必须拆分到几十甚至上百张卡上时，原本在单机内部的高速通信变成了跨机的网络传输，通信就成为了更严峻的挑战。

特别是在处理推理过程中大量的小数据包时，延迟问题变得极为突出，而且每一次跨机通信都可能带来额外延迟，当多个万亿级模型需要实时协作时，传统架构已经完全无法应对。

针对这些问题，元脑SD200先是在架构层面进行了革新。

具体来说，元脑SD200采用了创新的多主机3D Mesh系统架构，由自研的Open Fabric Switch贯通，将多个主机的GPU资源整合成一个统一的计算域，并且当中能够实现跨主机域全局统一编址。

这一架构让显存统一地址空间扩增8倍，可实现单机64路的Scale up纵向扩展，最大可以提供4TB显存和64TB内存，构建超大的KV缓存分级存储空间。

并且通过Smart Fabric Manager，元脑SD200实现了超节点64卡全局最优路由的自主创建，保障AI芯片间通信路径最短，进一步缩短基础通信延迟。

除了架构，在互联协议方面，为了实现极低的Latency通信，元脑SD200采用了极简的三层协议栈，无需网络/传输层，仅凭物理层、数据链路层和事务层三层即可实现GPU直接访问远端节点的显存或主存。

这种模式无需“发送-接收”式的消息语义拷贝，将基础通信的延迟打到了百纳秒级。

同时，为了实现稳定可靠通信，元脑SD200原生支持由硬件逻辑实现的链路层重传，可将重传延迟降低至微秒级；通过采用分布式、预防式流控机制，从根本上避免拥塞和丢包。

此外，元脑SD200还通过采用通信库优化、并行推理框架、PD分离策略及动态负载均衡等创新技术，充分发挥超节点的性能优势。

最终DeepSeek-R1 671B推理，从16卡扩展到64卡，实现了16.3倍超线性的扩展率。

百万Token推理只要一块钱

除了元脑SD200，浪潮信息还带来了超扩展AI服务器元脑HC1000

元脑HC1000不仅支持极大推理吞吐量，还能让单卡成本降低60%、均摊系统成本降低50%，将每百万Token输出成本降低至1元。

如果说速度是智能体应用的生命线，那么成本则决定了度过生存关的应用能否实现盈利。

在智能体时代，Token消耗量正在暴增，以辅助编程为例，每月消耗的Token数比一年前增长了50倍。

如果从经济角度考虑，企业每部署一个智能体，平均每个月消耗的Token成本将达到5000美元。

并且随着任务复杂度、使用频率等指标不断攀升，据浪潮信息预计，未来5年智能体应用带来的Token消耗将呈现出指数级增长。

Token数量只增不减，如果不把单个Token成本打下来，那么在高强度交互的智能体环境中，Token成本必定成为规模化部署的瓶颈。

那么，Token推理成本又为什么居高不下呢？

推理阶段算效（MFU）低是主要原因。

具体来说，在训练时，模型的FLOPs的利用率可能达到50%，但在推理阶段，这个数值可能低出一个数量级。

进一步的原因是推理的每个阶段的运算特点均不相同，与算力不能实现有效匹配。

元脑HC1000瞄准的出发点正在于此——

既然每个阶段有不同的运算特点，那就将推理的计算流程拆解，对模型结构进行解耦。

元脑HC1000不仅将推理过程的Prefill和Decode阶段分离，还将Decode阶段进一步分解成了注意力运算和FNN，从而提高资源利用效率。

解耦之后的另一个好处是，对于芯片的指标要求不再是“五边形战士”，可以针对性地做进一步成本削减，节约成本的同时还能降低功耗。

在硬件层面，元脑HC1000创新16卡计算模组设计、单卡“计算-显存-互连”均衡设计，大幅降低单卡成本和每卡系统分摊成本。同时，全对称的系统拓扑设计支持超大规模无损扩展。

据测算，元脑HC1000的推理性能相比传统RoCE提升1.75倍，单卡模型算力利用率最高提升5.7倍。

另外，元脑HC1000还采用全对称DirectCom极速架构，能够以超低延迟直达通信，保障计算、通信实现1：1均衡分配。

面向未来的AI创新计算架构

面向智能体AI时代，浪潮信息通过元脑SD200与元脑HC1000两大杀手锏，破解了智能体规模化落地中的速度与成本两大关键难题。

一方面，在智能体商业化过程中，Agent应用往往遵循“快杀慢”的规律——

面对海量选择，用户更倾向于选择输出速度更快、交付效率更高的工具；

另一方面，随着应用规模扩大、交互频次提升，行业关注的重点也从单纯算力转向总体拥有成本，尤其是直接影响商业可行性的单Token成本。

基于此，浪潮信息面向未来智能体的商业化场景，在速度与成本上率先突围，把“百万Token上下文”从高成本的技术演示，转化为可规模化运营的现实能力。

然而，AI算力的可持续发展依然面临三大挑战——系统规模接近工程极限电力基础设施压力巨大，以及算力投入与产出不平衡

在此背后，是GPGPU主导的通用计算架构的局限性正在逐渐显现。

因此，有必要转变思维，思考新的路径，从规模导向转为效率导向，重新规划和设计AI计算架构，发展AI专用计算系统。

浪潮信息首席AI战略官刘军指出：

通用架构效率低，但适应性强，易于产业化推广；专用架构效率高，但应用面窄，不利于普及推广。计算产业发展的历程，就是一个专用与通用对立统一、交替发展的过程。

这意味着，以GPGPU等主导的通用AI计算架构正在面临多重挑战，正在向细分化、专业化的应用阶段加速转型。

顺应这一趋势，浪潮信息通过软硬件协同设计与深度优化，面向具体应用，探索AI下半场的算力新路径。

目前，浪潮信息已经交出了元脑SD200和元脑HC1000这样的答卷。

未来，其将进一步针对核心算法算子进行硬件化、电路化设计，实现性能的数量级提升，从而有效应对未来Token规模持续增长所带来的巨大计算需求，为智能体时代的高效落地提供可持续、可扩展的基础设施保障。

特别声明：以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布，本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐

热点推荐

这个AI能自己造AI，十几分钟写完代码，一天交付可用模型

DeepTech深科技 2026-03-26 13:20:36
0 跟贴 0
谷歌新论文把内存股价干崩了！KV cache压缩6倍

量子位 2026-03-26 12:49:57
0 跟贴 0

一篇论文引发存储芯片股暴跌，Google 的「DeepSeek 时刻」来了？

爱范儿 2026-03-26 13:50:20
0 跟贴 0

谷歌新论文证明LLM可以少吃80%内存，闪迪盘中跌去50亿美元

DeepTech深科技 2026-03-26 13:26:34
0 跟贴 0
OpenAI重磅揭秘：你认为的AI幻觉，可能是模型故意出错

新智元 2026-03-25 08:36:09
50 跟贴 50

养虾省91%词元！这家AI记忆公司用1亿个多模态文件验证了！

机器之心Pro 2026-03-25 11:01:48
1 跟贴 1

MiniMax来承包你的桌面了-4

机器之心Pro 2026-01-20 20:19:42
0 跟贴 0
大模型的下半场，属于拥有云+AI全栈引擎的玩家

量子位 2026-01-30 03:29:45
0 跟贴 0

马斯克放出Optimus最新视频，称有望在今年夏季启动量产

华尔街见闻官方 2026-03-26 14:11:25
0 跟贴 0
除了AGI已来和死亡，我们为黄仁勋重磅访谈总结了50条AI最前沿判断

新智元 2026-03-25 19:38:54
15 跟贴 15
技术破题与生态立新，西门子定义工业AI新纪元

钛媒体APP 2026-03-26 14:02:09
0 跟贴 0
英伟达革了自己的命:智能体进化7天,干掉所有算子工程师、GPU专家

机器之心Pro 2026-03-26 11:35:16
0 跟贴 0
无人驾驶环卫商业化提速！宇通重工发布L4级量产新品，百亿级市场竞争升维

每日经济新闻 2026-03-26 14:00:02
0 跟贴 0
MIT研究生用NotebookLM两天学完一学期课程

量子位 2026-03-22 10:50:49
0 跟贴 0
五八智能四足机器人平台Q20A，适用于千行百业

量子位 2025-09-30 15:35:41
0 跟贴 0
荒野求生（机器狗全自主版），2025ATEC挑战真实户外无遥操

量子位 2025-12-08 19:24:34
0 跟贴 0
如何点亮小龙虾的牛马技能包?

量子位 2026-03-18 12:51:26
0 跟贴 0
陶哲轩：AI不能全用，深度思考不行

量子位 2026-03-19 01:35:49
0 跟贴 0
行业最大规模具身数据集：10Kh RealOmni-Open DataSet

量子位 2026-01-06 10:53:25
0 跟贴 0
每经专访高通全球高级副总裁钱堃：6G实现商业化应用需跨越四个挑战将重塑 AI 的发展方式

每日经济新闻 2026-03-26 12:53:06
0 跟贴 0
高通万卫星谈终端大模型优势：个性化与数据推理

量子位 2025-12-11 03:38:41
0 跟贴 0
陶哲轩：AI看似在推理，其实是在背答案

量子位 2026-01-05 09:20:21
0 跟贴 0
机器人管家Figure 03来了，承包一切家务！

量子位 2025-10-11 10:13:00
0 跟贴 0
行业最大规模具身数据集！出自简智机器人GenRobot.AI

量子位 2026-01-05 17:11:41
0 跟贴 0
人活着的唯一理由是善良

叶檀财经 2026-02-01 17:07:04
0 跟贴 0
微信聊天遭老板监视，主流杀毒软件失明

每日经济新闻 2025-12-25 19:02:17
1 跟贴 1
硅谷因AI大裁员？一线工程师戳破真相

每日经济新闻 2026-03-25 20:38:08
47 跟贴 47
Sora 2意外停摆，这个国产视频生成创业团队，直接「开源」三连击

机器之心Pro 2026-03-26 14:27:52
0 跟贴 0
在甲板上跑步，意外被健身软件暴漏了核航母位置

主持人王凯 2026-03-23 17:23:52
0 跟贴 0
内存通胀“终结者”？谷歌公开最新极限压缩算法

钛媒体APP 2026-03-26 14:33:20
0 跟贴 0
PackingStar双智能体博弈，攻克14维难题

量子位 2026-02-16 13:12:43
0 跟贴 0
男子街头挑甲鱼售卖，称干活时抓的，被路人软件识破骗局

生活不缺欢乐 2026-03-25 00:00:00
92 跟贴 92
AReaL v1.0开源，智能体强化学习「一键接入」

机器之心Pro 2026-03-05 14:46:18
0 跟贴 0
长安汽车获得发明专利授权：“一种基于对抗强化学习的汽车热管理智能控制方法”

证券之星 2026-03-26 03:48:12
3 跟贴 3
女子称找高铁乘务员投诉一名男子在列车口抽烟，被发了一个口罩，当事人：乘务员的态度很好，但自己对这种情况无语，希望高铁全面禁烟

洪观新闻 2026-03-25 14:56:54
7912 跟贴 7912
程序员面试必考的7行代码，藏着大厂筛选人才的狠招

全栈遛狗员 2026-03-26 14:29:54
0 跟贴 0
卡帕西自曝“token焦虑症”：额度剩着就难受

量子位 2026-03-25 20:15:21
0 跟贴 0
重庆铁塔：从秀山到濯水解锁低空经济新场景

金台资讯 2026-03-26 14:06:50
0 跟贴 0
“龙虾”等新型AI智能体出现哪些职业或软技能是必须具备的？

凤凰卫视 2026-03-25 15:59:19
0 跟贴 0
CVPR 2026 | BiMotion：用 B 样条曲线重新定义 3D 角色运动生成

机器之心Pro 2026-03-26 11:42:56
0 跟贴 0

张凌赫新剧热恋孙千，他凭2大理由，火速挤走原定男主敖瑞鹏

张凌赫新剧热恋孙千，他凭2大理由，火速挤走原定男主敖瑞鹏

陈意小可爱

2026-03-26 14:09:51

卷来卷去，工资重回3000元时代！为什么这次大家不再抱怨了？

卷来卷去，工资重回3000元时代！为什么这次大家不再抱怨了？

另子维爱读史

2026-01-26 20:08:00

“贞洁是女孩最高贵的嫁妆”，公交广告别变公害广告|新京报快评

“贞洁是女孩最高贵的嫁妆”，公交广告别变公害广告|新京报快评

新京报

2026-03-25 13:18:07

跌宕起伏，火箭加时13-0一度占优，森林狼15-0逆转创历史纪录

跌宕起伏，火箭加时13-0一度占优，森林狼15-0逆转创历史纪录

懂球帝

2026-03-26 13:21:12

杨鸣谈广东现状：外援持球过多，让球队丢失了拿手的进攻组织

杨鸣谈广东现状：外援持球过多，让球队丢失了拿手的进攻组织

懂球帝

2026-03-26 12:27:11

为何美国敢打伊朗，却不敢打朝鲜？因为朝鲜成功学到了中国精髓

为何美国敢打伊朗，却不敢打朝鲜？因为朝鲜成功学到了中国精髓

鉴史录

2026-03-25 18:19:06

提醒：这“5种”东西千万别从网上买，全是套路，再便宜也不行

提醒：这“5种”东西千万别从网上买，全是套路，再便宜也不行

美食格物

2026-03-14 01:05:06

马筱梅晒儿子满月宴！六菜一汤连家宴都不算，婆婆没表示也不重视

马筱梅晒儿子满月宴！六菜一汤连家宴都不算，婆婆没表示也不重视

手工制作阿歼

2026-03-26 14:04:28

192国收到通知，中国支持巴勒斯坦独立，以色列面临审判

192国收到通知，中国支持巴勒斯坦独立，以色列面临审判

菲儿爱蛋糕

2026-03-26 13:09:00

越扒越有！张雪峰去世早有预兆，他的2个不良爱好，或成催命符

越扒越有！张雪峰去世早有预兆，他的2个不良爱好，或成催命符

潮鹿逐梦

2026-03-26 11:34:46

东契奇：六连客最满意的是从不放弃，布朗尼相比去年进步很大

东契奇：六连客最满意的是从不放弃，布朗尼相比去年进步很大

懂球帝

2026-03-26 11:13:10

雷迪克谈父子同台：对布朗尼很有信心他在聚光灯外默默进步

雷迪克谈父子同台：对布朗尼很有信心他在聚光灯外默默进步

北青网-北京青年报

2026-03-26 13:55:05

1982年血色使馆：中国外交官唐健生为了生存杀光了所有同事

1982年血色使馆：中国外交官唐健生为了生存杀光了所有同事

阿校谈史

2026-03-20 11:03:27

赖清德“返核”让绿营崩溃？谢寒冰酸：苗博雅、黄捷精神错乱了

赖清德“返核”让绿营崩溃？谢寒冰酸：苗博雅、黄捷精神错乱了

海峡导报社

2026-03-25 08:17:03

马云预言应验了？未来5年，把存款换成4个资产，或将衣食无忧？

马云预言应验了？未来5年，把存款换成4个资产，或将衣食无忧？

璀璨幻行者

2026-01-31 18:59:25

原来她是张雪峰妻子，高校副教授历史博士，相差7岁认识40天闪婚

原来她是张雪峰妻子，高校副教授历史博士，相差7岁认识40天闪婚

奇思妙想草叶君

2026-03-26 14:01:49

1965年，毛主席点名让彭德怀复出，背后有人拼命阻挠，这人后来判了18年

1965年，毛主席点名让彭德怀复出，背后有人拼命阻挠，这人后来判了18年

史海孤雁

2026-03-25 18:31:11

玄学提醒：如果一个人还在穿着10年前的衣服，只说明3个问题

玄学提醒：如果一个人还在穿着10年前的衣服，只说明3个问题

洞读君

2026-03-04 14:30:12

毛新宇参观祖宅时突然发现家谱记载：原来毛主席是毛太华第20代孙

毛新宇参观祖宅时突然发现家谱记载：原来毛主席是毛太华第20代孙

老杉说历史

2026-03-14 20:54:20

你永远不知道勤快起来能闯多大祸！网友：想好怎么挨揍了吗

你永远不知道勤快起来能闯多大祸！网友：想好怎么挨揍了吗

另子维爱读史

2026-03-25 21:27:45

追踪人工智能动态

12346文章数 176424关注度

往期回顾全部

科技要闻

Meta高管狂分百亿期权，700名员工却下岗

头条要闻

担心特朗普突然停战以总理下令48小时尽力摧毁伊设施

头条要闻

担心特朗普突然停战以总理下令48小时尽力摧毁伊设施

体育要闻

35岁替补门将，凭什么入选英格兰队？

娱乐要闻

张雪峰家人首发声不设追思会丧事从简

财经要闻

黄仁勋：芯片公司的时代已经结束了

汽车要闻

一汽奥迪A6L e-tron开启预售 CLTC最大续航815km

态度原创

+arrTaiduYuanC[i].tag+' | '+arrTaiduYuanC[i].title+'
\

艺术

家居

房产

亲子

健康

艺术要闻

哪一座桥不是风景？

家居要闻

傍海而居静观蝴蝶海

房产要闻

质价比标杆！三亚首创浮岛全景舱亮相，还得是万科！

亲子要闻

躺平的孩子意外觉醒了，在父母学会当“乌龟”！

转头就晕的耳石症，能开车上班吗？

© 1997-2026 网易公司版权所有 About NetEase | 公司简介 | 联系方法 | 招聘信息 | 客户服务 | 隐私政策 | 不良信息举报 Complaint Center | 廉正举报 | 侵权投诉

无障碍浏览进入关怀版