网易首页 > 网易号 > 正文 申请入驻

详解:本土AI超节点元脑SD200如何率先实现token生成速度8.9ms

0
分享至

北京2025年11月10日/美通社/ -- 近日,在2025人工智能计算大会上,浪潮信息公布,基于元脑SD200超节点AI服务器,DeepSeek R1大模型token生成速度仅需8.9毫秒,创造国内大模型最快token生成速度。


元脑SD200创新设计满足低延迟推理需求

智能体时代的标志性特征是多模型协同与实时决策,每个智能体具备感知-决策-执行的闭环能力,涉及复杂的、多步骤的工作流,需要任务分解、自主决策以及持续的规划和执行。在智能体推理的过程中,即使是单个推理步骤中的延迟也会在多步骤任务中被指数级放大,导致用户体验迟滞。因此,token生成速度正成为影响用户评价的一个关键指标。

元脑SD200超节点AI服务器基于高带宽、低延时、原生内存语义的开放总线协议,通过构建高性能交换单元打造3D Mesh高性能互连超扩展系统,支持64张本土AI芯片高密度算力扩展,能够很好地满足DeepSeek等大模型的低延迟推理需求,加快token生成速度。


  • 精简互连协议:采用事务层-数据链路层-物理层三层精简互连协议,事务层天然支持Load/Store内存语义;数据链路层支持基于信用的流控机制和链路级错误重传保障;物理层建立10-12低误码率的高可靠物理通道,报文有效数据利用率达成96%以上。
  • 全局统一编址:为解决跨主机域通信难题,设计独立于主机域的交换域全局地址空间,将多个独立主机域下的GPU在交换域进行统一的显存编址,为GPU互访提供基础保障。
  • 全局地址映射与数据路由:创新研发影子设备技术,通过影子设备将远端GPU映射到本地主机域,实现所有独立主机对全局GPU的显存访问,通过端口高效转发技术实现跨主机P2P访问。


定制通信算法深度适配元脑SD200

除了硬件方面的创新,浪潮信息AI团队也针对DeepSeek、Kimi等模型的计算特征和元脑SD200的硬件架构特征,完成了通信库、计算框架层面等多方面的优化,充分发挥了元脑SD200的计算性能,最终实现了低延迟推理。同时,也支持预填充-解码 (Prefill-Decode) 分离推理,在满足客户业务场景SLO需求的基础上提供更高性能。

通信库层面,针对Allreduce、Allgather、Alltoall等典型通信算子,浪潮信息制定了与元脑SD200深度适配的通信算法。例如,对于Allreduce,为了充分发挥元脑SD200的低延迟优势,专为Allreduce设计了分层算法策略:针对小数据量,采用全量收集,本地规约的低延迟定制One-Shot算法,旨在最小化GPU间的同步与通信开销;针对大数据量,采用高吞吐的定制化环形算法,以彻底解决带宽瓶颈并实现最优带宽利用率。而对于模型应用中最常见的中等数据量,则采用兼顾延迟与带宽的定制Two-Shot算法。浪潮信息更结合芯片缓存特性对此核心场景进行了深度优化:对中小数据量启用无缓存方案以追求极致延迟;对中大数据量则启用缓存方案,从而最大化吞吐效率。

实测数据表明,在64 GPU集群上进行DeepSeek R1 671B模型的BF16推理时,针对Batch Size为1的decode阶段(其Allreduce数据量约为14 KB),优化后的算法将通信时延降低了5.8倍。此外,在16 KB至16 MB这一核心数据量区间内,定制优化算法的通信时延相较于未优化前的实现降低了1.6至5.8倍;与传统scale-out系统相比,时延降低幅度则进一步扩大至4.5至12.7倍。

全方位框架优化保障计算低延迟

框架层面,浪潮信息AI团队完成了并行方式、算子融合、多流水线等多方面优化,来保证计算的低延迟。

首先,在并行方式上,选择了整网的张量并行。在此并行模式下,通过模型均匀切分实现了设备间计算负载的完全均衡、各个计算板卡之间计算的完全并行和同步,消除了流水线气泡与负载不均衡问题。同时,元脑SD200的高带宽、低延迟确保了AllReduce、AllGather等通信算子性能的大幅提升,使得通信时间大幅下降,从而实现了超低延迟的推理性能。

其次,在算子上,实现了极致的算子融合等优化。GPU的计算速度远远超过了内存带宽的访问速度,从内存中读写数据的时间成本,大部分时候比实际进行计算的时间成本还要高。算子融合可以通过减少不必要的内存读写和计算开销,来显著提升推理速度、降低延迟并减少内存占用,所以基于SGlang框架的已有实现,进行了多个算子的融合。

  • 对MLA模块中attn_mla计算前的算子进行融合,该融合算子以Query和Key向量进行RMSnorm计算后的输出为输入,以attn_mla计算的输入q_input、k_input、v_input等为输出,包含bmm计算、rotary_emb计算以及向量拆分转置等计算;
  • RMSNorm和add计算融合;
  • 实现int8精度的量化和RMSNorm、silu等激活函数的融合;
  • 将路由专家分组选择中多个算子的融合为一个算子。

最后,也进行了多stream的优化。多个算子计算时,默认在单stream模式下,所有操作都排成一条队,一个接一个地执行。当算子本身的计算量不是很大时,会导致GPU的部分硬件单元在计算时处于空闲状态,也就浪费了计算资源。多stream优化就是为了让这些硬件单元"同时忙起来",对于相互之间没有依赖关系的操作,可以放到不同的stream中并行执行,提高硬件的利用效率,同时减小整体的计算时间。在多stream并行优化方面,浪潮信息实现了MLA层的多个layernorm计算的并行,并实现了MoE阶段和共享专家计算和路由专家分组选择的并行等,实现了约10%的性能提升。

预填充-解码分离软件提高整体计算性能

此外,浪潮信息开发了预填充-解码 (Prefill-Decode) 分离软件,针对预填充与解码不同的计算特性,使用不同的并行计算策略、硬件配置等,提高系统整体的计算性能。同时在业务部署中,支持节点服务的动态扩展;支持利用负载均衡和键值缓存(KV cache)命中率进行任务分配,把任务下发到键值缓存匹配度相对较高、任务负载相对较小的节点,减少重复计算,同时最大化计算资源利用率。另外,PD分离软件还实现了键值缓存offload技术,可把键值缓存到CPU端内存与分布式存储系统上,增大缓存空间。


元脑SD200超节点AI服务器通过高带宽和超低延迟通信、超大显存池、智能路由优化、PD分离推理等创新技术,大幅提升了DeepSeek、Kimi等大模型的推理输出速度。元脑SD200搭载64张本土AI芯片运行DeepSeek R1大模型,当输入长度为4096、输出长度为1024时,单用户token生成达到112 tokens/s,每token生成时间仅为8.9ms,率先实现国内AI服务器token生成速度低于10ms,将推动万亿参数大模型在金融、科研、智能制造等领域快速落地。

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
中央纪委国家监委网站:3人被查,3人被处分

中央纪委国家监委网站:3人被查,3人被处分

鲁中晨报
2025-11-17 23:10:03
这一次,绝不允许日本投降!

这一次,绝不允许日本投降!

华人星光
2025-11-18 11:27:21
解决Siri这座“屎山”,是苹果新掌门的头号任务

解决Siri这座“屎山”,是苹果新掌门的头号任务

字母榜
2025-11-17 16:09:01
瑞幸董事长黎辉:一天喝六七杯咖啡以上,未参与星巴克中国股权竞购

瑞幸董事长黎辉:一天喝六七杯咖啡以上,未参与星巴克中国股权竞购

界面新闻
2025-11-18 15:07:04
深圳一18楼高层惊现黑白蛇!男子情急泼开水......

深圳一18楼高层惊现黑白蛇!男子情急泼开水......

深圳晚报
2025-11-18 14:44:54
这些电器“再降价也不要买”,已逐渐淡出中国家庭,建议及时止损

这些电器“再降价也不要买”,已逐渐淡出中国家庭,建议及时止损

装修秀
2025-10-18 11:30:03
1958年蒋介石最后一次见张学良,说道:西安的事对国家损失太大了

1958年蒋介石最后一次见张学良,说道:西安的事对国家损失太大了

浩渺青史
2025-11-17 16:56:03
王曼昱父亲王德福:曾为女儿辞职,如今王曼昱给父亲北京买房

王曼昱父亲王德福:曾为女儿辞职,如今王曼昱给父亲北京买房

阿废冷眼观察所
2025-11-18 14:25:24
不要兴奋,打不起来

不要兴奋,打不起来

难得君
2025-11-17 09:10:27
李春平死了

李春平死了

霹雳炮
2025-11-05 22:34:23
请神容易送神难!有一说一,现役NBA最无交易市场的5大巨星如下

请神容易送神难!有一说一,现役NBA最无交易市场的5大巨星如下

毒舌NBA
2025-11-12 14:45:50
中日破裂,这是53年来对日最强硬的外交表态!

中日破裂,这是53年来对日最强硬的外交表态!

见闻致
2025-11-15 21:21:56
34+32!神级大交易!谢谢你,杜兰特!

34+32!神级大交易!谢谢你,杜兰特!

篮球实战宝典
2025-11-18 15:26:21
泰王访华实属无奈?开口就是三大需求,中国不会轻易松口

泰王访华实属无奈?开口就是三大需求,中国不会轻易松口

古事寻踪记
2025-11-17 07:28:16
中国003型航母都要量产了,为啥东海舰队还是没分到航母?

中国003型航母都要量产了,为啥东海舰队还是没分到航母?

军武次位面
2025-11-18 17:03:53
高市早苗一手炮制日本外交天崩开局:同时得罪四国,制造罕见被动局面

高市早苗一手炮制日本外交天崩开局:同时得罪四国,制造罕见被动局面

上观新闻
2025-11-18 00:28:13
A股:刚刚,财政部发布,释放一个明确信号,周二将迎来新的变化

A股:刚刚,财政部发布,释放一个明确信号,周二将迎来新的变化

云鹏叙事
2025-11-18 00:00:03
小米集团第三季度营收1,131.2亿元人民币,同比增长22.3%

小米集团第三季度营收1,131.2亿元人民币,同比增长22.3%

每日经济新闻
2025-11-18 17:36:04
高市早苗做最坏打算,可她没想到:解放军没出手,最强帮手就来了

高市早苗做最坏打算,可她没想到:解放军没出手,最强帮手就来了

靓仔情感
2025-11-15 12:22:11
狗主人的三层小洋楼遭曝光:特别气派不像差钱的人,确实无法调解

狗主人的三层小洋楼遭曝光:特别气派不像差钱的人,确实无法调解

汉史趣闻
2025-11-17 20:16:23
2025-11-18 20:39:00
美通社PRNewswire incentive-icons
美通社PRNewswire
全球最大的商业新闻通讯社
59511文章数 12197关注度
往期回顾 全部

科技要闻

小米:汽车及AI等业务首次单季度经营盈利

头条要闻

学者:高市涉台言论给李在明提了醒 韩方举措意在摸底

头条要闻

学者:高市涉台言论给李在明提了醒 韩方举措意在摸底

体育要闻

结束最后一次对决,陈梦和朱雨玲笑着相拥

娱乐要闻

宋佳夺影后动了谁的奶酪

财经要闻

中美机器人爆发了一场论战

汽车要闻

搭载1.5T增程动力 吉利银河V900官图发布

态度原创

教育
旅游
健康
数码
公开课

教育要闻

替孩子感谢大家的生日祝福

旅游要闻

高原银发旅行热 西藏不再是远方

警惕超声报告这六大"坑"

数码要闻

ICY DOCK艾西达克推出4盘位PCIe 5.0 U.2/U.3固态硬盘抽取盒

公开课

李玫瑾:为什么性格比能力更重要?

无障碍浏览 进入关怀版