网易首页 > 网易号 > 正文 申请入驻

从1920TPS到2400TPS,华为云Tokens服务全面接入384超节点

0
分享至

2025年8月27日,在第四届828 B2B企业节开幕式上,华为云宣布其Tokens服务全面接入CloudMatrix384超节点,通过xDeepServe架构创新,单芯片最高可实现2400TPS、50msTPOT的超高吞吐、低时延的性能,超过业界水平。

发挥“大杂烩”优势,以系统能力打造先进算力

过去18个月,中国AI算力需求呈现指数级增长。数据显示,2024年初中国日均Token的消耗量为1000亿,截至今年6月底,日均Token消耗量已突破30万亿,1年半的时间增长了300多倍反映了我国人工智能应用规模快速增长,也对算力基础设施的需求提出了更大的挑战。

在以往按卡时计费的基础上,今年3月,华为云正式推出了基于MaaS的Tokens服务。针对不同应用、不同场景的性能和时延要求,还提供了在线版、进线版、离线版乃至尊享版等多种服务规格,为大模型、Agent智能体等AI工具提供了更为灵活、便捷、低成本的先进算力。

而这一次,华为云的Tokens服务正式接入CloudMatrix384,并通过384原生的xDeepServe框架再次实现了吞吐量的突破,从年初的1920TPS提升至2400TPS,TPOT仅为50ms。



大算力的构建不是单点突破,而是一个从硬件到软件、从算子到存储、从推理框架到超节点的全栈创新,充分依托了华为的“大杂烩”能力。

首先,CloudMatrix384 超节点以全新的计算架构创新,突破性能瓶颈,构筑稳固澎湃的算力根基; CANN昇腾硬件使能,优化算子与高效通信策略,让云端的算力能够以最高效的方式被调用和组合;EMS弹性内存存储打破AI内存墙,突破性地实现“以存强算”, 彻底释放了每一颗芯片的算力;xDeepServe 分布式推理框架则以极致分离架构Transfomerless让超节点释放出更高效算力。

“拆掉”Transformer,xDeepServe全面激发算力潜能

作为CloudMatrix384 超节点的原生服务,xDeepServe以Transformerless 的极致分离架构,把MoE大模型拆成可独立伸缩的 Attention、FFN、Expert三个微模块,相当于在一台CloudMatrix384上把“大模型”拆成“积木”,并分派到不同的NPU上同步处理任务。之后,再用基于内存语义的微秒级XCCL通信库与FlowServe 自研推理引擎把它们重新拼成一个超高吞吐的LLM服务平台,即Tokens的“超高速流水线”。通过xDeepServe不断调优,最终实现了从非超节点单卡吞吐600tokens/s至超节点单卡吞吐2400tokens/s的提升。

作为硬件加速计算的中间层,CANN包含多个算子库和和XCCL这种高性能通信库等组件,共同支撑AI模型的高效运行。其中,XCCL作为专为超节点上的大语言模型(LLM)服务而量身打造的高性能通信库,能够充分发挥CloudMatrix384扩展后的UB互联架构(UB fabric)的全部潜力,为 Transformerless的全面分离奠定了带宽与时延双重硬底座。

而作为被重构的“去中心”式分布式引擎,FlowServe把CloudMatrix384 切成完全自治的 DP 小组,每个小组自带 Tokenizer、执行器、RTC 缓存与网络栈,完全自给自足,做到千卡并发也不“拥堵”。

目前,xDeepServe已实现MA分离,而下一步,将把Attention、MoE、Decode全部改成自由流动的数据流,并把同样的拼图方法复制到多台超节点,让推理吞吐像铺轨一样线性延伸,最终或将视线吞吐量的更大突破,让每块 NPU 都高效运作,芯片永不排队,推理永不塞车。

聚焦主流大模型,不断提升模型性能

目前,华为云MaaS服务已支持DeepSeek、Kimi、Qwen、Pangu、SDXL、Wan等主流大模型及versatile、Dify、扣子等主流Agent平台。

华为云积累了大量模型性能优化、效果调优的技术和能力,从而实现“源于开源,高于开源”,让更多大模型可以在昇腾云上跑得更快更好。以文生图大模型来说,在轻微损失画质的情况下,通过Int8量化、旋转位置编码融合算子等方式,在在华为云MaaS平台实现了2倍于业界主流平台的出图速度,最大尺寸支持2K×2K。而在文生视频大模型上,不仅通过量化方式来提速,还通过通算并行等方式,降低延迟与显存占用,大幅提升视频生成速度,相较于友商实现了3.5倍的性能提升。华为云Tokens服务在性能、模型适配、效果调优方面的基础,也让更多企业能够快速开发和构建AI Agent。

而在应用层,华为云已与超过100家伙伴携手深入行业场景,共建丰富的Agent,在调研分析、内容创作、智慧办公、智能运维等领域解决产业难题,让企业更便捷地拥抱AI创新,加速智能化。

如基于MaaS平台推出的今日人才数智员工解决方案,集成了先进的自然语言处理、机器学习和深度学习技术,能实现与用户的智能交互和任务处理,显著提升服务效率与客户满意度;而北京方寸无忧科技开发的无忧智慧公文解决方案可以提升公文处理效能,实现政企办公智能化转型。

以Token为动力的智能社会已经到来,而华为云将以系统级创新能力和全新的Tokens服务构筑先进算力,助力各行各业加速落地AI。

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
TOP14位身高170以上的女神,有颜有灯有演技

TOP14位身高170以上的女神,有颜有灯有演技

素然追光
2026-01-02 02:45:02
女护士处理男患者隐私部位,会感觉难为情吗?美女护士说出大实话

女护士处理男患者隐私部位,会感觉难为情吗?美女护士说出大实话

第7情感
2025-09-17 12:12:15
全球炮弹荒爆大瓜:不是造不出,是高端炸药被少数国家焊死了饭碗

全球炮弹荒爆大瓜:不是造不出,是高端炸药被少数国家焊死了饭碗

老谢谈史
2026-02-05 15:27:23
43岁彭于晏香港街头惊现!肌肉炸裂气场全开,岁月只给帅加buff

43岁彭于晏香港街头惊现!肌肉炸裂气场全开,岁月只给帅加buff

八星人
2026-02-06 11:08:14
“三只羊”卖了67亿!小杨哥“复活”了

“三只羊”卖了67亿!小杨哥“复活”了

TOP电商
2026-02-06 16:14:17
A股:刚刚,中央两部门发布,释放两信号,下周将迎来更大的变盘

A股:刚刚,中央两部门发布,释放两信号,下周将迎来更大的变盘

夜深爱杂谈
2026-02-06 18:06:11
苹果史上最强续航手机来了!iPhone 18 Pro Max国行首次搭载5000mAh级电池

苹果史上最强续航手机来了!iPhone 18 Pro Max国行首次搭载5000mAh级电池

快科技
2026-02-06 10:54:13
深夜,全线拉升!美股、中概股、黄金集体大涨!

深夜,全线拉升!美股、中概股、黄金集体大涨!

证券时报e公司
2026-02-06 23:03:01
北京阿姨通透,把十几年来买的金条全卖了,称:涨了不卖留着干啥

北京阿姨通透,把十几年来买的金条全卖了,称:涨了不卖留着干啥

我心纵横天地间
2026-02-01 13:18:57
现货白银涨超7% 现货黄金涨超3%

现货白银涨超7% 现货黄金涨超3%

财联社
2026-02-06 21:06:13
西贝的贾总刚被解除禁言,又给自己补上一刀,网友评论炸了

西贝的贾总刚被解除禁言,又给自己补上一刀,网友评论炸了

魔都姐姐杂谈
2026-02-05 14:07:32
敢不敢打?我军重大人事变故后菲律宾南海演习,更像是一种试探

敢不敢打?我军重大人事变故后菲律宾南海演习,更像是一种试探

悦心知足
2026-02-01 00:50:48
苏州一公司办演唱会当作年会,撒贝宁主持,李克勤张信哲毛不易等献唱;年终奖给每名员工发黄金,10人获奖南极游

苏州一公司办演唱会当作年会,撒贝宁主持,李克勤张信哲毛不易等献唱;年终奖给每名员工发黄金,10人获奖南极游

极目新闻
2026-02-04 17:27:18
唏嘘?前英超冠军被罚扣6分!或2年连降两级 近4轮0胜+逼近降级区

唏嘘?前英超冠军被罚扣6分!或2年连降两级 近4轮0胜+逼近降级区

我爱英超
2026-02-06 11:19:01
“浙江制造”又火了!美国民众连夜排队抢购,网友:真有这么香?

“浙江制造”又火了!美国民众连夜排队抢购,网友:真有这么香?

青烟小先生
2026-02-06 19:26:01
贝克汉姆父子正式断绝!大布清除掉Dad纹身,用3个新图案覆盖

贝克汉姆父子正式断绝!大布清除掉Dad纹身,用3个新图案覆盖

素素娱乐
2026-02-06 10:29:31
美媒分析哈登去骑士:90%因为金钱!10%才是追求总冠军因素

美媒分析哈登去骑士:90%因为金钱!10%才是追求总冠军因素

Emily说个球
2026-02-06 15:24:55
研究了几万颗恒星后,科学家发现:太阳似乎被“精心设计”过

研究了几万颗恒星后,科学家发现:太阳似乎被“精心设计”过

观察宇宙
2026-02-05 21:28:21
比存储还缺!变压器订单排到2027年   7家出海龙头全球份额超30%

比存储还缺!变压器订单排到2027年 7家出海龙头全球份额超30%

元芳说投资
2026-02-06 06:00:22
33岁娜扎微博之夜:衣着暴露大长腿抢镜,没程潇妩媚,气质差距大

33岁娜扎微博之夜:衣着暴露大长腿抢镜,没程潇妩媚,气质差距大

翰飞观事
2026-02-06 16:39:53
2026-02-07 00:56:49
智谷趋势 incentive-icons
智谷趋势
十大最具影响力财经微信公众号
2839文章数 67943关注度
往期回顾 全部

科技要闻

独角兽版图巨变:SpaceX奔万亿 中美差在哪

头条要闻

电动车行业"老三"冲刺上市 分股东2亿克扣员工社保3亿

头条要闻

电动车行业"老三"冲刺上市 分股东2亿克扣员工社保3亿

体育要闻

西甲射手榜第2,身价不到姆巴佩1/40

娱乐要闻

微博之夜抢C风波 杨幂工作室9字讨说法

财经要闻

爱尔眼科董事长旗下7家精神病院骗保

汽车要闻

宝马"本命年"关键词:20款新车与"新世代"耐力赛

态度原创

艺术
亲子
旅游
健康
教育

艺术要闻

这颜色太美,不看太可惜!

亲子要闻

当孩子有了自己的审美眼光,理解了家长为什么会帮孩子买丑衣服!

旅游要闻

琅琊古城·“文旅迎春 马跃新程”2026河东文旅新春联欢晚会举行

转头就晕的耳石症,能开车上班吗?

教育要闻

高考地理中的蒸散量

无障碍浏览 进入关怀版