网易首页 > 网易科技 > 网易科技 > 正文

华为云Tokens服务全面接入384超节点

0
分享至

8月28日消息,在第四届828 B2B企业节开幕式上,华为云宣布其Tokens服务全面接入CloudMatrix384超节点,通过xDeepServe架构创新,单芯片最高可实现2400TPS、50msTPOT的超高吞吐、低时延的性能。

今年3月,华为云正式推出了基于MaaS的Tokens服务。针对不同应用、不同场景的性能和时延要求,还提供了在线版、进线版、离线版乃至尊享版等多种服务规格,为大模型、Agent智能体等AI工具提供了更为灵活、便捷、低成本的先进算力。

而这一次,华为云的Tokens服务正式接入CloudMatrix384,并通过384原生的xDeepServe框架再次实现了吞吐量的突破,从年初的1920TPS提升至2400TPS,TPOT仅为50ms。

大算力的构建不是单点突破,而是一个从硬件到软件、从算子到存储、从推理框架到超节点的全栈创新,充分依托了华为的“大杂烩”能力。

首先,CloudMatrix384超节点以全新的计算架构创新,突破性能瓶颈,构筑稳固澎湃的算力根基; CANN昇腾硬件使能,优化算子与高效通信策略,让云端的算力能够以最高效的方式被调用和组合;EMS弹性内存存储打破AI内存墙,突破性地实现“以存强算”, 彻底释放了每一颗芯片的算力;xDeepServe 分布式推理框架则以极致分离架构Transfomerless让超节点释放出更高效算力。

作为CloudMatrix384超节点的原生服务,xDeepServe以Transformerless 的极致分离架构,把MoE大模型拆成可独立伸缩的 Attention、FFN、Expert三个微模块,相当于在一台CloudMatrix384上把“大模型”拆成“积木”,并分派到不同的NPU上同步处理任务。之后,再用基于内存语义的微秒级XCCL通信库与FlowServe 自研推理引擎把它们重新拼成一个超高吞吐的LLM服务平台,即Tokens的“超高速流水线”。通过xDeepServe不断调优,最终实现了从非超节点单卡吞吐600tokens/s至超节点单卡吞吐2400tokens/s的提升。

作为硬件加速计算的中间层,CANN包含多个算子库和和XCCL这种高性能通信库等组件,共同支撑AI模型的高效运行。其中,XCCL作为专为超节点上的大语言模型(LLM)服务而量身打造的高性能通信库,能够充分发挥CloudMatrix384扩展后的UB互联架构(UB fabric)的全部潜力,为 Transformerless的全面分离奠定了带宽与时延双重硬底座。

而作为被重构的“去中心”式分布式引擎,FlowServe把CloudMatrix384切成完全自治的 DP 小组,每个小组自带 Tokenizer、执行器、RTC 缓存与网络栈,完全自给自足,做到千卡并发也不“拥堵”。

目前,xDeepServe已实现MA分离,而下一步,将把Attention、MoE、Decode全部改成自由流动的数据流,并把同样的拼图方法复制到多台超节点,让推理吞吐像铺轨一样线性延伸,最终或将视线吞吐量的更大突破,让每块 NPU 都高效运作,芯片永不排队,推理永不塞车。

目前,华为云MaaS服务已支持DeepSeek、Kimi、Qwen、Pangu、SDXL、Wan等主流大模型及versatile、Dify、扣子等主流Agent平台。

在应用层,华为云已与超过100家伙伴携手深入行业场景,共建丰富的Agent,在调研分析、内容创作、智慧办公、智能运维等领域解决产业难题,让企业更便捷地拥抱AI创新,加速智能化。(崔玉贤)

本文来自网易科技报道,更多资讯和深度内容,关注我们。

延伸阅读
相关推荐
热点推荐
掌权40年,洪森家族到底赚了多少?他小女儿的奢靡曝光,可见一斑

掌权40年,洪森家族到底赚了多少?他小女儿的奢靡曝光,可见一斑

明月光
2025-12-17 19:06:45
还需适应!广东新星4中0得2分 杜锋给足了出场时间

还需适应!广东新星4中0得2分 杜锋给足了出场时间

胖子喷球
2025-12-19 21:59:35
火箭爆冷遭鹈鹕25分加时逆转 杜兰特32+7+4帽申京28+11+8

火箭爆冷遭鹈鹕25分加时逆转 杜兰特32+7+4帽申京28+11+8

醉卧浮生
2025-12-19 11:51:23
商丘市政协原副主席、市卫健委原主任张树仁主动投案接受纪律审查和监察调查

商丘市政协原副主席、市卫健委原主任张树仁主动投案接受纪律审查和监察调查

极目新闻
2025-12-19 09:39:26
火车上一个姑娘靠我肩膀睡,下车发现兜里钱包丢了,却多了她的信

火车上一个姑娘靠我肩膀睡,下车发现兜里钱包丢了,却多了她的信

温情邮局
2025-12-11 11:34:59
38岁张雨绮因纵欲过度面目全非,令人惋惜

38岁张雨绮因纵欲过度面目全非,令人惋惜

枫尘余往逝
2025-12-18 22:37:52
上树,辽宁铁人球迷博主用藏头诗暗示李提香将加盟

上树,辽宁铁人球迷博主用藏头诗暗示李提香将加盟

懂球帝
2025-12-19 16:01:08
柯文哲明年重掌台湾民众党,“蓝白合”会变成“绿白合”吗?

柯文哲明年重掌台湾民众党,“蓝白合”会变成“绿白合”吗?

总在茶余后
2025-12-20 00:15:38
放过观众吧!这5位春晚“混子”演啥啥不行,难怪会遭到观众抵制

放过观众吧!这5位春晚“混子”演啥啥不行,难怪会遭到观众抵制

银河史记
2025-12-18 16:22:03
最便宜的“蛋白质王者”,烫着吃才是顶流,软嫩鲜美,下饭也一流

最便宜的“蛋白质王者”,烫着吃才是顶流,软嫩鲜美,下饭也一流

江江食研社
2025-12-18 20:30:08
专打巨星!先打詹姆斯,再打库里,狄龙布鲁克斯成为NBA第一恶汉

专打巨星!先打詹姆斯,再打库里,狄龙布鲁克斯成为NBA第一恶汉

止境
2025-12-20 00:56:06
小学生吃早餐视频火了,116万网友点赞:这就是有父母兜底的幸福

小学生吃早餐视频火了,116万网友点赞:这就是有父母兜底的幸福

妍妍教育日记
2025-12-18 20:23:32
中方通告泰柬,第三国或卷入冲突,洪森已备B计划,柬军丢盔卸甲

中方通告泰柬,第三国或卷入冲突,洪森已备B计划,柬军丢盔卸甲

音乐时光的娱乐
2025-12-19 13:04:21
一夜之间有关大师的文章正在被全网删除,答案或许就在这里!

一夜之间有关大师的文章正在被全网删除,答案或许就在这里!

清哲木观察
2025-12-17 10:59:57
字母哥:如果我的经纪人在与雄鹿商讨去留 那是他的个人行为

字母哥:如果我的经纪人在与雄鹿商讨去留 那是他的个人行为

北青网-北京青年报
2025-12-19 13:52:01
商业航天进入井喷期!火箭、卫星、运营产业链最强6巨头名单在此

商业航天进入井喷期!火箭、卫星、运营产业链最强6巨头名单在此

小白鸽财经
2025-12-19 07:05:03
ESPN:詹姆斯、东契奇、里夫斯同时上场时,防守效率联盟垫底

ESPN:詹姆斯、东契奇、里夫斯同时上场时,防守效率联盟垫底

陈腕特色体育解说
2025-12-19 14:35:08
2026年,财神频频示好,事业运与财运同时爆发的三个星座

2026年,财神频频示好,事业运与财运同时爆发的三个星座

小晴星座说
2025-12-18 19:37:50
当年二叔考上大学要抛弃没文化的二婶,爷爷打他两巴掌:你试试看

当年二叔考上大学要抛弃没文化的二婶,爷爷打他两巴掌:你试试看

人间百态大全
2025-12-14 06:45:03
关于杨兰兰,终于破解出几条她的关键信息

关于杨兰兰,终于破解出几条她的关键信息

诗意世界
2025-12-19 12:00:03
2025-12-20 02:19:00

科技要闻

许四清:具身智能的"ChatGPT时刻"还未到来

头条要闻

普京:俄方愿在乌克兰选举期间暂时停止打击

头条要闻

普京:俄方愿在乌克兰选举期间暂时停止打击

体育要闻

“恶龙”埃托奥,正在毁灭喀麦隆足球

娱乐要闻

曲协表态仅6天,郭德纲担心的事还是发生

财经要闻

日元加息,恐慌来了?货币三国杀

汽车要闻

“一体压铸”再引热议 一旦受损真的修不起吗?

态度原创

本地
房产
手机
数码
公开课

本地新闻

云游安徽|访黄山云海古村,读一城山水风骨

房产要闻

广州有态度,一座国际化社区给出的城市答案

手机要闻

19999起,三星Galaxy Z TriFold迎来首销

数码要闻

机械大师E06卧式ITX机箱上市:支持200mm长半高显卡,298元

公开课

李玫瑾:为什么性格比能力更重要?

无障碍浏览 进入关怀版
×