网易首页 > 网易号 > 正文 申请入驻

单芯片最高2400TPS,华为云Tokens服务全面接入384超节点

0
分享至

8月27日,在第四届828 B2B企业节开幕式上,华为云宣布其Tokens服务全面接入CloudMatrix384超节点,通过xDeepServe架构创新,单芯片最高可实现2400TPS、50msTPOT的超高吞吐、低时延的性能,超过业界水平。

以系统能力打造先进算力

过去18个月,中国AI算力需求呈现指数级增长。数据显示,2024年初中国日均Token的消耗量为1000亿,截至今年6月底,日均Token消耗量已突破30万亿,1年半的时间增长了300多倍,反映了我国人工智能应用规模快速增长,也对算力基础设施的需求提出了更大的挑战。

在以往按卡时计费的基础上,今年3月,华为云正式推出了基于MaaS的Tokens服务。针对不同应用、不同场景的性能和时延要求,还提供了在线版、进线版、离线版乃至尊享版等多种服务规格,为大模型、Agent智能体等AI工具提供了更为灵活、便捷、低成本的先进算力。

而这一次,华为云的Tokens服务正式接入CloudMatrix384,并通过384原生的xDeepServe框架再次实现了吞吐量的突破,从年初的1920TPS提升至2400TPS,TPOT仅为50ms。


大算力的构建不是单点突破,而是一个从硬件到软件、从算子到存储、从推理框架到超节点的全栈创新,充分依托了华为的“大杂烩”能力。

首先,CloudMatrix384 超节点以全新的计算架构创新,突破性能瓶颈,构筑稳固澎湃的算力根基; CANN昇腾硬件使能,优化算子与高效通信策略,让云端的算力能够以最高效的方式被调用和组合;EMS弹性内存存储打破AI内存墙,突破性地实现“以存强算”, 彻底释放了每一颗芯片的算力;xDeepServe 分布式推理框架则以极致分离架构Transfomerless让超节点释放出更高效算力。

“拆掉”Transformer,xDeepServe全面激发算力潜能

作为CloudMatrix384 超节点的原生服务,xDeepServe以Transformerless 的极致分离架构,把MoE大模型拆成可独立伸缩的 Attention、FFN、Expert三个微模块,相当于在一台CloudMatrix384上把“大模型”拆成“积木”,并分派到不同的NPU上同步处理任务。之后,再用基于内存语义的微秒级XCCL通信库与FlowServe 自研推理引擎把它们重新拼成一个超高吞吐的LLM服务平台,即Tokens的“超高速流水线”。通过xDeepServe不断调优,最终实现了从非超节点单卡吞吐600tokens/s至超节点单卡吞吐2400tokens/s的提升。

作为硬件加速计算的中间层,CANN包含多个算子库和和XCCL这种高性能通信库等组件,共同支撑AI模型的高效运行。其中,XCCL作为专为超节点上的大语言模型(LLM)服务而量身打造的高性能通信库,能够充分发挥CloudMatrix384扩展后的UB互联架构(UB fabric)的全部潜力,为 Transformerless的全面分离奠定了带宽与时延双重硬底座。

而作为被重构的“去中心”式分布式引擎,FlowServe把CloudMatrix384 切成完全自治的DP小组,每个小组自带 Tokenizer、执行器、RTC 缓存与网络栈,完全自给自足,做到千卡并发也不“拥堵”。

目前,xDeepServe已实现MA分离,而下一步,将把Attention、MoE、Decode全部改成自由流动的数据流,并把同样的拼图方法复制到多台超节点,让推理吞吐像铺轨一样线性延伸,最终或将视线吞吐量的更大突破,让每块 NPU 都高效运作,芯片永不排队,推理永不塞车。

聚焦主流大模型,不断提升模型性能

目前,华为云MaaS服务已支持DeepSeek、Kimi、Qwen、Pangu、SDXL、Wan等主流大模型及versatile、Dify、扣子等主流Agent平台。

华为云积累了大量模型性能优化、效果调优的技术和能力,从而实现“源于开源,高于开源”,让更多大模型可以在昇腾云上跑得更快更好。以文生图大模型来说,在轻微损失画质的情况下,通过Int8量化、旋转位置编码融合算子等方式,在在华为云MaaS平台实现了2倍于业界主流平台的出图速度,最大尺寸支持2K×2K。而在文生视频大模型上,不仅通过量化方式来提速,还通过通算并行等方式,降低延迟与显存占用,大幅提升视频生成速度,相较于友商实现了3.5倍的性能提升。华为云Tokens服务在性能、模型适配、效果调优方面的基础,也让更多企业能够快速开发和构建AI Agent。

而在应用层,华为云已与超过100家伙伴携手深入行业场景,共建丰富的Agent,在调研分析、内容创作、智慧办公、智能运维等领域解决产业难题,让企业更便捷地拥抱AI创新,加速智能化。

如基于MaaS平台推出的今日人才数智员工解决方案,集成了先进的自然语言处理、机器学习和深度学习技术,能实现与用户的智能交互和任务处理,显著提升服务效率与客户满意度;而北京方寸无忧科技开发的无忧智慧公文解决方案可以提升公文处理效能,实现政企办公智能化转型。

以Token为动力的智能社会已经到来,而华为云将以系统级创新能力和全新的Tokens服务构筑先进算力,助力各行各业加速落地AI。

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
2-1到0-1!中国队先赢后输,亚足联给出数据对比,日本夺冠稳了?

2-1到0-1!中国队先赢后输,亚足联给出数据对比,日本夺冠稳了?

侃球熊弟
2026-01-24 00:25:03
周扒皮看了都要流泪,山西环卫工戴着定位器在冰天雪地里扫大街

周扒皮看了都要流泪,山西环卫工戴着定位器在冰天雪地里扫大街

巴城的城
2026-01-23 18:52:17
浙江省委常委王文序当选杭州市政协主席

浙江省委常委王文序当选杭州市政协主席

澎湃新闻
2026-01-23 19:07:06
央媒对李亚鹏的称呼变了,两字之差释放强烈信号,向华强全说对了

央媒对李亚鹏的称呼变了,两字之差释放强烈信号,向华强全说对了

阿纂看事
2026-01-23 19:25:11
韩媒:韩国足球在U23亚洲杯遭遇史诗性失利,苦吞首次不敌越南的屈辱

韩媒:韩国足球在U23亚洲杯遭遇史诗性失利,苦吞首次不敌越南的屈辱

懂球帝
2026-01-24 02:50:13
俄军每月伤亡3.5万?要提到5万!俄罗斯首次“承认”巡洋舰被击沉

俄军每月伤亡3.5万?要提到5万!俄罗斯首次“承认”巡洋舰被击沉

鹰眼Defence
2026-01-23 17:43:27
3-2逆转进四强!国乒20岁新星崛起:林诗栋出局,他冲击两连冠?

3-2逆转进四强!国乒20岁新星崛起:林诗栋出局,他冲击两连冠?

李喜林篮球绝杀
2026-01-23 18:18:07
郭永航辞去广东省人大代表职务,此前已卸任省委常委

郭永航辞去广东省人大代表职务,此前已卸任省委常委

澎湃新闻
2026-01-23 21:17:05
今年,可能是史上最冷清的春节。

今年,可能是史上最冷清的春节。

诗词中国
2026-01-23 19:24:10
基金圈爆大瓜!美女分析师被搞大肚子,公开喊话手握290亿的经理

基金圈爆大瓜!美女分析师被搞大肚子,公开喊话手握290亿的经理

社会酱
2026-01-23 17:53:48
79分钟绝杀!一场1-0,让榜首易主,欧洲豪强登顶,掀翻中资球队

79分钟绝杀!一场1-0,让榜首易主,欧洲豪强登顶,掀翻中资球队

足球狗说
2026-01-24 04:50:29
现场直击! 刚刚, 兰兰终于现身澳洲法庭! 正式低头承认

现场直击! 刚刚, 兰兰终于现身澳洲法庭! 正式低头承认

澳微Daily
2026-01-23 13:16:55
如此忽悠群众有意思吗?

如此忽悠群众有意思吗?

笔杆论道
2026-01-23 06:33:00
罪有应得!官方彻查后,闫学晶再迎噩耗,她最担心的事还是发生了

罪有应得!官方彻查后,闫学晶再迎噩耗,她最担心的事还是发生了

来科点谱
2026-01-23 11:08:02
关键时刻,人民日报评论靠谱过吗?

关键时刻,人民日报评论靠谱过吗?

黔有虎
2026-01-23 00:34:42
不是演戏!许家印被抬出会场全程曝光:奋力扒拉人群怒吼被抬走

不是演戏!许家印被抬出会场全程曝光:奋力扒拉人群怒吼被抬走

趋势清风侠
2026-01-23 21:27:10
一组“女留子面相变化”图火了,出国3年判若两人,牢A果然没说错

一组“女留子面相变化”图火了,出国3年判若两人,牢A果然没说错

妍妍教育日记
2026-01-23 19:09:27
人大代表一席话问住养犬人:你的宠物狗,凭什么让他人付出代价?

人大代表一席话问住养犬人:你的宠物狗,凭什么让他人付出代价?

不写散文诗
2026-01-23 19:19:22
俄罗斯首次承认“莫斯科”号巡洋舰被乌军击沉,导致52名俄军伤亡

俄罗斯首次承认“莫斯科”号巡洋舰被乌军击沉,导致52名俄军伤亡

山河路口
2026-01-23 18:55:47
美国启动所谓“和平委员会”,匈牙利、巴基斯坦、阿根廷、印尼、蒙古等18国已签署!特朗普达沃斯讲话,却遭群嘲

美国启动所谓“和平委员会”,匈牙利、巴基斯坦、阿根廷、印尼、蒙古等18国已签署!特朗普达沃斯讲话,却遭群嘲

每日经济新闻
2026-01-23 00:41:25
2026-01-24 05:56:49
观察者网 incentive-icons
观察者网
全球视野,中国关怀
133064文章数 1849734关注度
往期回顾 全部

科技要闻

TikTok守住了算法"灵魂" 更握紧了"钱袋子"

头条要闻

疑在达沃斯受挫 79岁的特朗普转发超80条帖子发泄怒气

头条要闻

疑在达沃斯受挫 79岁的特朗普转发超80条帖子发泄怒气

体育要闻

杜兰特鏖战44分钟累瘫 轰36+7却致命失误

娱乐要闻

演员孙涛澄清闫学晶言论 落泪维护妻子

财经要闻

2026年,消费没有新故事?

汽车要闻

主打家庭大六座 奕境首款SUV将北京车展亮相

态度原创

教育
游戏
手机
数码
军事航空

教育要闻

中国家庭普遍做错的教育行为是什么?吴军:追求同质化的教育,孩子的培养不需要盲目跟风

没有鼠群了!《瘟疫传说》新作回归15年前

手机要闻

新春优惠来了!苹果官网Apple Store开始维护:iPhone 16、Mac、iPad等降价

数码要闻

大疆Osmo Pocket 4手持云台相机包装曝光,新增变焦与自定义键

军事要闻

美军首艘“高超导弹战舰”出海测试

无障碍浏览 进入关怀版