网易首页 > 网易号 > 正文 申请入驻

刚刚,华为AI推理大招终于来了!10倍级上下文扩展,性价比暴涨

0
分享至


智东西
作者 ZeR0
编辑 漠影

智东西8月12日报道,今日,华为推出AI推理创新技术——推理记忆数据管理器UCM,通过多级缓存显著优化AI推理体验与性价比。


UCM是一款以KV Cache记忆管理为中心的推理加速套件,提供全场景系列化推理加速方案,通过推理框架、算力、存储三层协同,优化Tokens在各业务环节中流转的效率,以实现AI推理的更优体验、更低成本。

其三大组件包括对接不同引擎与算力的推理引擎插件(Connector)、支持多级KV Cache管理及加速算法的功能库(Accelerator)、高性能KV Cache存取适配器(Adapter),并通过开放统一的南北向接口,可适配多类型推理引擎框架、算力及存储系统。

经大量测试验证,UCM可将首Token时延最高降低90%,系统吞吐最大提升22倍,实现10倍级上下文窗口扩展。

华为计划在今年9月正式开源UCM,届时将在魔擎社区首发,后续逐步贡献给业界主流推理引擎社区,希望通过开放开源的方式,让业界共享这一成果,共同推动AI推理生态的繁荣发展。

同时,华为与中国银联率先在金融典型场景开展UCM技术试点应用,并联合发布智慧金融AI推理加速方案应用成果。

会后,华为数据存储产品线副总裁、闪存领域总裁谢黎明,华为数据存储产品线AI存储首席架构师李国杰,与智东西等媒体进行深入交流。

李国杰强调,用AI处理更高级别的问题,信息量和数据输出会更大,UCM则能够大幅优化成本。今天发布的UCM,是华为第一次提供如此完整的全流程、全场景且可演进的系统性方案。从单点算力模组转向系统级优化,是一个大的变化和趋势。业界有很多开源方案有类似的方向,有的是做了其中某一层或某一些组件,但是并未看到可商用的端到端完整方案。

谢黎明谈道,开源UCM与业界思路是一致的,华为希望通过开放这些成果,为推理体验、生态、成本贡献一份力量,进一步促进框架、存储、GPU厂商共建和成熟化整套机制,真正解决AI行业化落地的效率和成本问题。

一、优化AI推理体验:10倍级上下文窗口扩展,TTFT最高降低90%,Token经济性提升2倍+华为公司副总裁、数据存储产品线总裁周跃峰谈道,AI在金融行业大规模使用,推理效率与体验是关键。AI时代,模型训练、推理效率与体验的量纲都以Token数为表征,Token经济时代到来。

AI推理应用落地过程中面临三大挑战:

  • 推不动(输入超出模型上下文窗口)
  • 推得慢(美国大模型推理首Token时延=中国大模型的1/2)
  • 推得贵(美国大模型推理吞吐率大约是中国大模型的10倍)

对此,华为推出UCM推理记忆数据管理器(Unified Cache Manager),通过多级缓存解决AI推理体验与成本问题。


整个AI推理系统中的记忆有三部分:高带宽内存HBM、DRAM都在智算服务器中,可以充分利用但过去没有利用起来的是下面的专业共享存储。


通过一系列算法,UCM把推理过程中有不同延时要求的数据放在不同的记忆体中,实时记忆数据即热放在HBM中,短期记忆数据放在DRAM,其他放在共享专业存储中,通过这样的按需流动来提升整个系统的效率。

UCM主要分为三部分:顶层是推理引擎插件(Connector),与业界多样引擎与多元算力灵活对接,会连接MindIE、SGLang等一些主流推理引擎框架;中间是对缓存记忆数据进行分级管理的一些创新加速算法,运行在智算服务器中;另一部分是与专业共享存储相结合的存取适配器,能提升专业存储的直通效率和降低时延,可以让三级存储更好协同。


通过大量测试,UCM能给推理系统的效率、体验、成本提升带来明显进步。


(1)更快的推理响应:依托UCM层级化自适应的全局前缀缓存技术,可实现任意物理位置、任意输入组合上的KV前缀缓存重用,在多轮对话、RAG知识检索等场景中直接调用KV缓存数据,避免重复计算,使首Token时延最大降低90%、Token经济性提升2倍+


(2)更长的推理序列:通过动态KV逐层卸载、位置编码扩展、Prefill稀疏等组合技术,将超长序列Cache分层卸载至外置专业存储,通过算法创新突破模型和资源限制,实现10倍级推理上下文窗口扩展,满足长文本处理需求。


(3)更低的推理成本:具备智能分级缓存能力,可根据记忆热度在HBM、DRAM、SSD等存储介质中自动分级缓存,同时融合多种稀疏注意力算法,实现存算深度协同,使长序列场景下TPS(每秒处理token数)提升2-22倍,降低每Token推理成本。

UCM受打字输入法联想的启发,提供一套基于后缀检索的预测联想算法,将行业私域数据和用户习惯构建token级的后缀索引,突破自回归的联想限制,可以一次输出多词,并且存得越多推得越快,比传统MTP预测加速效果更好、更适用于企业场景。


二、面向开源设计,适配多类推理引擎框架、算力、存储系统

KV Cache与记忆数据管理是大语言模型推理中优化性能、降低计算成本的核心技术。但国内AI推理生态中尚未形成以其为核心的完整加速软件体系,相关技术布局存在短板。

随着迈入Agentic AI时代,模型规模化扩张、长序列需求激增以及推理任务并发量增长,AI推理的KV Cache容量增长已超出HBM的承载能力,需要构建“软件优化+硬件创新+存算协同”的架构。

UCM可根据数据冷热分级存储到不同介质中,使KV Cache容量从GB级增长至PB级,是一种更经济、更易用的推理加速方案。

其设计理念是通过开放统一的框架和接口,北向支持多样化的推理引擎连接,南向接入多样化的存储系统,中间在推理加速算法配置方面,开放并呼吁更多的开源和生态伙伴共建丰富的加速算法库。


UCM面向开源设计,上层推理引擎插件接口积极融入主流的开源社区,中间层分级缓存管理接口与Mooncake联合设计,在端到端的XPU直通存储的存储标准和产业接口的定义上与多家芯片厂商进行联合定义。

华为希望联合产业界的力量,共建共创以记忆数据管理为中心的推理加速新范式。

AI技术迭代飞速,因此UCM着眼于未来设计,从KV Cache分层管理走向Agentic AI原生记忆管理与应用加速,除了今年发布的推理加速套件(下图黄色部分)之外,还会持续构建和发布面向Agent知识感知的多模检索加速能力以及未来Agent原生记忆的管理和加速能力。


据李国杰透露,UCM大概从去年6-7月份开始孵化,至今差不多一年,仅是算法方面就有百人级团队投入,未来会面向Agentic AI做更深演进,可能会继续增加投入。

谈到UCM与其他分级缓存管理的差别,李国杰总结了三点:

首先是纳入专业存储。很多分级缓存管理是管理一些裸金属资源,效率不太能满足商用客户要求。纳入专业存储后,华为做了大量软硬系统和卸载的事情,比如直通加速、KV Cache生命周期管理等。

第二,业界现有方案在算法加速库方面几乎只有传统的Prefix Cache一种技术,并没有像UCM这样商用全流程稀疏算法、后缀检索算法及其他算法。相较业界,华为贡献了一些更加丰富、可靠的或加速效果更好的算法,这个算法库还在持续增加中。

第三,推理场景非常丰富,请求输入输出变化多端,各场景下没有一套框架、一套加速机制、一套算法是可以普适的,所以需要一套完整、丝滑、能在各场景、各种长短序列、各种请求下做自动切换和自动适应的方案,只有像UCM这样真正跟客户场景贴身联创和迭代的技术才有这样的能力。

三、技术价值已在智慧金融场景得到验证

在与中国银联的联合创新技术试点中,UCM的技术价值得到验证。

在中国银联“客户之声”业务场景下,借助UCM技术及工程化手段,大模型推理速度提升125倍,仅需10秒即可精准识别客户高频问题,促进服务质量提升。


未来,中国银联计划依托国家人工智能应用中试基地,联合华为等生态伙伴共建“AI+金融”示范应用,推动技术成果从“实验室验证”走向“规模化应用”。

会上,中国信通院人工智能研究所平台与工程化部主任曹峰分享了大模型推理优化的4个主要趋势:

(1)大模型落地重心从训练转向推理,应用从ToC到ToB加速成熟;

(2)推理目标从单点优化和功能完备转向“成本-性能-效果”三目标协同优化;

(3)系统级架构优化将成主流,头部厂商2025年陆续推出推理系统级优化方案,未来结合“模型-场景-架构”的推理架构设计是技术、产业的发展重点;

(4)KV Cache是架构优化焦点,以KV Cache为核心的推理方案迭出,其背后依赖的高性能存储、先进调度策略的重要性将愈发显现。

结语:应对AI推理多重性能挑战,UCM能有效缓解资源瓶颈

推理已成为AI下一阶段的发展重心,直接关联用户满意度、商业可行性等,重要性愈发凸显。

AI推理从生成式AI时代的简单推理任务,逐渐向Agentic AI时代的复杂长程推理任务发展,带来了对算力计算量、内存访问效率、超长上下文处理、Multi-agent状态共享等方面的性能挑战。

UCM可通过复用已计算结果、上下文窗口扩展、长记忆保持与共享等技术,减少重复计算与低效内存访问,有效缓解复杂任务产生的资源瓶颈和性能挑战。

通过融合多类型缓存加速算法工具,UCM能够更大程度释放KV Cache与推理框架的性能潜力,实现推理效率的显著提升,并通过开源开放进一步加速探索优化商用AI推理方案的高效路径。

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
丢人丢大了?赵鸿刚参加扇耳光大赛惨遭KO,被对手扇晕受伤严重

丢人丢大了?赵鸿刚参加扇耳光大赛惨遭KO,被对手扇晕受伤严重

丹妮观
2025-11-01 19:37:23
通背拳传人与老外互扇耳光!第一下被打出血,第三下被打晕翻白眼

通背拳传人与老外互扇耳光!第一下被打出血,第三下被打晕翻白眼

念洲
2025-11-01 12:37:45
许绍雄追悼会确定!家属呼吁亲友,别送花篮直接给钱,目的太感人

许绍雄追悼会确定!家属呼吁亲友,别送花篮直接给钱,目的太感人

一只番茄鱼
2025-10-31 22:46:33
中美言和荷兰惨遭遗弃,国王亲自率企业团访华,请中国手下留情

中美言和荷兰惨遭遗弃,国王亲自率企业团访华,请中国手下留情

梁讯
2025-11-01 14:32:15
东莞一公园长凳密集扶手被拆除,一装一拆是为何?

东莞一公园长凳密集扶手被拆除,一装一拆是为何?

极目新闻
2025-11-02 11:03:35
李云迪X侵司晓迪的后续瓜!

李云迪X侵司晓迪的后续瓜!

八卦疯叔
2025-11-01 10:50:45
WTT女单4强揭晓:四大奇迹诞生,两大事实确认,今日赛程一览

WTT女单4强揭晓:四大奇迹诞生,两大事实确认,今日赛程一览

余飩搞笑段子
2025-11-02 07:38:56
黄晓明,在“油”和“去油”之间找到演员之路

黄晓明,在“油”和“去油”之间找到演员之路

后浪电影
2025-11-02 10:08:36
陈道明“阴阳同体”!?

陈道明“阴阳同体”!?

八卦疯叔
2025-11-01 10:26:09
Hi Young广州,好奇当初是如何过会的?

Hi Young广州,好奇当初是如何过会的?

慕容律师
2025-11-01 23:40:49
网传王家卫吐槽几位知名演员事件,为何那些演员不敢正面回应?

网传王家卫吐槽几位知名演员事件,为何那些演员不敢正面回应?

柳缘阁主
2025-11-02 09:59:05
全运会单打抽签尴尬解了!樊振东陈梦皆列第4 女单争冠更具开放性

全运会单打抽签尴尬解了!樊振东陈梦皆列第4 女单争冠更具开放性

劲爆体坛
2025-11-01 09:34:06
中方出手制止朱拉尼,海湾国家迅速转变立场,叙利亚局势迎来新局面

中方出手制止朱拉尼,海湾国家迅速转变立场,叙利亚局势迎来新局面

起喜电影
2025-11-02 05:16:49
明天早高峰通行压力大,记得错峰出行

明天早高峰通行压力大,记得错峰出行

大象新闻
2025-11-02 11:10:09
你的生日尾数是多少,就是什么命!

你的生日尾数是多少,就是什么命!

大禹小城
2025-11-01 20:36:49
雷霆弃将把鱼腩带成东部第一!开赛未尝一败,连杀东部冠军热门

雷霆弃将把鱼腩带成东部第一!开赛未尝一败,连杀东部冠军热门

你的篮球频道
2025-11-01 14:26:29
6比0!刘诚宇帽子戏法!

6比0!刘诚宇帽子戏法!

五星体育
2025-11-01 20:00:35
丫蛋有三个孩子,大儿子王天琦是她与王金龙所生,于2011年出生。

丫蛋有三个孩子,大儿子王天琦是她与王金龙所生,于2011年出生。

百态人间
2025-10-31 14:43:12
这几天最大军事动态非韩国开搞核潜艇、是美印签署10年国防协议

这几天最大军事动态非韩国开搞核潜艇、是美印签署10年国防协议

邵旭峰域
2025-11-01 16:01:04
章泽天被曝和刘强东冷战后续:被扒消费降级,太像离婚后的大S!

章泽天被曝和刘强东冷战后续:被扒消费降级,太像离婚后的大S!

柠檬有娱乐
2025-11-01 14:25:10
2025-11-02 11:36:49
智东西 incentive-icons
智东西
聚焦智能变革,服务产业升级。
10684文章数 116892关注度
往期回顾 全部

科技要闻

10月零跑突破7万辆,小鹏、蔚来超4万辆

头条要闻

妻儿3人被丈夫发小杀害 妻子指甲里有凶手的DNA

头条要闻

妻儿3人被丈夫发小杀害 妻子指甲里有凶手的DNA

体育要闻

NBA球员,必须吃夜宵

娱乐要闻

离世的他曾是刘德华张学友御用班底

财经要闻

段永平捐了1500万元茅台股票!本人回应

汽车要闻

神龙汽车推出“发动机终身质保”政策

态度原创

教育
本地
家居
艺术
游戏

教育要闻

收藏!2026山东高考报名日程表!18日缴费!第7条公安类院校、专项计划特别注意!

本地新闻

全网围观,到底多少人被这个野人大学生笑疯了

家居要闻

吸睛艺术 富有传奇色彩

艺术要闻

隈研吾翻车?设计了武汉酒店,网友:像一栋“凉席大厦”

《立方体奥德赛》史低折扣促销 我的世界进入太空

无障碍浏览 进入关怀版