即将开源！华为发布AI推理黑科技，已在中国银联落地|算法|算力|知名企业|token

即将开源！华为发布AI推理黑科技，已在中国银联落地

2025-08-13 11:40:14　来源: 钛媒体APP

北京举报

分享至

图片系AI生成

8月12日，华为发布AI推理创新技术——UCM推理记忆数据管理器，旨在推动AI推理体验升级，提升推理性价比，加速AI商业正循环。同时，华为携手中国银联率先在金融典型场景开展UCM技术试点应用，并联合发布智慧金融AI推理加速方案应用成果。

UCM推理记忆数据管理器，包括对接不同引擎与算力的推理引擎插件（Connector）、支持多级KV Cache管理及加速算法的功能库（Accelerator）、高性能KV Cache存取适配器（Adapter）三大组件，通过推理框架、算力、存储三层协同，实现AI推理“更优体验、更低成本”。

AI推理：既不够快，也不够便宜

从行业视角观察，大模型的重心正在从训练转向推理。相关行业数据显示，当前推理算力需求已超过训练（58.5%）。GPT-5开放首周20 亿次/分钟，70%的请求为复杂任务推理（如代码生成、多步规划）；而国内火山引擎的日均token调用量已达16.4万亿，其中70%以上来自线上推理而非训练。

与此同时，大模型行业总会频繁出现一个现象，一旦出现了一种火热的新模型，该服务商的服务在一段时间会处于不太稳定的状态，这是因为大量用户访问需求之下，服务商需要通过计算、存储等优化措施，降低它的推理成本，并且降本的同时不能影响用户体验。

比如GPT-5发布就引起不少用户诟病，通过智能路由降低后台的算力成本，但是路由规划的效果出现了偏差，用户使用时频繁出现了“降智”效果，海内外用户吐槽非常多。

此外，由于在基础设施投资领域的差距，中国互联网在AI基础设施上的投资仅是美国的十分之一，叠加如算力卡阉割、算力卡涨价、HBM涨价等一系列因素，中国AI推理发展难上加难。

中国互联网大模型首Token时延普遍慢于海外互联网头部的首Token时延，每秒或者一定时间内推理的Token数也远小于海外头部互联网厂商。

国外主流大模型输出速度为200 tokens/s区间（时延5ms），而中国普遍小于60 tokens/s（时延50~100ms），最大差距达到10倍。在上下文窗口上，海外模型普遍支持100万级Token（如GPT-5、Claude 3.5），而国内头部（Kimi）仅50万，且在长文本分析中，国内模型遗漏关键信息的概率超50%。

行业通常用增加显存、内存的方式，提升AI推理的效率和性能，但是很多业界方案只关注基础设施层，即分层流动/开启管理，在整个算法加速库上缺少系列场景化加速算法、套件以及开放第三方库等举措，即缺少一套“推理框架、算力、存储三层协同”的方案。

以存代算，首token延迟降低90%

华为公司副总裁、数据存储产品线总裁周跃峰解释，以人的思考和大模型作对比，思考能力和记忆能力强相关，AI推理系统也一样的。整个AI推理系统当中，记忆功能往往有三部分，高性能的缓存（HBM），中间是内存（DRAM），这两部分基本上在智算服务器当中。第三部分是过去没有得到利用的专业共享存储。

UCM主要分为三部分：顶层和业界流行的推理框架对接，称为“连接器”，它会连接业界普遍流行的推理引擎框架，包括华为的MindiE、SGLang等等，与目前推理框架进行协同。

中间部分是加速程序，对于缓存记忆数据进行分级缓存管理的算法程序，运行在智算服务器当中。

另外一部分是和专业共享存储相结合的协同器，这个协同器（适配器）可以提升专业存储直通的效率和降低时延，可以让三级存储协同起来。

通俗解释，首先，华为通过UCM，将历史已处理过的结果、历史对话、语料库、RAG知识库的数据以KV Cache的形式缓存至第三层的高性能外置共享存储上，遇到已推理过、已缓存过的信息就不需要重新推理了，而是只用从外置存储中查询并调用即可，实现大幅推理加速，将首token延迟降低90%、也节省了token by token的时间。

在过去，这些数据量通常较大、达到PB级，仅依赖HBM和DRAM这样几十GB、最多TB级的小容量是存不下来的，导致推理频繁出现“失忆”，需要GPU反复计算、造成卡顿迟缓。而且过去HBM又贵又小、且与GPU卡强绑定，靠堆卡的形式普通企业根本买不起，只有被迫接受“重复造轮子”的低效方式。

在此基础上，大模型能积累越来越多的历史对话、历史内容，就变相地增加了知识丰富度和广度，让需要全新计算的比例越来越少，简化计算复杂度，大模型也就越来越快、越来越聪明，如此解决“推得慢”的问题。

其次，当推理任务越来越长、越来越复杂，长序列推理会让大模型经常出现“只有七秒钟的记忆”。比如，在分析一篇万字长文时，由于HBM容量有限，仅缓存到前2000字就装不下了，这样就容易出现推理失败、关键关联信息丢失的情况。

华为UCM通过一系列智能的算法，对长序列内容进行切片，并把已处理的切片卸载到更大的DRAM或外置共享存储，这就变相扩充了HBM的容量，让上下文窗口扩大10倍、满足长序列推理需求。

此外，华为采用了注意力稀疏技术及相关技术，可以识别这些大量KV Cache数据的重要程度、相关性和热度，将重要的/不重要的、相关的/不相关的数据分层分级地进行缓存并流动。在下一次推理过程中，只需要把关键的、合适的向量提取出来即可，这也就降低了向量推理过程中向量的数量，提升整体吞吐量，如此解决“推不动”的问题。

在无需过多投资的情况下，UCM让长序列场景下TPS（每秒处理token数）提升2-22倍，相当于降低每Token推理成本，企业可以继续维持算力不变，仅花销小部分外置存储的投资、让缓存原地“升级”，从而改善推理效率、摊薄每token推理成本，解决“推得贵”的问题。

已在中国银联落地，9月将开源

金融行业是拥抱大模型较为快速的行业之一，对于新技术的需求也十分迫切。金融AI规模化落地的核心瓶颈在于高成本、高延迟、高依赖，金融级应用需微秒级响应，而卡顿、延迟直接影响风控与交易安全，因此AI推理的效果至关重要。

中国银联智能化创新中心副总经理杨燕明表示，通过分析来自客服、工单等数据发现以下痛点：金融产品、金融服务的种类多、场景复杂，在问题进行分类时相当困难；用户反馈内容繁杂的、冗长，导致难以分析原因。

中国银联尝试使用大模型技术解决这些问题，通常的解决方案是，将问题进行标签化，构建起一系列的问题标签，结合客户对话内容进行切片，喂给大语言模型进行处理，希望通过大语言模型帮助解决分类问题。

但随之发现了新的技术挑战，首先它是一个多次推理，推理时间非常长，一通电话或者一个服务，需要长达15分钟的分析时间；第二因为标签数量太多，分析准确性非常低，无法应用生产。

中国银联联合华为开展了推理性能的技术攻关，与华为存储团队、算力先遣队、业务专家一起组合了联合创新小组，经过一系列尝试，提出了引入存储的KV Cache的加速方案，满足实际的业务需求。

采用KV Cache的方案，通使整个运算方式从推理运算，变为查找运算和推理运算相结合的方式，避免了大量重复推理，加速整个推理过程，实际效果标签分类的推理时间从原来的600秒，下降到10秒内，提升了50倍以上，标签分类准确率从不到10%上升到80%，整个效果达到生产预期。

华为也公布了UCM开源计划。UCM通过开放统一的南北向接口，可适配多类型推理引擎框架、算力及存储系统。今年9月，UCM将正式开源，后续逐步贡献给业界主流推理引擎社区。

华为相关专家表示，IT行业产品先行，标准随后。华为希望通过UCM这样一套开源的方式，能够让更多的厂商、业界存储伙伴加入，能够在推理加速推动标准落地，这是一个共创标准的过程，共同在开源社区孵化成熟，真正形成标准，才能真正解决今天看到的推理体验和推理成本的问题（本文首发于钛媒体APP，作者 | 张帅，编辑 | 盖虹达）

特别声明：以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布，本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.