网易首页 > 网易号 > 正文 申请入驻

即将开源!华为发布AI推理黑科技,已在中国银联落地

0
分享至

图片系AI生成

8月12日,华为发布AI推理创新技术——UCM推理记忆数据管理器,旨在推动AI推理体验升级,提升推理性价比,加速AI商业正循环。同时,华为携手中国银联率先在金融典型场景开展UCM技术试点应用,并联合发布智慧金融AI推理加速方案应用成果。

UCM推理记忆数据管理器,包括对接不同引擎与算力的推理引擎插件(Connector)、支持多级KV Cache管理及加速算法的功能库(Accelerator)、高性能KV Cache存取适配器(Adapter)三大组件,通过推理框架、算力、存储三层协同,实现AI推理“更优体验、更低成本”。

AI推理:既不够快,也不够便宜

从行业视角观察,大模型的重心正在从训练转向推理。相关行业数据显示,当前推理算力需求已超过训练(58.5%)。GPT-5开放首周20 亿次/分钟,70%的请求为复杂任务推理(如代码生成、多步规划);而国内火山引擎的日均token调用量已达16.4万亿,其中70%以上来自线上推理而非训练。

与此同时,大模型行业总会频繁出现一个现象,一旦出现了一种火热的新模型,该服务商的服务在一段时间会处于不太稳定的状态,这是因为大量用户访问需求之下,服务商需要通过计算、存储等优化措施,降低它的推理成本,并且降本的同时不能影响用户体验。

比如GPT-5发布就引起不少用户诟病,通过智能路由降低后台的算力成本,但是路由规划的效果出现了偏差,用户使用时频繁出现了“降智”效果,海内外用户吐槽非常多。

此外,由于在基础设施投资领域的差距,中国互联网在AI基础设施上的投资仅是美国的十分之一,叠加如算力卡阉割、算力卡涨价、HBM涨价等一系列因素,中国AI推理发展难上加难。

中国互联网大模型首Token时延普遍慢于海外互联网头部的首Token时延,每秒或者一定时间内推理的Token数也远小于海外头部互联网厂商。

国外主流大模型输出速度为200 tokens/s区间(时延5ms),而中国普遍小于60 tokens/s(时延50~100ms),最大差距达到10倍。在上下文窗口上,海外模型普遍支持100万级Token(如GPT-5、Claude 3.5),而国内头部(Kimi)仅50万,且在长文本分析中,国内模型遗漏关键信息的概率超50%。

行业通常用增加显存、内存的方式,提升AI推理的效率和性能,但是很多业界方案只关注基础设施层,即分层流动/开启管理,在整个算法加速库上缺少系列场景化加速算法、套件以及开放第三方库等举措,即缺少一套“推理框架、算力、存储三层协同”的方案。

以存代算,首token延迟降低90%

华为公司副总裁、数据存储产品线总裁周跃峰解释,以人的思考和大模型作对比,思考能力和记忆能力强相关,AI推理系统也一样的。整个AI推理系统当中,记忆功能往往有三部分,高性能的缓存(HBM),中间是内存(DRAM),这两部分基本上在智算服务器当中。第三部分是过去没有得到利用的专业共享存储。

UCM主要分为三部分:顶层和业界流行的推理框架对接,称为“连接器”,它会连接业界普遍流行的推理引擎框架,包括华为的MindiE、SGLang等等,与目前推理框架进行协同。

中间部分是加速程序,对于缓存记忆数据进行分级缓存管理的算法程序,运行在智算服务器当中。

另外一部分是和专业共享存储相结合的协同器,这个协同器(适配器)可以提升专业存储直通的效率和降低时延,可以让三级存储协同起来。

通俗解释,首先,华为通过UCM,将历史已处理过的结果、历史对话、语料库、RAG知识库的数据以KV Cache的形式缓存至第三层的高性能外置共享存储上,遇到已推理过、已缓存过的信息就不需要重新推理了,而是只用从外置存储中查询并调用即可,实现大幅推理加速,将首token延迟降低90%、也节省了token by token的时间。

在过去,这些数据量通常较大、达到PB级,仅依赖HBM和DRAM这样几十GB、最多TB级的小容量是存不下来的,导致推理频繁出现“失忆”,需要GPU反复计算、造成卡顿迟缓。而且过去HBM又贵又小、且与GPU卡强绑定,靠堆卡的形式普通企业根本买不起,只有被迫接受“重复造轮子”的低效方式。

在此基础上,大模型能积累越来越多的历史对话、历史内容,就变相地增加了知识丰富度和广度,让需要全新计算的比例越来越少,简化计算复杂度,大模型也就越来越快、越来越聪明,如此解决“推得慢”的问题。

其次,当推理任务越来越长、越来越复杂,长序列推理会让大模型经常出现“只有七秒钟的记忆”。比如,在分析一篇万字长文时,由于HBM容量有限,仅缓存到前2000字就装不下了,这样就容易出现推理失败、关键关联信息丢失的情况。

华为UCM通过一系列智能的算法,对长序列内容进行切片,并把已处理的切片卸载到更大的DRAM或外置共享存储,这就变相扩充了HBM的容量,让上下文窗口扩大10倍、满足长序列推理需求。

此外,华为采用了注意力稀疏技术及相关技术,可以识别这些大量KV Cache数据的重要程度、相关性和热度,将重要的/不重要的、相关的/不相关的数据分层分级地进行缓存并流动。在下一次推理过程中,只需要把关键的、合适的向量提取出来即可,这也就降低了向量推理过程中向量的数量,提升整体吞吐量,如此解决“推不动”的问题。

在无需过多投资的情况下,UCM让长序列场景下TPS(每秒处理token数)提升2-22倍,相当于降低每Token推理成本,企业可以继续维持算力不变,仅花销小部分外置存储的投资、让缓存原地“升级”,从而改善推理效率、摊薄每token推理成本,解决“推得贵”的问题。

已在中国银联落地,9月将开源

金融行业是拥抱大模型较为快速的行业之一,对于新技术的需求也十分迫切。金融AI规模化落地的核心瓶颈在于高成本、高延迟、高依赖,金融级应用需微秒级响应,而卡顿、延迟直接影响风控与交易安全,因此AI推理的效果至关重要。

中国银联智能化创新中心副总经理杨燕明表示,通过分析来自客服、工单等数据发现以下痛点:金融产品、金融服务的种类多、场景复杂,在问题进行分类时相当困难;用户反馈内容繁杂的、冗长,导致难以分析原因。

中国银联尝试使用大模型技术解决这些问题,通常的解决方案是,将问题进行标签化,构建起一系列的问题标签,结合客户对话内容进行切片,喂给大语言模型进行处理,希望通过大语言模型帮助解决分类问题。

但随之发现了新的技术挑战,首先它是一个多次推理,推理时间非常长,一通电话或者一个服务,需要长达15分钟的分析时间;第二因为标签数量太多,分析准确性非常低,无法应用生产。

中国银联联合华为开展了推理性能的技术攻关,与华为存储团队、算力先遣队、业务专家一起组合了联合创新小组,经过一系列尝试,提出了引入存储的KV Cache的加速方案,满足实际的业务需求。

采用KV Cache的方案,通使整个运算方式从推理运算,变为查找运算和推理运算相结合的方式,避免了大量重复推理,加速整个推理过程,实际效果标签分类的推理时间从原来的600秒,下降到10秒内,提升了50倍以上,标签分类准确率从不到10%上升到80%,整个效果达到生产预期。

华为也公布了UCM开源计划。UCM通过开放统一的南北向接口,可适配多类型推理引擎框架、算力及存储系统。今年9月,UCM将正式开源,后续逐步贡献给业界主流推理引擎社区。

华为相关专家表示,IT行业产品先行,标准随后。华为希望通过UCM这样一套开源的方式,能够让更多的厂商、业界存储伙伴加入,能够在推理加速推动标准落地,这是一个共创标准的过程,共同在开源社区孵化成熟,真正形成标准,才能真正解决今天看到的推理体验和推理成本的问题(本文首发于钛媒体APP,作者 | 张帅,编辑 | 盖虹达)

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
旧手机回收价狂涨五六倍!回收商:开不了机的照样高价收

旧手机回收价狂涨五六倍!回收商:开不了机的照样高价收

快科技
2026-03-25 14:53:24
杨振宁猝然离世5个月后,翁帆突传新消息,怀孕传闻早就真相大白

杨振宁猝然离世5个月后,翁帆突传新消息,怀孕传闻早就真相大白

李橑在北漂
2026-03-25 23:30:59
徐阳点评U23国足2-2泰国:句句实在话,理性看球更懂赛场本质!

徐阳点评U23国足2-2泰国:句句实在话,理性看球更懂赛场本质!

田先生篮球
2026-03-26 06:00:06
烧了18.6万美元让AI连轴肝了17天,它产出了166篇论文

烧了18.6万美元让AI连轴肝了17天,它产出了166篇论文

酷玩实验室
2026-03-25 18:25:49
上海宛平南路一套房子爆火!月租7000元,回家像玩密室逃脱...

上海宛平南路一套房子爆火!月租7000元,回家像玩密室逃脱...

黄河新闻网吕梁
2026-03-26 15:14:06
电力人气股,涨停!9连板

电力人气股,涨停!9连板

新浪财经
2026-03-26 12:19:23
中疾控发布提示:我国面临较大疫情输入风险

中疾控发布提示:我国面临较大疫情输入风险

随州派
2026-03-24 11:44:16
广州市一栋三层别墅拍卖,被人捡漏170.6万就竞得,还要啥套间

广州市一栋三层别墅拍卖,被人捡漏170.6万就竞得,还要啥套间

天天话事
2026-03-26 09:30:14
俄罗斯宣传三天攻占爱沙尼亚!炮制公投,又是特别军事行动?

俄罗斯宣传三天攻占爱沙尼亚!炮制公投,又是特别军事行动?

项鹏飞
2026-03-24 20:28:43
溥仪晚年见老宫女乞讨,问她为何不嫁人?宫女:我们这些人怎么嫁

溥仪晚年见老宫女乞讨,问她为何不嫁人?宫女:我们这些人怎么嫁

千秋文化
2026-01-29 21:22:16
张雪峰死因:吃外卖撑住了?

张雪峰死因:吃外卖撑住了?

李万卿
2026-03-26 10:48:19
油价反转!95号汽油破9元后迎下调,4月7日调价最新预测

油价反转!95号汽油破9元后迎下调,4月7日调价最新预测

复转这些年
2026-03-26 09:40:14
张雪峰离世1天后,才发现女儿名字取得暗藏深意,字字都有来头

张雪峰离世1天后,才发现女儿名字取得暗藏深意,字字都有来头

阿纂看事
2026-03-25 16:29:49
真的太孤独了!山东47岁母亲称已怀胎8月,两女远嫁却极力反对…

真的太孤独了!山东47岁母亲称已怀胎8月,两女远嫁却极力反对…

火山詩话
2026-03-25 13:41:56
人社部明确:事业编制改革启动,3100万人的“铁饭碗”要变了

人社部明确:事业编制改革启动,3100万人的“铁饭碗”要变了

慧眼看世界哈哈
2026-03-24 06:36:05
80年陈云建议陈锡联辞职,陈锡联猛拍桌:让我干啥,我绝无二话!

80年陈云建议陈锡联辞职,陈锡联猛拍桌:让我干啥,我绝无二话!

抽象派大师
2026-03-25 12:04:28
两省省委领导班子调整

两省省委领导班子调整

上观新闻
2026-03-25 15:07:07
出大事了,特朗普通报全球,美头号敌人已亮相,担心的事即将发生

出大事了,特朗普通报全球,美头号敌人已亮相,担心的事即将发生

策略述
2026-03-26 13:45:17
黄金、白银,直线跳水!特朗普,大消息!

黄金、白银,直线跳水!特朗普,大消息!

证券时报e公司
2026-03-26 14:47:48
曝张雪峰3段婚姻都是闪婚,前妻缅怀满是惋惜,疯狂健身疑为备孕

曝张雪峰3段婚姻都是闪婚,前妻缅怀满是惋惜,疯狂健身疑为备孕

古希腊掌管松饼的神
2026-03-25 12:00:46
2026-03-26 16:39:00
钛媒体APP incentive-icons
钛媒体APP
独立财经科技媒体
131356文章数 862012关注度
往期回顾 全部

科技要闻

Meta高管狂分百亿期权,700名员工却下岗

头条要闻

国防部:日本侵略过所有周边国家 至今都没有真正反省

头条要闻

国防部:日本侵略过所有周边国家 至今都没有真正反省

体育要闻

申京努力了,然而杜兰特啊

娱乐要闻

张雪峰家人首发声 不设追思会丧事从简

财经要闻

长护险谁能享受?享受多少?解答来了

汽车要闻

一汽奥迪A6L e-tron开启预售 CLTC最大续航815km

态度原创

手机
亲子
旅游
家居
教育

手机要闻

iPhone「自己打电话」是Bug!苹果终于承认了,怎么回事?

亲子要闻

妈妈是时尚小达人爸爸是朴素老模范!我要当爸爸的专属赞助人

旅游要闻

德阳绵竹:赏花、览文旅精品......沿山旅游“火”起来

家居要闻

傍海而居 静观蝴蝶海

教育要闻

2026湖北高职单招工作启动

无障碍浏览 进入关怀版