网易首页 > 网易号 > 正文 申请入驻

破解金融AI模型“推不动”等难题,“以查代算”提供技术出路

0
分享至

人工智能已步入发展深水区。记者获悉,当前AI(人工智能)的发展正从以模型训练为核心的阶段,逐步迈入训练与推理并重,甚至推理占比显著提升的新阶段。

训练是大模型的学习过程,目标是构建或优化模型参数;而推理则是大模型的应用过程,目标是应用已训练好的模型。根据华为公司提供的数据,随着Agent(智能体)应用的普及,当前推理算力需求已超过训练。GPT-5开放首周20亿次/分钟,70%的请求为复杂任务推理(如代码生成、多步规划);而国内火山引擎的日均Token(令牌)调用量已达16.4万亿,其中70%以上来自线上推理而非训练。

然而,尽管推理需求逐步旺盛,但国内AI推理能力的发展仍受限于AI基础设施基础弱、投资少,以及算力卡阉割、算力卡涨价、HBM(高带宽内存)涨价等一系列因素。

记者获悉,当前金融领域AI推理能力的瓶颈开始显现。华为数据存储产品线AI存储首席架构师李国杰表示,从银行业来看,核心有三个问题:一是“推不动”,投研分析、舆情分析等场景会涉及到较多的长序列输入,比如一份投研报告更是上兆级别,所以“推不动”的问题经常出现;二是“推得慢”,核心就是并发上不去,上去之后每Token时延特别长;三是“推得贵”,原因是需要耗费大量的算力做KV(键对值)的重复计算。

8月12日,《每日经济新闻》记者在上海举行的“2025金融AI推理应用落地与发展论坛”上了解到,市场越来越关注模型推理能力的深度优化——让推理过程跑得更快、成本更低、效果更好。如今,通过借助外部存储的“以查代算”方案,正在为普通企业突破AI推理瓶颈提供低成本的破题思路。

“以查代算”为AI推理效率与成本找到平衡点

如何让AI推理能力围绕“成本—性能—效果”这个“不可能三角”进一步演进,成为困扰业界的问题。

《每日经济新闻》记者在论坛上了解到,目前业内已经形成的一种解决方案是“以查代算”,即通过记忆此前已推理过的内容,降低重复推理,从而提高整体的推理效率。不过这种方案尽管降低了对算力的依赖,却对存储提出了更高要求。

此前,行业的推理能力高度依赖显卡的HBM,其成本让普通企业不堪重负。为了降低对HBM的依赖,业界开始探索DRAM(动态随机存取存储器)、SSD(固态硬盘)等外部存储方案以节省算力和带宽。正如清华大学章明星介绍:“GPU(图形处理器)在算力和带宽两个维度上肯定非常好,但是DRAM、SSD等在容量维度上成本很低,如果能够想办法利用容量维度,尽可能地节省对算力和带宽的开销,就可以大幅度降低整体系统的成本。”

记者获悉,业界已经出现了诸多通过优化存储分配来提升推理效率的案例。例如,英伟达推出了Dynamo推理方案架构,通过分布式的KV缓存管理器,提升上下文、吞吐率等;华为发布了UCM(推理记忆数据管理器,Unified Cache Manager)推理记忆数据管理器,可以分级管理推理过程中产生的KV Cache(即“记忆数据”)。

以后者为例,依托UCM层级化自适应的全局前缀缓存技术,系统能直接调用KV缓存数据,避免重复计算,显著降低首Token时延。UCM还通过分层卸载超长序列Cache(缓存)至专业存储,并创新算法扩展推理上下文窗口,满足长文本处理需求。同时,UCM具备智能分级缓存能力,可根据记忆热度在HBM、DRAM、SSD等存储介质中实现按需流动,并融合多种稀疏注意力算法,实现存算协同,大幅提高长序列场景下的TPS(每秒处理Token数)。

值得一提的是,在论坛现场,华为宣布其UCM将于今年9月正式开源,将通过开放统一的南北向接口,适配多类型推理引擎框架、算力及存储系统。此外,英伟达官网显示,前述Dynamo其实也是一个开源的模块化推理框架。

金融领域率先获得应用

记者在论坛上获悉,上述UCM技术已率先在金融典型场景进行了试点应用。华为数字金融军团CEO曹冲介绍,华为和中国银联在客户之声、智慧营销和会议助手等场景,已验证了UCM技术的性能表现。

“金融级应用需微秒级响应,而卡顿、延迟直接影响风控与交易安全。”曹冲表示,金融场景对AI推理效能有着更高的要求。而UCM技术之所以选择在金融场景率先试点落地,李国杰解释道:“金融在IT信息化以及其他技术赋能行业的建设中一直走在前列。不管是投资上,还是场景需求上,金融领域都有大量数据掘金的机会。例如把投资数据、财务数据、企业信贷数据等喂给AI,做数据分析。”

在现场,中国银联智能化创新中心副总经理杨燕明透露了上述方案的应用效果。“经过一系列优化,我们具备了几个关键能力:一是多轮对话场景中首Token的延迟降低了60%,长序列的场景可以倍数级扩展推理长度,吞吐量达到了2~5倍的提升。”

记者了解到,就当前阶段而言,这类调用外部存储介质“以查代算”的策略,为企业在权衡AI推理效率与成本之间提供了一种解决方案。不过,一个更值得深究的问题是,这种路径究竟是基于HBM等成本压力下的过渡方案,还是AI推理的长期发展趋势?

对此,华为数据存储产品线副总裁、闪存领域总裁谢黎明在接受《每日经济新闻》记者采访时表示:“大部分数据都有一定的生命周期,会存在热、温、冷三种状态。从这个角度来看,一个分层的存储介质系统是必然的趋势。对于面向推理加速的KV数据,也必然存在热、温、冷之分,我们不可能用最昂贵的热介质来存储所有数据。因此,必须采用多层介质来解决性能问题,同时平衡成本问题。”

华为数据存储产品线副总裁樊杰向记者补充道,在AI推理过程中,缓存与外置存储分工不同,前者主要解决的是短期记忆,容量有限,但是反应速度很快;后者针对的是KV Cache的长期记忆,容量更大,相当于把知识记录下来。他打了个比方:“人类通过积累,相较于前一代更具智慧,并不是因为人脑变聪明了,而在于人类不停地把知识变成了书籍,后代通过书籍从而站在上一代人的肩膀上继续前行。”

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
“尼帕病毒”来势汹汹,建议:每家备好6样东西,关键时刻能救命

“尼帕病毒”来势汹汹,建议:每家备好6样东西,关键时刻能救命

路医生健康科普
2026-01-28 12:18:49
汪小菲马筱梅基因太绝!家中“小炸毛”萌翻全网这颜值太招人疼!

汪小菲马筱梅基因太绝!家中“小炸毛”萌翻全网这颜值太招人疼!

孤酒老巷QA
2026-03-24 05:34:17
姆巴佩正在步卡卡后尘,皇马赶快续约维尼修斯吧!

姆巴佩正在步卡卡后尘,皇马赶快续约维尼修斯吧!

刘笤说体坛
2026-03-26 08:57:48
余承东宣布华为手机全面回归!大方公布CPU型号 支持5A网络 麒麟处理器全国产突破美国制裁

余承东宣布华为手机全面回归!大方公布CPU型号 支持5A网络 麒麟处理器全国产突破美国制裁

快科技
2026-03-24 15:22:21
前女友缅怀张雪峰,呼吁大家嘴下留德,曾自曝遭家暴污蔑才分手!

前女友缅怀张雪峰,呼吁大家嘴下留德,曾自曝遭家暴污蔑才分手!

古希腊掌管松饼的神
2026-03-25 15:38:23
男子买菜顺手买体彩!花4元中698万 先上班再领奖 现场捐2000元

男子买菜顺手买体彩!花4元中698万 先上班再领奖 现场捐2000元

念洲
2026-03-26 13:12:32
普通人一生的存款标准

普通人一生的存款标准

捣蛋窝
2026-03-21 11:14:00
NeurIPS拒收中国论文,计算机学会宣布抵制并警告将其移出A类目录

NeurIPS拒收中国论文,计算机学会宣布抵制并警告将其移出A类目录

DeepTech深科技
2026-03-25 22:49:10
炸裂!张雪峰遗产分配爆出大瓜

炸裂!张雪峰遗产分配爆出大瓜

互联网品牌官
2026-03-26 12:21:26
轰21+10!湖人捡漏2米13悍将真香:年薪345万,变三巨头喂饼绝配

轰21+10!湖人捡漏2米13悍将真香:年薪345万,变三巨头喂饼绝配

李喜林篮球绝杀
2026-03-26 11:34:01
40年后才揭开谜底对越真相:越南真正的溃败始于许世友的3道军令

40年后才揭开谜底对越真相:越南真正的溃败始于许世友的3道军令

鉴史录
2026-03-22 10:01:56
王曼昱看到可能会心痛!张雪峰曾放话:迟早邀你做公司代言人

王曼昱看到可能会心痛!张雪峰曾放话:迟早邀你做公司代言人

铿锵格斗
2026-03-26 13:01:34
周边5大邻国做出选择,亚洲大地震!美国知道:中国正在静待时机

周边5大邻国做出选择,亚洲大地震!美国知道:中国正在静待时机

掉了颗大白兔糖
2026-03-26 01:00:31
一字之差变味儿了!防止规模性返贫,被扭曲成“防止规模性返乡”

一字之差变味儿了!防止规模性返贫,被扭曲成“防止规模性返乡”

雪中风车
2026-03-05 14:10:29
原来她是张雪峰母亲,一生操劳全力托举儿子,却中年丧夫晚年丧子

原来她是张雪峰母亲,一生操劳全力托举儿子,却中年丧夫晚年丧子

以茶带书
2026-03-26 13:38:50
内塔尼亚胡话音刚落,城市就遭袭击,联合国出面后,以军目的曝光

内塔尼亚胡话音刚落,城市就遭袭击,联合国出面后,以军目的曝光

小小科普员
2026-03-26 14:03:46
千万不要小看F-35,虽然打不过歼-20,却是东风快递、红旗导弹的巨大威胁

千万不要小看F-35,虽然打不过歼-20,却是东风快递、红旗导弹的巨大威胁

利刃号
2026-02-02 19:07:20
回顾“91女神”琪琪:五官出众,却因天真让自己“受伤”

回顾“91女神”琪琪:五官出众,却因天真让自己“受伤”

就一点
2025-11-22 10:36:39
湖人7分险胜!差点翻车原因揭晓,4人表现太拉胯,数据一目了然

湖人7分险胜!差点翻车原因揭晓,4人表现太拉胯,数据一目了然

余飩搞笑段子
2026-03-26 11:33:35
逃难的林冲杀了收留他的王伦,这样的人进不了任何人的圈子

逃难的林冲杀了收留他的王伦,这样的人进不了任何人的圈子

凉湫瑾言
2026-03-23 13:29:51
2026-03-26 14:48:49
每日经济新闻 incentive-icons
每日经济新闻
中国主流财经全媒体平台。
1518633文章数 2724753关注度
往期回顾 全部

科技要闻

Meta高管狂分百亿期权,700名员工却下岗

头条要闻

担心特朗普突然停战 以总理下令48小时尽力摧毁伊设施

头条要闻

担心特朗普突然停战 以总理下令48小时尽力摧毁伊设施

体育要闻

35岁替补门将,凭什么入选英格兰队?

娱乐要闻

张雪峰家人首发声 不设追思会丧事从简

财经要闻

黄仁勋:芯片公司的时代已经结束了

汽车要闻

一汽奥迪A6L e-tron开启预售 CLTC最大续航815km

态度原创

时尚
家居
教育
亲子
公开课

2026年了,最好看的还是“这件针织”!

家居要闻

傍海而居 静观蝴蝶海

教育要闻

高考地理中的花海经济

亲子要闻

躺平的孩子意外觉醒了,在父母学会当“乌龟”!

公开课

李玫瑾:为什么性格比能力更重要?

无障碍浏览 进入关怀版