网易首页 > 网易号 > 正文 申请入驻

华为发布AI黑科技UCM,下个月开源

0
分享至

AI时代下,推理技术关系用户与AI交互的体验,包括回答问题的时延、答案的准确度以及复杂上下文的推理能力等,在此背景下,华为最新推出AI推理黑科技UCM(推理记忆数据管理器),可大幅降低推理时延与成本,并大幅提升推理效率。

8月12日,华为举行发布会,正式发布AI推理创新技术UCM。

据了解,目前,国外主流模型的单用户输出速度已进入200 Tokens/s区间(时延5ms),而我国普遍小于60 Tokens/s(时延50—100ms),如何解决推理效率与用户体验的难题迫在眉睫。

“高延迟、高成本是当下AI推理领域发展的主要挑战。”华为数字金融军团CEO曹冲在会上表示。

华为方面介绍,作为一款以KVCache为中心的推理加速套件,UCM融合了多类型缓存加速算法工具,分级管理推理过程中产生的KVCache记忆数据,可扩大推理上下文窗口,以实现高吞吐、低时延的推理体验,降低每Token推理成本。

在具体技术实现路径以及方面,华为相关负责人表示,UCM通过层级化自适应的全局前缀缓存技术,可实现任意物理位置、任意输入组合上的KV前缀缓存重用,在多轮对话、RAG知识检索等场景中直接调用KV缓存数据,避免重复计算,使首Token时延最大降低90%。

另外,UCM可根据记忆热度在HBM、DRAM、SSD等存储介质中自动分级缓存,同时融合多种稀疏注意力算法,实现存算深度协同,使长序列场景下TPS(每秒处理token数)提升2—22倍,降低每Token推理成本。

此外,UCM通过动态KV逐层卸载、位置编码扩展、Prefill稀疏等组合技术,将超长序列Cache分层卸载至外置专业存储,利用算法突破模型和资源限制,实现10倍级推理上下文窗口扩展。

华为相关负责人表示,当前,中国互联网企业在AI领域的投资规模仅为美国的十分之一。与此同时,国内大模型的推理体验与海外相比仍存在差距——而推理体验的不足会直接导致用户流失,进而减缓企业的投资节奏;投资收缩又会使企业难以承担高昂的推理成本,反过来进一步限制推理体验的提升,形成恶性循环。UCM能够在算力基础设施投入保持不变的前提下,显著优化推理体验,推动AI推理进入“体验提升—用户增长—投资加大—技术迭代”的商业正循环。

记者了解到,华为UCM已率先在中国银联“客户之声”“营销策划”“办公助手”三大业务场景中,开展智慧金融AI推理加速应用试点,并已取得一定成果。

“AI时代后,Token经济时代到来,目前推理过程仍存不少挑战,如何改进推理系统的体验和效率是一个重要的话题。与中国银联合作落地UCM,对于AI推理的效率来说是一个有效的突破。”华为副总裁、数据存储总裁周跃峰表示。

随着AI应用向各类实际场景深度渗透,用户规模和请求量急剧攀升,模型分析和生成的Token数更呈现指数级增长态势,最大化单Token智能承载力、优化其成本成为厂商核心目标,Token经济时代来临,训练、推理效率与体验量纲都以Token为表征。以火山引擎为例,2025年5月日均Token调用达16.4万亿,较2024年同期激增137倍。巨大的Token处理量意味着高昂运营成本——服务器维护、电力消耗持续攀升;而保障流畅推理体验又需加大算力投入。如何在两者间找到平衡,成为全行业亟待破解的难题。

在此背景下,华为计划于2025年9月正式开源UCM,届时将在魔擎社区首发,后续逐步贡献给业界主流推理引擎社区,并共享给业内所有ShareEverything(共享架构)存储厂商和生态伙伴。

“为什么要开源,是希望行业内更多人(企业)一起推动推理框架、标准的形成,这是一个大家共创标准、共同推动推理领域加速发展的过程。”华为相关负责人表示。

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
宁波这条曾经方便又热闹的小街,商铺集体凉凉?网友:路修太久,生意难做

宁波这条曾经方便又热闹的小街,商铺集体凉凉?网友:路修太久,生意难做

今日搞笑分享
2026-02-09 09:55:58
网友称买到无座票被提醒不能在静音车厢停留,12306:高铁静音车厢不发售无座票

网友称买到无座票被提醒不能在静音车厢停留,12306:高铁静音车厢不发售无座票

极目新闻
2026-02-08 19:38:45
欧智库:中国想称霸、想统一台湾都可以,前提是“请先拯救世界”

欧智库:中国想称霸、想统一台湾都可以,前提是“请先拯救世界”

阿凫爱吐槽
2026-01-07 12:21:39
美股光通讯概念股延续强势

美股光通讯概念股延续强势

财联社
2026-02-09 23:38:09
全球首家无人公司开业!OpenClaw 24小时不休,疯狂碾压打工人

全球首家无人公司开业!OpenClaw 24小时不休,疯狂碾压打工人

新智元
2026-02-08 17:54:02
冯巩南京商演现场曝光,一张嘴就是公式相声味,票价堪比郭德纲

冯巩南京商演现场曝光,一张嘴就是公式相声味,票价堪比郭德纲

离离言几许
2026-02-07 19:14:31
国学大师曾仕强:2026年,有些地方请尽量少去

国学大师曾仕强:2026年,有些地方请尽量少去

郁郁乎文
2026-02-09 21:29:32
魏博牙兵覆灭记,一场板砖与刀枪的绝望对决

魏博牙兵覆灭记,一场板砖与刀枪的绝望对决

掠影后有感
2026-02-08 11:37:31
奇怪!被CBA抛弃的罗汉琛,被媒体大赞太香了,应该感谢张庆鹏

奇怪!被CBA抛弃的罗汉琛,被媒体大赞太香了,应该感谢张庆鹏

林子说事
2026-02-09 14:30:31
66岁的黑木瞳保养太好了,看着还像2,30岁!

66岁的黑木瞳保养太好了,看着还像2,30岁!

日本物语
2026-01-27 20:53:05
日本乒乓球名将水谷隼说:中国队之所以强大,根本不是技术优势

日本乒乓球名将水谷隼说:中国队之所以强大,根本不是技术优势

篮球看比赛
2026-02-04 17:46:56
电力设备持续高景气,2026订单最多的12家龙头企业(精选名单)

电力设备持续高景气,2026订单最多的12家龙头企业(精选名单)

小陆搞笑日常
2026-02-09 17:05:59
余白:一种丰盈的轻盈

余白:一种丰盈的轻盈

疾跑的小蜗牛
2026-02-09 21:43:25
美的商城原价5999元净水机错标成509元 消费者下单4台后遭强行关闭订单

美的商城原价5999元净水机错标成509元 消费者下单4台后遭强行关闭订单

信网
2026-02-09 06:12:47
人类婴儿为什么这么能哭?在原始社会难道不怕引来野兽吗?

人类婴儿为什么这么能哭?在原始社会难道不怕引来野兽吗?

宇宙时空
2026-02-08 20:45:05
吴千语南极零下30度游泳,身体素质超强,施伯雄船上观看

吴千语南极零下30度游泳,身体素质超强,施伯雄船上观看

相思赋予谁a
2026-02-09 15:17:26
俄九枚导弹打击乌空军基地!到底发现了什么?乌军8成战备被摧毁

俄九枚导弹打击乌空军基地!到底发现了什么?乌军8成战备被摧毁

看尽人间百态
2026-02-10 00:06:59
乌克兰高兴早了,俄军中将抢救成功:不到48小时,阿联酋抓住杀手

乌克兰高兴早了,俄军中将抢救成功:不到48小时,阿联酋抓住杀手

霁寒飘雪
2026-02-09 11:35:39
亲哥去世弟弟请假未获批去奔丧被辞,公司:丧假主要适用于直系亲属,且其未经同意请假;法院判了

亲哥去世弟弟请假未获批去奔丧被辞,公司:丧假主要适用于直系亲属,且其未经同意请假;法院判了

极目新闻
2026-02-08 23:54:17
美媒评论东风-5C导弹:恐怖!若丢一枚到美国,会造成啥样的景象

美媒评论东风-5C导弹:恐怖!若丢一枚到美国,会造成啥样的景象

壹知眠羊
2026-02-08 14:13:21
2026-02-10 02:28:49
证券时报 incentive-icons
证券时报
运营主体:深圳证券时报社有限公司
868393文章数 238743关注度
往期回顾 全部

科技要闻

实测|字节新模型带着音效和复杂运镜杀疯了

头条要闻

人民日报评"南博事件":无论涉及到什么人 绝不放任

头条要闻

人民日报评"南博事件":无论涉及到什么人 绝不放任

体育要闻

不会打篮球,如何入选詹娜前男友第一阵容

娱乐要闻

央视电影活动名场面!明星站位太讲究

财经要闻

沪深北交易所优化再融资 释放3个信号

汽车要闻

长安将搭钠电池 好比汽车要装柴油机?

态度原创

本地
时尚
教育
公开课
军事航空

本地新闻

围观了北京第一届黑色羽绒服大赛,我笑疯了

冬季穿衣越简单越实用!从这些日常穿搭中收获灵感,大方又自然

教育要闻

孩子爱玩手机不爱学习?你没用对方法!

公开课

李玫瑾:为什么性格比能力更重要?

军事要闻

美伊最敏感时刻 林肯号航母迎来三位“不速之客”

无障碍浏览 进入关怀版