网易首页 > 网易号 > 正文 申请入驻

英伟达、港大等发布创新KV缓存,实现扩散模型无训练加速

0
分享至

扩散语言模型与传统的自回归模型(如GPT系列)逐个生成单词或字符的方式不同,主要通过逐步去除文本中的噪声来生成高质量的文本,能在单次迭代中生成多个单词,生成效率也就更高。

但在实际应用中多数开源的扩散语言模型在推理效率上往往不如自回归模型,主要是由缺乏键值(KV)缓存支持和并行解码时生成质量下降两大原因造成。

所以,英伟达、香港大学和麻省理工的研究人员联合提出了Fast-dLLM来解决这些难题。

KV缓存是自回归模型中用于加速推理的关键技术。通过存储和重用先前计算的注意力状态,减少了重复计算,从而显著提高了生成速度。而扩散语言模型由于是双向注意力机制,直接应用KV缓存并不容易。

在Fast-dLLM架构中,文本生成过程被划分为多个块,每个块包含一定数量的token。这种块状生成方式的核心在于,允许模型在生成一个块之前,预先计算并存储其他块的KV缓存。

在生成过程中,模型会重用这些缓存的KV激活,从而避免了重复计算。这种近似KV缓存机制的关键在于,它利用了KV激活在相邻推理步骤中的高度相似性。

例如,在生成一个块之前,模型会针对其他块展开计算,并存储对应的 KV Cache,以便后续步骤能够进行重用。当完成一个块的生成后,再重新对所有块的KV Cache 予以计算。这种以块为单位的生成方式,在保障模型性能基本稳定的同时,成功减少了大量冗余计算。

尽管KV缓存机制显著提升了扩散语言模型的推理速度,但在并行解码时,生成质量往往会下降。这是因为扩散型模型在解码时假设了条件独立性,而实际上,标记之间可能存在复杂的依赖关系。这种依赖关系的破坏会导致生成文本的连贯性和准确性下降。

为了解决这一问题,Fast-dLLM提出了一种基于置信度的平行解码策略。Fast-dLLM在每个解码步骤中计算每个标记的置信度,并选择置信度超过阈值的标记进行解码。如果没有标记的置信度超过阈值,则模型会选择置信度最高的标记进行解码,以确保解码过程能够继续进行。

这种基于置信度的解码策略的关键在于,它能够在高置信度的情况下,安全地进行并行解码,而不会引入过多的错误。

为了测试dLLM性能,研究人员使用NVIDIA A100 80GB GPU对LLaDA和Dream两种扩散语言模型进行全面评估,测试基准包括GSM8K、MATH、HumanEval和MBPP四个数据集,涵盖数学推理与代码生成等任务。

在KV缓存机制测试中,块大小设为4至32。结果显示,块大小32时吞吐量与准确性最佳,吞吐量达54.4 tokens/s,准确率78.5%;而块大小8时吞吐量降至49.2 tokens/s,准确率略升至79.3%,但资源消耗较大。块大小64则因上下文不匹配导致准确率下降。

并行解码测试采用置信度阈值0.5至1.0,默认值0.9。

动态阈值策略优于固定token数基线。以GSM8K(5-shot)为例,阈值0.9时每步处理2个token,准确率78.5%;固定解码每步2 token时准确率79.2%。降低阈值至0.7时,每步处理4 token,准确率仍达79.3%,显示策略灵活性强。

整体吞吐量方面,LLaDA模型GSM8K(5-shot,生成长度256)任务中,仅用KV Cache加速3.2倍至21.2 tokens/s,并行解码加速2.5倍至16.5 tokens/s,二者结合加速8.1倍至54.4 tokens/s。生成长度1024时端到端加速达27.6倍。

Dream模型MBPP(3-shot,生成长度512)任务中,结合策略加速7.8倍至73.6 tokens/s;GSM8K(5-shot,生成长度512)加速5.6倍至42.9 tokens/s。

准确性方面,LLaDA任务中准确率仅下降0.8个百分点至78.5%;Dream的HumanEval任务准确率反升至54.3%。所有测试准确率波动均在1-2个百分点内,表明Fast-dLLM在加速同时有效保持生成质量。

本文素材来源英伟达,如有侵权请联系删除

报告下载

大 佬观点分享

关于RPA、AI、企业数字化转型

(点击文字即可阅读)

| |

| | |


| | |

| | |

| |

行业知识交流分享,结识扩展人脉圈层

公众号后台回复【RPA】或者【流程挖掘】

可受邀加入相关的交流群

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
黄晓明捧的新人女孩一露脸,弹幕就疯狂刷屏:好眼熟啊!

黄晓明捧的新人女孩一露脸,弹幕就疯狂刷屏:好眼熟啊!

木子爱娱乐大号
2026-03-31 15:24:44
比披丝巾更可怕的是“瑜伽裤外穿”,廉价又卡裆,三角区更尴尬

比披丝巾更可怕的是“瑜伽裤外穿”,廉价又卡裆,三角区更尴尬

世界圈
2026-03-31 00:20:03
俄罗斯10万吨石油抵达古巴,特朗普:没有任何意见!遭美国封锁,古巴3个月未接收油轮,多次大停电,民众烧木炭煮饭

俄罗斯10万吨石油抵达古巴,特朗普:没有任何意见!遭美国封锁,古巴3个月未接收油轮,多次大停电,民众烧木炭煮饭

每日经济新闻
2026-04-01 00:46:06
3连胜!杜兰特27+8,谢泼德20+5,火箭全力冲第四,西部没悬念了

3连胜!杜兰特27+8,谢泼德20+5,火箭全力冲第四,西部没悬念了

巴叔GO聊体育
2026-04-01 10:53:32
哈佛大学研究显示:每月性行为频次≥21次,可以大幅降低患癌风险

哈佛大学研究显示:每月性行为频次≥21次,可以大幅降低患癌风险

黯泉
2026-03-29 12:00:55
张雪峰办公室 “诡异” 一角引热议!黑白照 + 香炉 网友:不吉利

张雪峰办公室 “诡异” 一角引热议!黑白照 + 香炉 网友:不吉利

魔都姐姐杂谈
2026-03-30 19:57:02
混不下去了:皇家马德里有意在今年夏天放4500万欧元前锋离开

混不下去了:皇家马德里有意在今年夏天放4500万欧元前锋离开

本泽体育
2026-04-01 05:46:37
金平日:与金正日争权失败,驻外30年躲过暗杀,因这件事允许回国

金平日:与金正日争权失败,驻外30年躲过暗杀,因这件事允许回国

阿胡
2025-04-03 13:59:42
“布什”号起航 美军或在中东部署第三艘航母

“布什”号起航 美军或在中东部署第三艘航母

新京报
2026-04-01 07:26:41
直降3519元!新iPhone 又降价了,这次真的离谱啊

直降3519元!新iPhone 又降价了,这次真的离谱啊

科技堡垒
2026-03-31 10:56:16
演员陈妍希突发意外!已紧急手术

演员陈妍希突发意外!已紧急手术

大象新闻
2026-03-31 19:13:09
公安部亮剑!2026民生乱象零容忍,再不整治普通人寸步难行

公安部亮剑!2026民生乱象零容忍,再不整治普通人寸步难行

叮当当科技
2026-04-01 05:43:23
重磅!人社部:职称评审将迎重大调整,这类人员或将被撤销职称

重磅!人社部:职称评审将迎重大调整,这类人员或将被撤销职称

华医网
2026-04-01 05:34:18
蒋介石孙子召开发布会,提出“两蒋”移灵大陆,2句话让世人唏嘘

蒋介石孙子召开发布会,提出“两蒋”移灵大陆,2句话让世人唏嘘

老谢谈史
2026-03-18 18:33:35
玲花唇语被破解!曾毅扔伞那一刻,她嘟囔的话太真实了

玲花唇语被破解!曾毅扔伞那一刻,她嘟囔的话太真实了

可乐谈情感
2026-03-31 16:44:47
特朗普质问北约:不帮美国,美国凭什么帮你?德国回应

特朗普质问北约:不帮美国,美国凭什么帮你?德国回应

道德经
2026-03-31 00:14:31
郑丽文访陆名单公布,赖清德想拦也拦不住,日本已对华提交申请

郑丽文访陆名单公布,赖清德想拦也拦不住,日本已对华提交申请

傲傲讲历史
2026-04-01 07:20:38
78岁林子祥携家人赴越南度假,65岁叶蒨文白发牵小孙女气质超佳

78岁林子祥携家人赴越南度假,65岁叶蒨文白发牵小孙女气质超佳

动物奇奇怪怪
2026-04-01 00:06:48
心源性猝死的人越来越多?医生强调:宁可打打牌,建议别做这7事

心源性猝死的人越来越多?医生强调:宁可打打牌,建议别做这7事

医学原创故事会
2026-03-29 23:50:13
0-0,世界第1多一人仍不胜,遭世界第30逼平,18岁天才亚马尔哑火

0-0,世界第1多一人仍不胜,遭世界第30逼平,18岁天才亚马尔哑火

侧身凌空斩
2026-04-01 04:58:22
2026-04-01 11:20:49
RPA中国 incentive-icons
RPA中国
RPA行业生态平台
2800文章数 1268关注度
往期回顾 全部

科技要闻

营收翻倍、巨亏31亿!中国大模型太烧钱了

头条要闻

牛弹琴:战争开始烂尾 特朗普要跑了以色列目瞪口呆

头条要闻

牛弹琴:战争开始烂尾 特朗普要跑了以色列目瞪口呆

体育要闻

美加墨梦碎!意大利连续三届无缘世界杯

娱乐要闻

《月鳞绮纪》空降 鞠婧祎却被举报偷税

财经要闻

电商出售械三水光针 机构倒货or假货猖獗?

汽车要闻

综合续航1525km 博越REV上市惊喜价10.79万元起

态度原创

时尚
本地
游戏
手机
艺术

“灰色阔腿裤"今年春天火爆了,怎么搭都时髦高级!

本地新闻

春日吃花第五期——江西

《Warframe》社区总监Megan专访:激情与热爱

手机要闻

一天体验卡到期!一觉醒来国行版苹果AI被收回 iPhone用户继续等

艺术要闻

Alexandra Manukyan油画选刊(二)

无障碍浏览 进入关怀版