网易首页 > 网易号 > 正文 申请入驻

英伟达、港大等发布创新KV缓存,实现扩散模型无训练加速

0
分享至

扩散语言模型与传统的自回归模型(如GPT系列)逐个生成单词或字符的方式不同,主要通过逐步去除文本中的噪声来生成高质量的文本,能在单次迭代中生成多个单词,生成效率也就更高。

但在实际应用中多数开源的扩散语言模型在推理效率上往往不如自回归模型,主要是由缺乏键值(KV)缓存支持和并行解码时生成质量下降两大原因造成。

所以,英伟达、香港大学和麻省理工的研究人员联合提出了Fast-dLLM来解决这些难题。

KV缓存是自回归模型中用于加速推理的关键技术。通过存储和重用先前计算的注意力状态,减少了重复计算,从而显著提高了生成速度。而扩散语言模型由于是双向注意力机制,直接应用KV缓存并不容易。

在Fast-dLLM架构中,文本生成过程被划分为多个块,每个块包含一定数量的token。这种块状生成方式的核心在于,允许模型在生成一个块之前,预先计算并存储其他块的KV缓存。

在生成过程中,模型会重用这些缓存的KV激活,从而避免了重复计算。这种近似KV缓存机制的关键在于,它利用了KV激活在相邻推理步骤中的高度相似性。

例如,在生成一个块之前,模型会针对其他块展开计算,并存储对应的 KV Cache,以便后续步骤能够进行重用。当完成一个块的生成后,再重新对所有块的KV Cache 予以计算。这种以块为单位的生成方式,在保障模型性能基本稳定的同时,成功减少了大量冗余计算。

尽管KV缓存机制显著提升了扩散语言模型的推理速度,但在并行解码时,生成质量往往会下降。这是因为扩散型模型在解码时假设了条件独立性,而实际上,标记之间可能存在复杂的依赖关系。这种依赖关系的破坏会导致生成文本的连贯性和准确性下降。

为了解决这一问题,Fast-dLLM提出了一种基于置信度的平行解码策略。Fast-dLLM在每个解码步骤中计算每个标记的置信度,并选择置信度超过阈值的标记进行解码。如果没有标记的置信度超过阈值,则模型会选择置信度最高的标记进行解码,以确保解码过程能够继续进行。

这种基于置信度的解码策略的关键在于,它能够在高置信度的情况下,安全地进行并行解码,而不会引入过多的错误。

为了测试dLLM性能,研究人员使用NVIDIA A100 80GB GPU对LLaDA和Dream两种扩散语言模型进行全面评估,测试基准包括GSM8K、MATH、HumanEval和MBPP四个数据集,涵盖数学推理与代码生成等任务。

在KV缓存机制测试中,块大小设为4至32。结果显示,块大小32时吞吐量与准确性最佳,吞吐量达54.4 tokens/s,准确率78.5%;而块大小8时吞吐量降至49.2 tokens/s,准确率略升至79.3%,但资源消耗较大。块大小64则因上下文不匹配导致准确率下降。

并行解码测试采用置信度阈值0.5至1.0,默认值0.9。

动态阈值策略优于固定token数基线。以GSM8K(5-shot)为例,阈值0.9时每步处理2个token,准确率78.5%;固定解码每步2 token时准确率79.2%。降低阈值至0.7时,每步处理4 token,准确率仍达79.3%,显示策略灵活性强。

整体吞吐量方面,LLaDA模型GSM8K(5-shot,生成长度256)任务中,仅用KV Cache加速3.2倍至21.2 tokens/s,并行解码加速2.5倍至16.5 tokens/s,二者结合加速8.1倍至54.4 tokens/s。生成长度1024时端到端加速达27.6倍。

Dream模型MBPP(3-shot,生成长度512)任务中,结合策略加速7.8倍至73.6 tokens/s;GSM8K(5-shot,生成长度512)加速5.6倍至42.9 tokens/s。

准确性方面,LLaDA任务中准确率仅下降0.8个百分点至78.5%;Dream的HumanEval任务准确率反升至54.3%。所有测试准确率波动均在1-2个百分点内,表明Fast-dLLM在加速同时有效保持生成质量。

本文素材来源英伟达,如有侵权请联系删除

报告下载

大 佬观点分享

关于RPA、AI、企业数字化转型

(点击文字即可阅读)

| |

| | |


| | |

| | |

| |

行业知识交流分享,结识扩展人脉圈层

公众号后台回复【RPA】或者【流程挖掘】

可受邀加入相关的交流群

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
以色列现在才恍然大悟,发现自己上当了,可惜已经来不及了

以色列现在才恍然大悟,发现自己上当了,可惜已经来不及了

农夫史记
2026-06-28 20:53:52
走面风波升级,“一言不发”的冯小刚,终于不再顾及所谓的体面!

走面风波升级,“一言不发”的冯小刚,终于不再顾及所谓的体面!

TVB的四小花
2026-06-29 03:04:38
勇士队在关注勒布朗·詹姆斯动向的同时,锁定三位自由球员目标

勇士队在关注勒布朗·詹姆斯动向的同时,锁定三位自由球员目标

好火子
2026-06-29 03:56:39
3换3!交易达成!短短八年,30人全部换队

3换3!交易达成!短短八年,30人全部换队

篮球教学论坛
2026-06-29 03:33:33
局势恶化,岛内开始备战,台军却发现:解放军的战力,被严重低估

局势恶化,岛内开始备战,台军却发现:解放军的战力,被严重低估

涵豆说娱
2026-06-27 23:34:23
出大事了!网传福耀科大校长王树国论文涉嫌抄袭被举报…

出大事了!网传福耀科大校长王树国论文涉嫌抄袭被举报…

慧翔百科
2026-06-23 08:29:42
中国44年来首次试射洲际导弹,全球反应堪比好莱坞大片

中国44年来首次试射洲际导弹,全球反应堪比好莱坞大片

烽火三月佳人三千
2026-06-25 14:21:42
沉默45年,中国第二轮"严打"终于来了!目标改变总体战正式打响

沉默45年,中国第二轮"严打"终于来了!目标改变总体战正式打响

细说职场
2026-06-26 16:46:36
东大玩阳谋有多牛 看网友讲述外国人不是我们的对手真不是没道理

东大玩阳谋有多牛 看网友讲述外国人不是我们的对手真不是没道理

侃神评故事
2026-06-29 07:16:43
1亿中锋仅要1个首轮!交易市场最超值的大鱼出现,湖人等多队哄抢

1亿中锋仅要1个首轮!交易市场最超值的大鱼出现,湖人等多队哄抢

你的篮球频道
2026-06-28 11:57:08
克洛普:梅西、C罗和萨拉赫都不完美,但比我们更接近完美

克洛普:梅西、C罗和萨拉赫都不完美,但比我们更接近完美

懂球帝
2026-06-28 21:27:47
谢霆锋西安巡演办大事!王菲带《主角》剧组后台聚餐,苟师笑开花

谢霆锋西安巡演办大事!王菲带《主角》剧组后台聚餐,苟师笑开花

草莓解说体育
2026-06-28 18:30:39
追随梅西的脚步:莱万多夫斯基与美职联球队正式达成协议

追随梅西的脚步:莱万多夫斯基与美职联球队正式达成协议

本泽体育
2026-06-29 05:46:39
意媒:维拉愿降大马丁转会费,其价格将不超1000万欧

意媒:维拉愿降大马丁转会费,其价格将不超1000万欧

懂球帝
2026-06-28 18:58:14
大陆已经在做解放台湾的战争准备了,最明显信号是对美态度变了。

大陆已经在做解放台湾的战争准备了,最明显信号是对美态度变了。

阿七说史
2026-06-25 15:26:56
什么东西让你体会到贵有贵的道理?网友:买完之后真香了!

什么东西让你体会到贵有贵的道理?网友:买完之后真香了!

阿康四岁啦
2026-06-26 10:40:55
法拉利领队认了:跟不上节奏,自己把奥地利站玩崩

法拉利领队认了:跟不上节奏,自己把奥地利站玩崩

体坛观察猿
2026-06-29 00:28:53
湖人首轮签获顶级中锋,十年等待终如愿

湖人首轮签获顶级中锋,十年等待终如愿

吴朑爱游泳
2026-06-28 20:11:18
中国正在崛起的3座城市,有望赶上北上广深,晋升为国际大都市!

中国正在崛起的3座城市,有望赶上北上广深,晋升为国际大都市!

混沌录
2026-06-27 00:10:55
警钟:月嫂、月子中心托管,正在悄悄毁掉孩子,让安全感缺失!

警钟:月嫂、月子中心托管,正在悄悄毁掉孩子,让安全感缺失!

小武侃风云
2026-06-28 07:47:51
2026-06-29 08:11:00
RPA中国 incentive-icons
RPA中国
RPA行业生态平台
2803文章数 1268关注度
往期回顾 全部

科技要闻

DeepSeek最新论文:如何让大模型跑得更快

头条要闻

民办高校被指禁止小米汽车入校 校方回应

头条要闻

民办高校被指禁止小米汽车入校 校方回应

体育要闻

两周飞5万公里!因凡蒂诺遭环保人士猛批

娱乐要闻

曾沛慈拿下《乘风2026》年度总冠军

财经要闻

省钱,我只服梁文锋

汽车要闻

搭载华为乾崑六件套 东风奕派M8预售19.98万起

态度原创

本地
房产
数码
健康
军事航空

本地新闻

世界杯球迷节:比球赛更好玩的派对

房产要闻

全国高考大放水,300分就能上本科!论上岸率,海南没输过!

数码要闻

手机秒变掌机!Android 17拟推出折叠屏专用虚拟游戏手柄

“无糖汤圆”是否隐藏着健康陷阱?

军事要闻

特朗普又发文威胁:伊朗将不复存在

无障碍浏览 进入关怀版