网易首页 > 网易号 > 正文 申请入驻

扩散语言模型推理太慢?北大团队:ODB-dLLM破解计算访存双重瓶颈

0
分享至



本研究由北京大学研究团队完成。通讯作者为李萌,北京大学人工智能研究院和集成电路学院助理教授,博导,PKU SEC Lab 负责人,他的研究兴趣集中于高效、安全人工智能加速算法和芯片,旨在通过算法到芯片的跨层次协同设计和优化,为人工智能构建高能效、高可靠、高安全的算力基础。第一作者韦临烨,北京大学集成电路学院博士一年级在读,主要研究方向为多模态高效 AI 系统和加速器设计。

基于扩散的大语言模型 (dLLM) 凭借全局解码和双向注意力机制解锁了原生的并行解码和受控生成的潜力,最近吸引了广泛的关注。例如 Fast-dLLM 的现有推理框架通过分块半自回归解码进一步实现了 dLLM 对 KV cache 的支持,挑战了传统自回归 LLMs 的统治地位。

然而,双向注意力引入的 cache 刷新机制使这一推理过程成为预填充 / 解码交错的模式,将传统自回归模型解码阶段效率的访存瓶颈限制转化为计算 / 访存瓶颈交替限制,占据了推理开销中不可忽视的一部分。此外,认为整个序列 KV 状态在分块内不变的缓存近似方式还一定程度上劣化了模型性能。

针对这一缺陷,来自北大的研究团队提出一种新的 dLLM 推理加速框架 ODB-dLLM(Orchestrating Dual-Boundaries: An Arithmetic Intensity Inspired Acceleration Framework for Diffusion Language Models)。它通过分析现有 dLLM 推理框架中交错的计算和访存瓶颈阶段,引入了自适应长度预测策略和跳跃共享推测解码,以优化 dLLM 在硬件平台上的计算访存特性,最大限度地提高推理效率。



  • 论文标题:Orchestrating Dual-Boundaries: An Arithmetic Intensity Inspired Acceleration Framework for Diffusion Language Models
  • 论文链接:https://arxiv.org/abs/2511.21759
  • Github 链接:https://github.com/PKU-SEC-Lab/ODB-dLLM

研究背景和动机


传统 dLLM 模型中任意两个 token 间的双向注意力破坏了 KV cache 应用的前提,让整个推理过程陷入每一步都执行预填充的计算瓶颈问题,没有取得超越自回归模型的实际推理速度。Fast-dLLM 及类似工作将预设定长度的输出序列划分为多个分块,只在每个分块解码的第一步执行预填充并存储全局的的 KV 状态,随后计算分块内的 tokens 并基于置信度阈值接收。当一个分块内的所有位置都被解掩码,转到下一个分块并刷新 KV cache。然而,这样的推理框架仍然存在以下挑战:

  • 交错的计算和访存瓶颈模式都限制了效率。分块半自回归解码的每个新块都会触发全局预填充以刷新 KV cache,占总推理延迟的 30-40%。随着更细粒度的并行解码设计来减少解码步数,计算密集型的预填充阶段将进一步占据主导地位。亟需一个算术强度感知的推理框架联合缓解计算和访存瓶颈。

  • 以现有的 dLLM 无法感知实际任务需求,导致预设定输出长度过长。dLLM 中的每个分块都采用双向注意力,以先前和后续令牌为条件。因此,需要固定的响应长度来控制剩余的输出空间。为了确保足够的容量,该长度通常设置为较大的默认值(例如 1024),这会在计算密集型的预填充阶段引入大量开销并导致冗余推理。

  • 硬阈值延迟了对潜在正确 token 的接受,导致更长的解码轨迹和更多的步数。在访存密集型的解码阶段,模型并行计算分块内的所有掩码 token,但仅接受置信度超过阈值的部分,而其他 token 则被重新掩码。大量正确 token 由于在当前步的置信度分数低于阈值而被推迟接收,从而导致额外的解码步骤并增加不必要延迟。与此同时,直接降低阈值又会损害模型性能。




ODB-dLLM 框架


ODB-dLLM 推理框架的目标在于协调交错的计算和访存瓶颈限制。为了减轻预设定响应长度带来的大量预填充开销,本文提出了一种自适应长度预测策略来减少冗余计算。此外,本文引入了为 dLLM 特别定制的跳跃共享推测解码方法,可在有限的算术强度下减少访存受限阶段的解码步骤。

自适应长度预测

该策略在每一轮预填充后考察整个响应序列,检测是否存在 [EOS] token。一旦识别出存在这一终止标记,就会提取其置信度分数并将其与预定义的截断阈值进行比较。如果置信度超过阈值,则响应将在该位置被截断。如果未检测到 [EOS] token,或者对应的置信度均低于阈值,则响应长度保持不变。这种渐进式策略最大限度地减少了预填充阶段的算术强度和冗余计算,随着模型的不确定性和多样性逐渐收敛还带来了性能增益。



跳跃共享推测解码

推测解码通过增加计算强度鼓励多样化预测,为访存受限场景下进一步提高解码的并行度提供了解决方案。然而,dLLM 推理的双向注意力将 token 间的因果依赖转化为全局依赖,在传统推测解码中构造的遵循严格顺序的 token tree 被全连通 token graph 所取代。因此,一方面候选 token graph 中任何独立验证的节点对都会解锁其连接边缘,从而实现更灵活的推测解码探索;另一方面任意一个 token 的改变都需要计算一个完整的新块,计算强度随候选预测的增加而迅速增大并演化为访存瓶颈,限制了推测的多样性。基于此,本文提出了两点关键设计:

1. 跳跃接收推测策略。推测解码的草稿块也同时作为中间验证块,实现草稿 token 跨块的跳跃验证和接收,从而在单次解码迭代中解掩码更多 token,在有限的推测块预算下显著提高解码效率。



2. 解码共享推测策略。考虑各推测块间的高度相似性,块内已解码 token 的 KV 状态也可以只在当前块内计算更新,并在多个推测块之间共享。随着解码的进展,推测块的计算成本逐渐降低,为更多推测快的拓展提供了机会。



实验结果:更快、更准

研究团队在两种代表性的开源扩散语言模型LLaDA-Instruct和 LLaDA-1.5 上评估了 ODB-dLLM。在多个数据集上对比 Vanilla model 和 Fast-dLLM 推理框架结果如下:





  • 团队测量了预填充长度和延迟的减少,确认了计算密集阶段有意义的算术强度节省。此外,每次预填充迭代期间响应长度的逐步收缩隐式地将模型限制在更准确的答案空间,从而比生成到 [EOS] token 后简单地截断产生更高的精度。



  • 针对访存密集阶段的推测解码,实验发现跳跃接收策略增加了每步接受的 token 数量,并通过一次解码中的多段接收减少了并行解掩码 token 间的潜在冲突。解码共享策略的引入进一步减少了解码轮次,同时优先解掩码之前未能接受但置信度较高的 token。跳跃共享推测解码因而在速度和精度上都取得了显著增益。



总结


受预填充和解码阶段异构算术强度的启发,本研究提出了 ODB-dLLM,这是一个协调计算 / 访存双边界以加速 dLLM 推理的框架。在预填充阶段,团队发现预定义的固定响应长度引入了繁重且冗余的计算开销,ODB-dLLM 采用了自适应长度预测机制,可逐步减少预填充开销和不必要的计算。在解码阶段,团队分析了扩散语言模型的计算特性,并提出了一种特别定制的跳跃共享推测解码方法,通过减少解码迭代次数来提高效率。

论文与代码均已公开,欢迎感兴趣的同学阅读、复现以及深入讨论。

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
杨幂的身材比例真是逆天,腿好长

杨幂的身材比例真是逆天,腿好长

TVB的四小花
2026-01-30 19:17:38
满载40吨黄金的日本“阿波丸”,中国打捞上岸后,所有人都愣住了

满载40吨黄金的日本“阿波丸”,中国打捞上岸后,所有人都愣住了

鉴史录
2026-01-23 10:46:34
26岁天才股神坦言:"钓鱼线"一出,立刻清仓,不是跌停就是跌不停

26岁天才股神坦言:"钓鱼线"一出,立刻清仓,不是跌停就是跌不停

股经纵横谈
2026-01-11 18:30:38
2000 万捡漏!曼联瞄准卡塞米罗接班人,性价比完爆 1 亿标王

2000 万捡漏!曼联瞄准卡塞米罗接班人,性价比完爆 1 亿标王

奶盖熊本熊
2026-02-01 08:08:22
重磅!40岁C罗拒绝为利雅得胜利出战 不满沙特联赛老板:偏袒对手

重磅!40岁C罗拒绝为利雅得胜利出战 不满沙特联赛老板:偏袒对手

风过乡
2026-02-02 06:38:53
岳父做客女婿家,提起埋在家乡一烈士名字,女婿道:那是我爷爷!

岳父做客女婿家,提起埋在家乡一烈士名字,女婿道:那是我爷爷!

兴趣知识
2026-02-01 08:57:04
《太平年》改编遭质疑,历史顾问胡耀飞回应

《太平年》改编遭质疑,历史顾问胡耀飞回应

澎湃新闻
2026-02-01 02:23:33
知名央企迎来最终审判!全烂透了,9个董监高无一清白,强制清退

知名央企迎来最终审判!全烂透了,9个董监高无一清白,强制清退

慕名而来只为你
2026-01-20 05:59:04
不打则已,打就打大战!美国预判最坏结局:开战被伊朗砍掉一条腿

不打则已,打就打大战!美国预判最坏结局:开战被伊朗砍掉一条腿

文雅笔墨
2026-02-01 18:25:02
讲一个“娱圈大姐大”凶狠报复“小三”的瓜!

讲一个“娱圈大姐大”凶狠报复“小三”的瓜!

涵豆说娱
2026-01-31 14:30:35
张本美和成功夺冠!3:0击败世界冠军,成为日本锦标赛单届4冠王

张本美和成功夺冠!3:0击败世界冠军,成为日本锦标赛单届4冠王

国乒二三事
2026-02-01 14:41:15
起飞了!“意甲10号”即将加盟中甲:最高身价1100万欧

起飞了!“意甲10号”即将加盟中甲:最高身价1100万欧

邱泽云
2026-02-01 16:11:58
1958年,张治中对主席说:有个人借我3000元未还,他官很大

1958年,张治中对主席说:有个人借我3000元未还,他官很大

芊芊子吟
2026-01-31 12:30:06
韩国恋综嘉宾人设崩塌,女嘉宾被曝当过擦边主播,举报者却跳楼了?!

韩国恋综嘉宾人设崩塌,女嘉宾被曝当过擦边主播,举报者却跳楼了?!

英国那些事儿
2026-01-31 23:21:28
智利不再“说不”:是什么让纳粹之子赢得总统大选?|907编辑部

智利不再“说不”:是什么让纳粹之子赢得总统大选?|907编辑部

澎湃新闻
2026-02-01 07:55:08
莫言:人是很奇怪的生物,你哭哭啼啼时,没有几个人真同情你,更多的是……

莫言:人是很奇怪的生物,你哭哭啼啼时,没有几个人真同情你,更多的是……

乔话
2026-01-31 22:52:04
李晨杭州狂炫67元拌川!小饭馆老板认不出

李晨杭州狂炫67元拌川!小饭馆老板认不出

情感大头说说
2026-01-30 11:32:59
今年腊月二十九除夕,四类人要穿红,3种人不要去拜年,有你吗?

今年腊月二十九除夕,四类人要穿红,3种人不要去拜年,有你吗?

阿龙美食记
2026-01-29 11:03:56
珠海这一天,高圆圆确实老了,李小冉造型被嘲土气,杨幂却赢麻了

珠海这一天,高圆圆确实老了,李小冉造型被嘲土气,杨幂却赢麻了

小徐讲八卦
2026-01-30 07:50:43
火箭军查采购旧账,九年问题集中爆雷,到底谁在装备链上动手脚?

火箭军查采购旧账,九年问题集中爆雷,到底谁在装备链上动手脚?

青烟小先生
2026-01-28 22:22:57
2026-02-02 08:19:00
机器之心Pro incentive-icons
机器之心Pro
专业的人工智能媒体
12226文章数 142562关注度
往期回顾 全部

科技要闻

10亿元宝红包突袭 复刻微信支付还是微视?

头条要闻

30岁男子如厕时猝死 妻子回忆事发前5天丈夫疼痛细节

头条要闻

30岁男子如厕时猝死 妻子回忆事发前5天丈夫疼痛细节

体育要闻

德约大度祝贺阿卡 幽默互动逗笑纳达尔

娱乐要闻

春晚第三次联排阵容曝光:全是实力派

财经要闻

黄仁勋台北"夜宴":汇聚近40位台企高管

汽车要闻

岚图汽车1月交付10515辆 同比增长31%

态度原创

艺术
手机
数码
家居
军事航空

艺术要闻

上海“高技派”地标:华润中心竣工,LV总部入驻!

手机要闻

首发2nm芯片 三星S26系列还会是安卓机皇吗?

数码要闻

显存稀缺暴涨:三款RTX 50 GPU将占一季度总供应量75%!

家居要闻

蓝调空舍 自由与个性

军事要闻

委内瑞拉外长会见美外交使团团长

无障碍浏览 进入关怀版