网易首页 > 网易号 > 正文 申请入驻

扩散LLM推理新范式:打破生成长度限制,实现动态自适应调节

0
分享至



随着 Gemini-Diffusion,Seed-Diffusion 等扩散大语言模型(DLLM)的发布,这一领域成为了工业界和学术界的热门方向。但是,当前 DLLM 存在着在推理时必须采用预设固定长度的限制,对于不同任务都需要专门调整才能达到最优效果。

为了解决这一本质的问题,香港中文大学 MMLab,上海 AI 实验室等提出 DAEDAL,赋予 DLLM 可以根据问题的具体情况自主调整回答长度的能力,弥补了 DLLM 与自回归 LLM 的关键差距,为更灵活、高效、强大的扩散大语言模型打下了基石。



  • 论文标题:Beyond Fixed: Variable-Length Denoising for Diffusion Large Language Models
  • 论文地址:https://arxiv.org/abs/2508.00819
  • 代码地址:https://github.com/Li-Jinsong/DAEDAL

DAEDAL 作为一种 Training Free 的去噪策略,从一个统一且很短的初始长度开始,让模型根据自己的需求在生成中调节长度,动态扩展,达到了和现有去噪策略在每个评测基准上精心调整生成长度得到的最佳性能相当的表现,有时甚至更胜一筹。



图 1 (a) DAEDAL 使用统一且很短的初始长度,在多个基准上取得了与精心调优的固定长度基线相当甚至更优的性能。(b) DAEDAL 能够根据每个问题,在生成过程中自适应地动态调整长度,相比之下,现有方法则对所有问题都只能采用单一的固定长度。

DAEDAL 介绍

扩散大语言模型(DLLM)潜力巨大,但其现有推理流程存在一个关键的问题:需要预定义的,固定的生成长度。与能够边思考边决定 “说” 多少的人类和自回归模型不同,现有的 DLLM 需要预先设定确切的输出长度。这导致了一个两难的困境:设置太短,模型在复杂问题上难以发挥全部实力,可能导致做错;设置太长,则会浪费大量的计算资源,同时,实验中还发现过长的生成长度可能导致性能下降。

作者在探索中发现,这一问题的解决方案就蕴藏在模型自身之中。DLLM 在生成时会不断地全局规划其整体输出,而它的预测置信度正是其内部状态的强大信号。作者发现了两种关键信号:

  • DLLM 在序列末端生成序列结束符 (EOS) 的意愿直接反映了其对全局预算的规划。当预设长度充足时,模型会自信地在末尾规划出结束区域,从而高置信度地预测 EOS。反之,当长度不足时,模型会试图利用所有可用空间来完成核心内容,因而抑制了在末尾生成 EOS 的置信度。
  • 在去噪过程中,对某个特定词元的极低预测置信度,则可作为一种局部信号,这不仅代表了模型对该词元的不确定性,更深层次地,它表明当前的局部上下文过于受限,不足以支撑一个复杂的逻辑步骤或细节的展开,或是需要插入空间对过去生成的内容进行补充和修正。



图 2 该热力图展示了在对一个长度为 128 的全掩码输入进行首次预测后,于序列末端测得的平均 EOS 词元置信度之差。该差值的计算方式为:用 “长度充足” 问题(在少于 128 长度的 setting 下被正确回答)的平均置信度减去 “长度不足” 问题(仅在长度更长的 setting 才能被正确回答)的平均置信度。图中大面积的绿色(差值 > 0)表明,对于长度充足的问题,结尾 EOS 序列置信度更高,验证了文中的核心发现。

基于发现,作者提出了 DAEDAL,一种无需训练的两阶段推理策略,利用这些内部信号,赋予 DLLM 根据每个问题的具体情况,动态自主调整回答长度的能力。



图 3 DAEDAL 与现有基线方法流程对比

1. 初始长度调整 (Initial Length Adjustment): 在去噪流程开始前,DAEDAL 从一个统一的很短初始长度出发。它会通过检测序列末端的 EOS 序列平均置信度来衡量:“对于这个任务,当前分配的长度是否充足?”。如果置信度很低,即模型规划充分利用全部长度,就表明模型认为长度预算不足。此时,DAEDAL 会通过增加 [MASK] 词元来扩展序列长度,并重复此过程,直到模型确信长度预算充足。这为任务设定了一个合理的全局规划长度。

2. 迭代式掩码插入 (Iterative Mask Insertion): 在逐步去噪的过程中,DAEDAL 会持续监控模型的置信度。如果它发现模型对某个 [MASK] 位置极不确定,便会将其标记为 “扩展点”。DAEDAL 通过将这个单个 [MASK] 替换为由多个 [MASK],动态且精准地在模型最需要的地方为序列注入 “思考空间”,以便其在回复中进行补充修补,或是有足够空间去进行更复杂的思考。

通过结合这两个阶段,不需要进行任何训练,DAEDAL 使得 DLLM 能够根据每个问题的具体情况自主调整其回答的长度,展现了强大的效果。

实验结果





图 4 DAEDAL 在 4 个基准测试上与基线方法性能对比以及生成长度可视化

DAEDAL 使用统一的短初始长度即可取得强大性能。 实验结果清晰地展示了 DAEDAL 的优越性能。尽管 DAEDAL 默认从一个较短的初始长度开始,但其两阶段的长度调整与扩展机制,不仅使其性能显著优于使用相同短初始长度的基线方法,更能达到与基线方法在所有固定长度中精心调优后的峰值性能相当、甚至在某些情况下超越后者的水平。

这一发现凸显了 DAEDAL 的有效性,并揭示了固定长度范式的内在不便之处,因为基线方法的最佳长度因不同基准而异,这更强调了动态长度适应的必要性。为了直观展示这种动态适应性,图 3 对比了 DAEDAL 所用总生成长度(N_token)的分布与基线方法所用的单一最佳长度。

DAEDAL 能自适应地找到最佳生成长度。 进一步的分析表明,DAEDAL 能智能地预估并生成恰当长度的回答。在多数情况下,DAEDAL 产生的有效词元数(E_token)与基线方法在最佳性能配置下的有效词元数相当。这表明 DAEDAL 能自适应地找到模型内在的、针对特定任务所需词元长度的 “舒适点”。基线方法的行为也印证了这一点:当设置的长度过长时,即使有效词元数可能继续增加,性能反而可能会下降。DAEDAL 的自适应特性有效避免了这种因过度扩展导致的性能下降。

DAEDAL 能够提升计算资源利用率。在取得优越准确率的同时,DAEDAL 生成的总词元数(N_token)通常低于基线方法在最佳性能 setting 下的总词元数。相近的有效词元数和更低的总词元数带来了更高的有效词元利用率(E_ratio)。这大大地提升了计算资源的利用率。

总结

DAEDAL 通过其初始长度调整(Initial Length Adjustment)和迭代式掩码插入(Iterative Mask Insertion)机制,不仅在多个基准上取得了与精心调优的固定长度基线相当甚至更优的性能,还能为每个任务自适应地分配合适的长度。这使得模型在性能和计算效率上都取得了实质性的提升。DAEDA 弥补了扩散大语言模型与自回归大语言模型在核心能力上的一个关键差距,为更灵活、高效、强大的扩散大语言模型打下了基石。

作者介绍

本文第一作者是香港中文大学 MMLab 的博士生李劲松,导师林达华教授,主要研究方向是多模态大模型和大语言模型。曾在 NeurIPS,ECCV,ACL 等顶级会议发表多篇论文,Google 学术引用超 1400 次。

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
孟良崮战役:粟裕三大特质助其全歼张灵甫74师

孟良崮战役:粟裕三大特质助其全歼张灵甫74师

历来纵横
2025-11-16 17:20:05
左手之战实力碾压!王楚钦4-1完胜袁励岑,问鼎全运会男单铜牌

左手之战实力碾压!王楚钦4-1完胜袁励岑,问鼎全运会男单铜牌

钉钉陌上花开
2025-11-16 13:24:09
36岁富豪开兰博基尼发生车祸,当场死亡!大量现金散落在高速路上

36岁富豪开兰博基尼发生车祸,当场死亡!大量现金散落在高速路上

最江阴
2025-11-16 00:11:00
不瞒了!马筱梅挺大肚直播,食欲大增超爱吃肉,张兰:别太辛苦

不瞒了!马筱梅挺大肚直播,食欲大增超爱吃肉,张兰:别太辛苦

小海娱计
2025-11-14 14:08:43
史上规模最大的成人游戏节上线Steam!年度游戏评选中

史上规模最大的成人游戏节上线Steam!年度游戏评选中

游民星空
2025-11-15 11:05:00
日本佳子公主被曝当众不穿内衣,遭批过于暴露,日网友炸锅了:有辱国格!

日本佳子公主被曝当众不穿内衣,遭批过于暴露,日网友炸锅了:有辱国格!

日本物语
2025-10-13 21:16:00
为什么国务院和中央军委可以决定征召36周岁至45周岁男性服役?

为什么国务院和中央军委可以决定征召36周岁至45周岁男性服役?

混沌录
2025-10-20 19:44:05
25球赛季准金靴!山东泰山却要拱手送给上海申花?引发外界热议

25球赛季准金靴!山东泰山却要拱手送给上海申花?引发外界热议

罗掌柜体育
2025-11-16 17:34:51
科索沃队史首次杀入世欧预附加赛,并保有末轮直通世界杯的可能

科索沃队史首次杀入世欧预附加赛,并保有末轮直通世界杯的可能

懂球帝
2025-11-16 12:12:22
日本为什么不怕中国?俄罗斯专家一席话点醒国人​

日本为什么不怕中国?俄罗斯专家一席话点醒国人​

近史谈
2025-11-06 21:16:03
神兽为何变成了淫兽?

神兽为何变成了淫兽?

最爱历史
2025-11-16 19:41:07
樊振东距离乒乓球男单GOAT还有多远?战绩超越前辈马龙并非不可能

樊振东距离乒乓球男单GOAT还有多远?战绩超越前辈马龙并非不可能

杨华评论
2025-11-16 19:33:55
刚刚确认:寒潮警报!-4℃!最冷在这天早晨!好消息是……

刚刚确认:寒潮警报!-4℃!最冷在这天早晨!好消息是……

浙江天气
2025-11-16 11:29:43
某音网红聂小雨,迷人的黄金三围,网友:我不行了!

某音网红聂小雨,迷人的黄金三围,网友:我不行了!

健身迷
2025-11-15 10:21:29
细思极恐!为什么年轻人易得肠癌?元凶食物你可能天天在吃!

细思极恐!为什么年轻人易得肠癌?元凶食物你可能天天在吃!

徐德文科学频道
2025-11-16 20:30:41
争议!中国排协晒八强照,却独缺四队,朱婷李盈莹在列

争议!中国排协晒八强照,却独缺四队,朱婷李盈莹在列

跑者排球视角
2025-11-16 23:20:02
红果杀疯了!24小时7000万热度!播放破亿甜剧!这两组CP直接封神

红果杀疯了!24小时7000万热度!播放破亿甜剧!这两组CP直接封神

TVB的四小花
2025-11-15 12:01:19
日系车败退中国:2.9L油耗击碎“省油神话”,00后为何不再买账?

日系车败退中国:2.9L油耗击碎“省油神话”,00后为何不再买账?

财经保探长
2025-09-11 22:20:43
5-4!塞尔比四连鞭斩获争冠先机,冠中冠邀请赛冠军归属存悬念!

5-4!塞尔比四连鞭斩获争冠先机,冠中冠邀请赛冠军归属存悬念!

世界体坛观察家
2025-11-17 00:27:29
亚朵大战全季,传统五星级酒店输麻了

亚朵大战全季,传统五星级酒店输麻了

IC实验室
2025-11-13 15:50:52
2025-11-17 02:39:00
机器之心Pro incentive-icons
机器之心Pro
专业的人工智能媒体
11720文章数 142505关注度
往期回顾 全部

科技要闻

雷军,怒了!刚刚连发多条微博

头条要闻

中国公民需谨慎前往日本 四大原因披露

头条要闻

中国公民需谨慎前往日本 四大原因披露

体育要闻

最佳新秀候选!2028美国男篮有他一个位置

娱乐要闻

CEO爆料肖战《藏海传》狂赚几十亿!

财经要闻

房源暗中调价 央企举报广州国资房企

汽车要闻

"冰彩沙"全配齐 红旗HS6 PHEV预售17.88万起

态度原创

房产
旅游
手机
数码
游戏

房产要闻

首开狂卖6.68亿!海口这个顶级教育红盘,引爆海口楼市!

旅游要闻

一票游多日,一举能多得|新京报社论

手机要闻

古尔曼:苹果iPhone正经历史上最大变革,iPhone 18/Pro分开发布

数码要闻

华为鸿蒙HarmonyOS 6.0.0.112版本首曝,支持电脑投平板

《纪元117:罗马和平》多人游戏问题大 育碧承诺修复

无障碍浏览 进入关怀版