网易首页 > 网易号 > 正文 申请入驻

扩散LLM推理新范式:打破生成长度限制,实现动态自适应调节

0
分享至

随着 Gemini-Diffusion,Seed-Diffusion 等扩散大语言模型(DLLM)的发布,这一领域成为了工业界和学术界的热门方向。但是,当前 DLLM 存在着在推理时必须采用预设固定长度的限制,对于不同任务都需要专门调整才能达到最优效果。

为了解决这一本质的问题,香港中文大学 MMLab,上海 AI 实验室等提出 DAEDAL,赋予 DLLM 可以根据问题的具体情况自主调整回答长度的能力,弥补了 DLLM 与自回归 LLM 的关键差距,为更灵活、高效、强大的扩散大语言模型打下了基石。

  • 论文标题:Beyond Fixed: Variable-Length Denoising for Diffusion Large Language Models
  • 论文地址:https://arxiv.org/abs/2508.00819
  • 代码地址:https://github.com/Li-Jinsong/DAEDAL

DAEDAL 作为一种 Training Free 的去噪策略,从一个统一且很短的初始长度开始,让模型根据自己的需求在生成中调节长度,动态扩展,达到了和现有去噪策略在每个评测基准上精心调整生成长度得到的最佳性能相当的表现,有时甚至更胜一筹。

图 1 (a) DAEDAL 使用统一且很短的初始长度,在多个基准上取得了与精心调优的固定长度基线相当甚至更优的性能。(b) DAEDAL 能够根据每个问题,在生成过程中自适应地动态调整长度,相比之下,现有方法则对所有问题都只能采用单一的固定长度。

DAEDAL 介绍

扩散大语言模型(DLLM)潜力巨大,但其现有推理流程存在一个关键的问题:需要预定义的,固定的生成长度。与能够边思考边决定 “说” 多少的人类和自回归模型不同,现有的 DLLM 需要预先设定确切的输出长度。这导致了一个两难的困境:设置太短,模型在复杂问题上难以发挥全部实力,可能导致做错;设置太长,则会浪费大量的计算资源,同时,实验中还发现过长的生成长度可能导致性能下降。

作者在探索中发现,这一问题的解决方案就蕴藏在模型自身之中。DLLM 在生成时会不断地全局规划其整体输出,而它的预测置信度正是其内部状态的强大信号。作者发现了两种关键信号:

  • DLLM 在序列末端生成序列结束符 (EOS) 的意愿直接反映了其对全局预算的规划。当预设长度充足时,模型会自信地在末尾规划出结束区域,从而高置信度地预测 EOS。反之,当长度不足时,模型会试图利用所有可用空间来完成核心内容,因而抑制了在末尾生成 EOS 的置信度。
  • 在去噪过程中,对某个特定词元的极低预测置信度,则可作为一种局部信号,这不仅代表了模型对该词元的不确定性,更深层次地,它表明当前的局部上下文过于受限,不足以支撑一个复杂的逻辑步骤或细节的展开,或是需要插入空间对过去生成的内容进行补充和修正。

图 2 该热力图展示了在对一个长度为 128 的全掩码输入进行首次预测后,于序列末端测得的平均 EOS 词元置信度之差。该差值的计算方式为:用 “长度充足” 问题(在少于 128 长度的 setting 下被正确回答)的平均置信度减去 “长度不足” 问题(仅在长度更长的 setting 才能被正确回答)的平均置信度。图中大面积的绿色(差值 > 0)表明,对于长度充足的问题,结尾 EOS 序列置信度更高,验证了文中的核心发现。

基于发现,作者提出了 DAEDAL,一种无需训练的两阶段推理策略,利用这些内部信号,赋予 DLLM 根据每个问题的具体情况,动态自主调整回答长度的能力。

图 3 DAEDAL 与现有基线方法流程对比

1. 初始长度调整 (Initial Length Adjustment): 在去噪流程开始前,DAEDAL 从一个统一的很短初始长度出发。它会通过检测序列末端的 EOS 序列平均置信度来衡量:“对于这个任务,当前分配的长度是否充足?”。如果置信度很低,即模型规划充分利用全部长度,就表明模型认为长度预算不足。此时,DAEDAL 会通过增加 [MASK] 词元来扩展序列长度,并重复此过程,直到模型确信长度预算充足。这为任务设定了一个合理的全局规划长度。

2. 迭代式掩码插入 (Iterative Mask Insertion): 在逐步去噪的过程中,DAEDAL 会持续监控模型的置信度。如果它发现模型对某个 [MASK] 位置极不确定,便会将其标记为 “扩展点”。DAEDAL 通过将这个单个 [MASK] 替换为由多个 [MASK],动态且精准地在模型最需要的地方为序列注入 “思考空间”,以便其在回复中进行补充修补,或是有足够空间去进行更复杂的思考。

通过结合这两个阶段,不需要进行任何训练,DAEDAL 使得 DLLM 能够根据每个问题的具体情况自主调整其回答的长度,展现了强大的效果。

实验结果

图 4 DAEDAL 在 4 个基准测试上与基线方法性能对比以及生成长度可视化

DAEDAL 使用统一的短初始长度即可取得强大性能。 实验结果清晰地展示了 DAEDAL 的优越性能。尽管 DAEDAL 默认从一个较短的初始长度开始,但其两阶段的长度调整与扩展机制,不仅使其性能显著优于使用相同短初始长度的基线方法,更能达到与基线方法在所有固定长度中精心调优后的峰值性能相当、甚至在某些情况下超越后者的水平。

这一发现凸显了 DAEDAL 的有效性,并揭示了固定长度范式的内在不便之处,因为基线方法的最佳长度因不同基准而异,这更强调了动态长度适应的必要性。为了直观展示这种动态适应性,图 3 对比了 DAEDAL 所用总生成长度(N_token)的分布与基线方法所用的单一最佳长度。

DAEDAL 能自适应地找到最佳生成长度。 进一步的分析表明,DAEDAL 能智能地预估并生成恰当长度的回答。在多数情况下,DAEDAL 产生的有效词元数(E_token)与基线方法在最佳性能配置下的有效词元数相当。这表明 DAEDAL 能自适应地找到模型内在的、针对特定任务所需词元长度的 “舒适点”。基线方法的行为也印证了这一点:当设置的长度过长时,即使有效词元数可能继续增加,性能反而可能会下降。DAEDAL 的自适应特性有效避免了这种因过度扩展导致的性能下降。

DAEDAL 能够提升计算资源利用率。在取得优越准确率的同时,DAEDAL 生成的总词元数(N_token)通常低于基线方法在最佳性能 setting 下的总词元数。相近的有效词元数和更低的总词元数带来了更高的有效词元利用率(E_ratio)。这大大地提升了计算资源的利用率。

总结

DAEDAL 通过其初始长度调整(Initial Length Adjustment)和迭代式掩码插入(Iterative Mask Insertion)机制,不仅在多个基准上取得了与精心调优的固定长度基线相当甚至更优的性能,还能为每个任务自适应地分配合适的长度。这使得模型在性能和计算效率上都取得了实质性的提升。DAEDA 弥补了扩散大语言模型与自回归大语言模型在核心能力上的一个关键差距,为更灵活、高效、强大的扩散大语言模型打下了基石。

作者介绍

本文第一作者是香港中文大学 MMLab 的博士生李劲松,导师林达华教授,主要研究方向是多模态大模型和大语言模型。曾在 NeurIPS,ECCV,ACL 等顶级会议发表多篇论文,Google 学术引用超 1400 次。

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
中国不当冤大头了!中科院停付国际期刊发表费,老外专家也急了

中国不当冤大头了!中科院停付国际期刊发表费,老外专家也急了

青青子衿
2026-02-27 20:32:03
以色列领空已正式关闭

以色列领空已正式关闭

界面新闻
2026-02-28 14:45:05
一位香港程序员的“北上抗癌”路

一位香港程序员的“北上抗癌”路

经济观察报
2026-02-28 11:05:07
火爆冲突!多尔特绊倒约基奇二级恶犯被驱逐 约基奇推搡杰林均吃T

火爆冲突!多尔特绊倒约基奇二级恶犯被驱逐 约基奇推搡杰林均吃T

醉卧浮生
2026-02-28 12:59:52
多国撤人、双航母就位,特朗普就伊朗问题释放最新信号

多国撤人、双航母就位,特朗普就伊朗问题释放最新信号

齐鲁壹点
2026-02-28 07:01:15
六位快乐的罕见病女孩相约长沙录歌:一定要见面,怕再失去我们中的任何一个

六位快乐的罕见病女孩相约长沙录歌:一定要见面,怕再失去我们中的任何一个

潇湘晨报
2026-02-27 22:17:26
以色列正准备4天的联合进攻

以色列正准备4天的联合进攻

界面新闻
2026-02-28 15:08:56
老铺黄金2026年首轮涨价20%至30%,去年三次调价累计涨超45%

老铺黄金2026年首轮涨价20%至30%,去年三次调价累计涨超45%

每日经济新闻
2026-02-28 10:18:48
图讯 | 伊朗德黑兰市中心景象

图讯 | 伊朗德黑兰市中心景象

环球网资讯
2026-02-28 15:14:21
建业集团董事长胡葆森滞留香港

建业集团董事长胡葆森滞留香港

地产微资讯
2026-02-28 12:39:40
美国防部施压Anthropic!谷歌、OpenAI 200余名员工联名声援Anthropic

美国防部施压Anthropic!谷歌、OpenAI 200余名员工联名声援Anthropic

爆角追踪
2026-02-27 16:51:58
对攻大战被打爆!林诗栋2-4不敌苦主,遭遇交手4连败无缘卫冕

对攻大战被打爆!林诗栋2-4不敌苦主,遭遇交手4连败无缘卫冕

钉钉陌上花开
2026-02-28 14:15:44
阿富汗被巴基斯坦暴捶:塔利班军事依旧简陋,财政多用于宗教建设

阿富汗被巴基斯坦暴捶:塔利班军事依旧简陋,财政多用于宗教建设

黄娜老师
2026-02-27 22:32:30
重大进展!伊朗作出“前所未有”承诺:同意永远不拥有可制造核武器的核材料,将实现“零积累、零库存”,并接受全面核查!特朗普最新表态

重大进展!伊朗作出“前所未有”承诺:同意永远不拥有可制造核武器的核材料,将实现“零积累、零库存”,并接受全面核查!特朗普最新表态

每日经济新闻
2026-02-28 10:40:45
最高领袖办公室附近遭袭,伊朗权力体系如何“去中心化”强化韧性?

最高领袖办公室附近遭袭,伊朗权力体系如何“去中心化”强化韧性?

澎湃新闻
2026-02-28 15:10:31
去政府部门借厕所,被怼“我还把你当神敬嘞”

去政府部门借厕所,被怼“我还把你当神敬嘞”

中国新闻周刊
2026-02-27 21:04:19
外媒:伊朗击落一架美军机,价值几十亿的战略飞机

外媒:伊朗击落一架美军机,价值几十亿的战略飞机

大国之翼
2026-02-28 06:30:03
直降1300元!新机官宣:3月11日,正式开售!

直降1300元!新机官宣:3月11日,正式开售!

科技堡垒
2026-02-27 11:25:29
国企“软裁员”正在蔓延:不辞退、不补偿,用钝刀子逼人主动走

国企“软裁员”正在蔓延:不辞退、不补偿,用钝刀子逼人主动走

一口娱乐
2026-02-28 00:12:59
有啥事让你最为震惊 网友说知道2016年南海事件前期的人员状态嘛

有啥事让你最为震惊 网友说知道2016年南海事件前期的人员状态嘛

侃神评故事
2026-02-28 07:15:03
2026-02-28 15:43:00
机器之心Pro incentive-icons
机器之心Pro
专业的人工智能媒体
12382文章数 142573关注度
往期回顾 全部

科技要闻

狂揽1100亿美元!OpenAI再创融资神话

头条要闻

最高领袖办公室附近遭袭 媒体:伊朗领导体系仍具韧性

头条要闻

最高领袖办公室附近遭袭 媒体:伊朗领导体系仍具韧性

体育要闻

球队主力全报销?顶风摆烂演都不演了

娱乐要闻

疑似王一博被爆私密聊天记录

财经要闻

沈明高提共富建议 百姓持科技股国家兜底

汽车要闻

岚图泰山黑武士版3月上市 搭载华为四激光智驾方案

态度原创

艺术
教育
数码
亲子
时尚

艺术要闻

2025第十四届中国艺术节全国优秀美术作品展 | 入选油画选刊

教育要闻

中考真题,计算-3×5×(-7)

数码要闻

海信RGB-Mini LED电视UX 2026款3月5日发布

亲子要闻

多地公布去年育儿补贴资金规模

被章若楠、秦岚带火的鞋子竟然是它?春天这样穿又美又气质!

无障碍浏览 进入关怀版