网易首页 > 网易号 > 正文 申请入驻

扩散LLM推理新范式:打破生成长度限制,实现动态自适应调节

0
分享至



随着 Gemini-Diffusion,Seed-Diffusion 等扩散大语言模型(DLLM)的发布,这一领域成为了工业界和学术界的热门方向。但是,当前 DLLM 存在着在推理时必须采用预设固定长度的限制,对于不同任务都需要专门调整才能达到最优效果。

为了解决这一本质的问题,香港中文大学 MMLab,上海 AI 实验室等提出 DAEDAL,赋予 DLLM 可以根据问题的具体情况自主调整回答长度的能力,弥补了 DLLM 与自回归 LLM 的关键差距,为更灵活、高效、强大的扩散大语言模型打下了基石。



  • 论文标题:Beyond Fixed: Variable-Length Denoising for Diffusion Large Language Models
  • 论文地址:https://arxiv.org/abs/2508.00819
  • 代码地址:https://github.com/Li-Jinsong/DAEDAL

DAEDAL 作为一种 Training Free 的去噪策略,从一个统一且很短的初始长度开始,让模型根据自己的需求在生成中调节长度,动态扩展,达到了和现有去噪策略在每个评测基准上精心调整生成长度得到的最佳性能相当的表现,有时甚至更胜一筹。



图 1 (a) DAEDAL 使用统一且很短的初始长度,在多个基准上取得了与精心调优的固定长度基线相当甚至更优的性能。(b) DAEDAL 能够根据每个问题,在生成过程中自适应地动态调整长度,相比之下,现有方法则对所有问题都只能采用单一的固定长度。

DAEDAL 介绍

扩散大语言模型(DLLM)潜力巨大,但其现有推理流程存在一个关键的问题:需要预定义的,固定的生成长度。与能够边思考边决定 “说” 多少的人类和自回归模型不同,现有的 DLLM 需要预先设定确切的输出长度。这导致了一个两难的困境:设置太短,模型在复杂问题上难以发挥全部实力,可能导致做错;设置太长,则会浪费大量的计算资源,同时,实验中还发现过长的生成长度可能导致性能下降。

作者在探索中发现,这一问题的解决方案就蕴藏在模型自身之中。DLLM 在生成时会不断地全局规划其整体输出,而它的预测置信度正是其内部状态的强大信号。作者发现了两种关键信号:

  • DLLM 在序列末端生成序列结束符 (EOS) 的意愿直接反映了其对全局预算的规划。当预设长度充足时,模型会自信地在末尾规划出结束区域,从而高置信度地预测 EOS。反之,当长度不足时,模型会试图利用所有可用空间来完成核心内容,因而抑制了在末尾生成 EOS 的置信度。
  • 在去噪过程中,对某个特定词元的极低预测置信度,则可作为一种局部信号,这不仅代表了模型对该词元的不确定性,更深层次地,它表明当前的局部上下文过于受限,不足以支撑一个复杂的逻辑步骤或细节的展开,或是需要插入空间对过去生成的内容进行补充和修正。



图 2 该热力图展示了在对一个长度为 128 的全掩码输入进行首次预测后,于序列末端测得的平均 EOS 词元置信度之差。该差值的计算方式为:用 “长度充足” 问题(在少于 128 长度的 setting 下被正确回答)的平均置信度减去 “长度不足” 问题(仅在长度更长的 setting 才能被正确回答)的平均置信度。图中大面积的绿色(差值 > 0)表明,对于长度充足的问题,结尾 EOS 序列置信度更高,验证了文中的核心发现。

基于发现,作者提出了 DAEDAL,一种无需训练的两阶段推理策略,利用这些内部信号,赋予 DLLM 根据每个问题的具体情况,动态自主调整回答长度的能力。



图 3 DAEDAL 与现有基线方法流程对比

1. 初始长度调整 (Initial Length Adjustment): 在去噪流程开始前,DAEDAL 从一个统一的很短初始长度出发。它会通过检测序列末端的 EOS 序列平均置信度来衡量:“对于这个任务,当前分配的长度是否充足?”。如果置信度很低,即模型规划充分利用全部长度,就表明模型认为长度预算不足。此时,DAEDAL 会通过增加 [MASK] 词元来扩展序列长度,并重复此过程,直到模型确信长度预算充足。这为任务设定了一个合理的全局规划长度。

2. 迭代式掩码插入 (Iterative Mask Insertion): 在逐步去噪的过程中,DAEDAL 会持续监控模型的置信度。如果它发现模型对某个 [MASK] 位置极不确定,便会将其标记为 “扩展点”。DAEDAL 通过将这个单个 [MASK] 替换为由多个 [MASK],动态且精准地在模型最需要的地方为序列注入 “思考空间”,以便其在回复中进行补充修补,或是有足够空间去进行更复杂的思考。

通过结合这两个阶段,不需要进行任何训练,DAEDAL 使得 DLLM 能够根据每个问题的具体情况自主调整其回答的长度,展现了强大的效果。

实验结果





图 4 DAEDAL 在 4 个基准测试上与基线方法性能对比以及生成长度可视化

DAEDAL 使用统一的短初始长度即可取得强大性能。 实验结果清晰地展示了 DAEDAL 的优越性能。尽管 DAEDAL 默认从一个较短的初始长度开始,但其两阶段的长度调整与扩展机制,不仅使其性能显著优于使用相同短初始长度的基线方法,更能达到与基线方法在所有固定长度中精心调优后的峰值性能相当、甚至在某些情况下超越后者的水平。

这一发现凸显了 DAEDAL 的有效性,并揭示了固定长度范式的内在不便之处,因为基线方法的最佳长度因不同基准而异,这更强调了动态长度适应的必要性。为了直观展示这种动态适应性,图 3 对比了 DAEDAL 所用总生成长度(N_token)的分布与基线方法所用的单一最佳长度。

DAEDAL 能自适应地找到最佳生成长度。 进一步的分析表明,DAEDAL 能智能地预估并生成恰当长度的回答。在多数情况下,DAEDAL 产生的有效词元数(E_token)与基线方法在最佳性能配置下的有效词元数相当。这表明 DAEDAL 能自适应地找到模型内在的、针对特定任务所需词元长度的 “舒适点”。基线方法的行为也印证了这一点:当设置的长度过长时,即使有效词元数可能继续增加,性能反而可能会下降。DAEDAL 的自适应特性有效避免了这种因过度扩展导致的性能下降。

DAEDAL 能够提升计算资源利用率。在取得优越准确率的同时,DAEDAL 生成的总词元数(N_token)通常低于基线方法在最佳性能 setting 下的总词元数。相近的有效词元数和更低的总词元数带来了更高的有效词元利用率(E_ratio)。这大大地提升了计算资源的利用率。

总结

DAEDAL 通过其初始长度调整(Initial Length Adjustment)和迭代式掩码插入(Iterative Mask Insertion)机制,不仅在多个基准上取得了与精心调优的固定长度基线相当甚至更优的性能,还能为每个任务自适应地分配合适的长度。这使得模型在性能和计算效率上都取得了实质性的提升。DAEDA 弥补了扩散大语言模型与自回归大语言模型在核心能力上的一个关键差距,为更灵活、高效、强大的扩散大语言模型打下了基石。

作者介绍

本文第一作者是香港中文大学 MMLab 的博士生李劲松,导师林达华教授,主要研究方向是多模态大模型和大语言模型。曾在 NeurIPS,ECCV,ACL 等顶级会议发表多篇论文,Google 学术引用超 1400 次。

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
女性第一次性生活后会有怎样的变化?女性第一次后这些变化大

女性第一次性生活后会有怎样的变化?女性第一次后这些变化大

说点事
2025-11-08 14:49:53
出大事了,美国第一块稀土磁铁诞生,贝森特欢呼雀跃:再不怕中国

出大事了,美国第一块稀土磁铁诞生,贝森特欢呼雀跃:再不怕中国

boss外传
2025-11-14 14:00:03
从确诊到去世仅15天,“央视最帅主持人”的遭遇为人们敲响警钟

从确诊到去世仅15天,“央视最帅主持人”的遭遇为人们敲响警钟

银河史记
2025-11-03 19:31:33
中方不再好言相劝,反击一步步到位,美媒:高市早苗毫无还手之力

中方不再好言相劝,反击一步步到位,美媒:高市早苗毫无还手之力

阿天爱旅行
2025-11-19 00:46:07
全运会男排四强出炉!山东横扫四川强势晋级,与上海争夺决赛资格

全运会男排四强出炉!山东横扫四川强势晋级,与上海争夺决赛资格

烧体坛
2025-11-18 22:20:09
12岁的乔治王子现身帅到认不出!身高1米75快要超过妈妈凯特王妃

12岁的乔治王子现身帅到认不出!身高1米75快要超过妈妈凯特王妃

温读史
2025-11-09 09:25:54
蒋万安立场坚定:拒绝两岸统一,郑丽文对统一话题的回避让人震惊

蒋万安立场坚定:拒绝两岸统一,郑丽文对统一话题的回避让人震惊

观星赏月
2025-11-08 09:34:33
上任1个月,刘小涛省长连赴苏北四城,透露什么信号?

上任1个月,刘小涛省长连赴苏北四城,透露什么信号?

创客公社-江苏第一创投媒体
2025-11-18 21:29:48
美国专家发出警告: 当中国收复台湾时,美国就只剩下一条路可走

美国专家发出警告: 当中国收复台湾时,美国就只剩下一条路可走

荐史
2025-09-22 19:25:09
民间创业仙人,一拳打碎发财梦

民间创业仙人,一拳打碎发财梦

虎嗅APP
2025-11-16 17:00:32
一位7年护工自白:只要老人进了养老院,九成以上就再也回不了家

一位7年护工自白:只要老人进了养老院,九成以上就再也回不了家

小怪吃美食
2025-11-14 08:01:04
12岁小学生在家服药身亡,遗书称:太累,太累,不会写英文单词

12岁小学生在家服药身亡,遗书称:太累,太累,不会写英文单词

恪守原则和底线
2025-11-17 20:12:15
征服一个女人,不要频繁联系,不要主动付出,有5种顶级的方法

征服一个女人,不要频繁联系,不要主动付出,有5种顶级的方法

娱乐洞察点点
2025-09-28 06:32:48
社评:德国副总理访华的正常与不寻常

社评:德国副总理访华的正常与不寻常

环球网资讯
2025-11-18 00:06:14
日本驻华使馆警告在华日本人,中方回应

日本驻华使馆警告在华日本人,中方回应

澎湃新闻
2025-11-18 16:55:03
百万网红重返CBA!“我不打职业是选择,而你是因为能力问题”

百万网红重返CBA!“我不打职业是选择,而你是因为能力问题”

蜗牛看球
2025-11-17 21:57:47
最新金牌榜:山东40金稳居第一,浙江37金紧追广东,湖北反超河南

最新金牌榜:山东40金稳居第一,浙江37金紧追广东,湖北反超河南

体育就你秀
2025-11-18 11:27:51
老天对一个人能残忍到什么程度?网友:看到他的名字都很心疼他!

老天对一个人能残忍到什么程度?网友:看到他的名字都很心疼他!

夜深爱杂谈
2025-11-18 21:22:13
“穷看眉毛,富看腰”:老祖宗的识人智慧,这可不是迷信

“穷看眉毛,富看腰”:老祖宗的识人智慧,这可不是迷信

有故事的人
2025-11-16 06:29:05
库珀回忆与梅西交手:我让全队封他的左脚,他用右脚进了两个

库珀回忆与梅西交手:我让全队封他的左脚,他用右脚进了两个

懂球帝
2025-11-18 22:15:02
2025-11-19 04:31:00
机器之心Pro incentive-icons
机器之心Pro
专业的人工智能媒体
11747文章数 142507关注度
往期回顾 全部

科技要闻

谷歌CEO警告:若AI泡沫破裂,没公司能幸免

头条要闻

27岁女孩家门口遇害 妈妈痛哭:墙上还有女儿血迹

头条要闻

27岁女孩家门口遇害 妈妈痛哭:墙上还有女儿血迹

体育要闻

结束最后一次对决,陈梦和朱雨玲笑着相拥

娱乐要闻

宋佳夺影后动了谁的奶酪

财经要闻

中美机器人爆发了一场论战

汽车要闻

硬核配置旗舰气场 岚图泰山售37.99万起

态度原创

游戏
房产
亲子
本地
健康

魔兽世界:时光服正式开服,排队时间增加,联盟成香饽饽!

房产要闻

29.4亿!海南“地王”片区,要卖超级宅地!

亲子要闻

1岁大中美混血萌娃学说中文,看看这新学的词,说的咋样?

本地新闻

这档古早综艺,怎么就成了年轻人的哆啦A梦?

警惕超声报告这六大"坑"

无障碍浏览 进入关怀版