网易首页 > 网易号 > 正文 申请入驻

扩散LLM推理新范式:打破生成长度限制,实现动态自适应调节

0
分享至



随着 Gemini-Diffusion,Seed-Diffusion 等扩散大语言模型(DLLM)的发布,这一领域成为了工业界和学术界的热门方向。但是,当前 DLLM 存在着在推理时必须采用预设固定长度的限制,对于不同任务都需要专门调整才能达到最优效果。

为了解决这一本质的问题,香港中文大学 MMLab,上海 AI 实验室等提出 DAEDAL,赋予 DLLM 可以根据问题的具体情况自主调整回答长度的能力,弥补了 DLLM 与自回归 LLM 的关键差距,为更灵活、高效、强大的扩散大语言模型打下了基石。



  • 论文标题:Beyond Fixed: Variable-Length Denoising for Diffusion Large Language Models
  • 论文地址:https://arxiv.org/abs/2508.00819
  • 代码地址:https://github.com/Li-Jinsong/DAEDAL

DAEDAL 作为一种 Training Free 的去噪策略,从一个统一且很短的初始长度开始,让模型根据自己的需求在生成中调节长度,动态扩展,达到了和现有去噪策略在每个评测基准上精心调整生成长度得到的最佳性能相当的表现,有时甚至更胜一筹。



图 1 (a) DAEDAL 使用统一且很短的初始长度,在多个基准上取得了与精心调优的固定长度基线相当甚至更优的性能。(b) DAEDAL 能够根据每个问题,在生成过程中自适应地动态调整长度,相比之下,现有方法则对所有问题都只能采用单一的固定长度。

DAEDAL 介绍

扩散大语言模型(DLLM)潜力巨大,但其现有推理流程存在一个关键的问题:需要预定义的,固定的生成长度。与能够边思考边决定 “说” 多少的人类和自回归模型不同,现有的 DLLM 需要预先设定确切的输出长度。这导致了一个两难的困境:设置太短,模型在复杂问题上难以发挥全部实力,可能导致做错;设置太长,则会浪费大量的计算资源,同时,实验中还发现过长的生成长度可能导致性能下降。

作者在探索中发现,这一问题的解决方案就蕴藏在模型自身之中。DLLM 在生成时会不断地全局规划其整体输出,而它的预测置信度正是其内部状态的强大信号。作者发现了两种关键信号:

  • DLLM 在序列末端生成序列结束符 (EOS) 的意愿直接反映了其对全局预算的规划。当预设长度充足时,模型会自信地在末尾规划出结束区域,从而高置信度地预测 EOS。反之,当长度不足时,模型会试图利用所有可用空间来完成核心内容,因而抑制了在末尾生成 EOS 的置信度。
  • 在去噪过程中,对某个特定词元的极低预测置信度,则可作为一种局部信号,这不仅代表了模型对该词元的不确定性,更深层次地,它表明当前的局部上下文过于受限,不足以支撑一个复杂的逻辑步骤或细节的展开,或是需要插入空间对过去生成的内容进行补充和修正。



图 2 该热力图展示了在对一个长度为 128 的全掩码输入进行首次预测后,于序列末端测得的平均 EOS 词元置信度之差。该差值的计算方式为:用 “长度充足” 问题(在少于 128 长度的 setting 下被正确回答)的平均置信度减去 “长度不足” 问题(仅在长度更长的 setting 才能被正确回答)的平均置信度。图中大面积的绿色(差值 > 0)表明,对于长度充足的问题,结尾 EOS 序列置信度更高,验证了文中的核心发现。

基于发现,作者提出了 DAEDAL,一种无需训练的两阶段推理策略,利用这些内部信号,赋予 DLLM 根据每个问题的具体情况,动态自主调整回答长度的能力。



图 3 DAEDAL 与现有基线方法流程对比

1. 初始长度调整 (Initial Length Adjustment): 在去噪流程开始前,DAEDAL 从一个统一的很短初始长度出发。它会通过检测序列末端的 EOS 序列平均置信度来衡量:“对于这个任务,当前分配的长度是否充足?”。如果置信度很低,即模型规划充分利用全部长度,就表明模型认为长度预算不足。此时,DAEDAL 会通过增加 [MASK] 词元来扩展序列长度,并重复此过程,直到模型确信长度预算充足。这为任务设定了一个合理的全局规划长度。

2. 迭代式掩码插入 (Iterative Mask Insertion): 在逐步去噪的过程中,DAEDAL 会持续监控模型的置信度。如果它发现模型对某个 [MASK] 位置极不确定,便会将其标记为 “扩展点”。DAEDAL 通过将这个单个 [MASK] 替换为由多个 [MASK],动态且精准地在模型最需要的地方为序列注入 “思考空间”,以便其在回复中进行补充修补,或是有足够空间去进行更复杂的思考。

通过结合这两个阶段,不需要进行任何训练,DAEDAL 使得 DLLM 能够根据每个问题的具体情况自主调整其回答的长度,展现了强大的效果。

实验结果





图 4 DAEDAL 在 4 个基准测试上与基线方法性能对比以及生成长度可视化

DAEDAL 使用统一的短初始长度即可取得强大性能。 实验结果清晰地展示了 DAEDAL 的优越性能。尽管 DAEDAL 默认从一个较短的初始长度开始,但其两阶段的长度调整与扩展机制,不仅使其性能显著优于使用相同短初始长度的基线方法,更能达到与基线方法在所有固定长度中精心调优后的峰值性能相当、甚至在某些情况下超越后者的水平。

这一发现凸显了 DAEDAL 的有效性,并揭示了固定长度范式的内在不便之处,因为基线方法的最佳长度因不同基准而异,这更强调了动态长度适应的必要性。为了直观展示这种动态适应性,图 3 对比了 DAEDAL 所用总生成长度(N_token)的分布与基线方法所用的单一最佳长度。

DAEDAL 能自适应地找到最佳生成长度。 进一步的分析表明,DAEDAL 能智能地预估并生成恰当长度的回答。在多数情况下,DAEDAL 产生的有效词元数(E_token)与基线方法在最佳性能配置下的有效词元数相当。这表明 DAEDAL 能自适应地找到模型内在的、针对特定任务所需词元长度的 “舒适点”。基线方法的行为也印证了这一点:当设置的长度过长时,即使有效词元数可能继续增加,性能反而可能会下降。DAEDAL 的自适应特性有效避免了这种因过度扩展导致的性能下降。

DAEDAL 能够提升计算资源利用率。在取得优越准确率的同时,DAEDAL 生成的总词元数(N_token)通常低于基线方法在最佳性能 setting 下的总词元数。相近的有效词元数和更低的总词元数带来了更高的有效词元利用率(E_ratio)。这大大地提升了计算资源的利用率。

总结

DAEDAL 通过其初始长度调整(Initial Length Adjustment)和迭代式掩码插入(Iterative Mask Insertion)机制,不仅在多个基准上取得了与精心调优的固定长度基线相当甚至更优的性能,还能为每个任务自适应地分配合适的长度。这使得模型在性能和计算效率上都取得了实质性的提升。DAEDA 弥补了扩散大语言模型与自回归大语言模型在核心能力上的一个关键差距,为更灵活、高效、强大的扩散大语言模型打下了基石。

作者介绍

本文第一作者是香港中文大学 MMLab 的博士生李劲松,导师林达华教授,主要研究方向是多模态大模型和大语言模型。曾在 NeurIPS,ECCV,ACL 等顶级会议发表多篇论文,Google 学术引用超 1400 次。

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
全体注意,最新预测来了!明天开年第1个交易日A股大概会这样走!

全体注意,最新预测来了!明天开年第1个交易日A股大概会这样走!

一担金
2026-01-04 20:43:01
隐婚生子真相大白4个月,43岁房祖名真实现状曝光,成龙没说谎

隐婚生子真相大白4个月,43岁房祖名真实现状曝光,成龙没说谎

揽星河的笔记
2025-12-29 20:12:01
明日小寒,老话“3样不上桌,来年一场空”,指哪3样?莫忘老传统

明日小寒,老话“3样不上桌,来年一场空”,指哪3样?莫忘老传统

神牛
2026-01-04 07:33:08
中国乘客被赶下飞机!委内瑞拉机组回应拒载操作:去看新闻吧!

中国乘客被赶下飞机!委内瑞拉机组回应拒载操作:去看新闻吧!

伴史缘
2026-01-04 21:17:22
疑似偷车贼被打致死5人获刑 另一被告被判10年:其递了钢管,后被用于殴打被害人

疑似偷车贼被打致死5人获刑 另一被告被判10年:其递了钢管,后被用于殴打被害人

红星新闻
2026-01-04 13:11:17
谢飞:21岁走完长征,然后嫁给了开国元勋,为了理想主动提出分居

谢飞:21岁走完长征,然后嫁给了开国元勋,为了理想主动提出分居

古书记史
2026-01-03 01:09:05
你闻过最难闻的味道是什么?网友:分手多年,依然忘不了她的味道

你闻过最难闻的味道是什么?网友:分手多年,依然忘不了她的味道

另子维爱读史
2026-01-03 21:33:36
徐平华接受纪律审查和监察调查

徐平华接受纪律审查和监察调查

吉刻新闻
2026-01-04 12:20:24
中国最后流失的领土,1994年正式脱离中国,如今风景绝佳美女无数

中国最后流失的领土,1994年正式脱离中国,如今风景绝佳美女无数

丰谭笔录
2026-01-02 09:29:55
几乎全是假货!利润高达2400%,咋消费者还前赴后继争相购买?

几乎全是假货!利润高达2400%,咋消费者还前赴后继争相购买?

米果说识
2026-01-04 19:47:28
司晓迪再曝新料!洗脚、视频通话还有唱K,网友曝会议细节最搞笑

司晓迪再曝新料!洗脚、视频通话还有唱K,网友曝会议细节最搞笑

除夕烟火灿烂
2026-01-04 09:51:08
“我们才不要你的238亿遗产”,邵逸夫离世,4个子女不送终不继承

“我们才不要你的238亿遗产”,邵逸夫离世,4个子女不送终不继承

聚合大娱
2025-05-08 11:55:09
“王炸”!1499元,有经销商“跟进”促销飞天茅台!每人最多可购5件

“王炸”!1499元,有经销商“跟进”促销飞天茅台!每人最多可购5件

中国基金报
2026-01-04 20:22:35
三大平台正面刚,“王炸剧”接踵而来,网友:这下有好戏看了

三大平台正面刚,“王炸剧”接踵而来,网友:这下有好戏看了

追星顶流大姑娘
2026-01-04 17:10:25
欧洲人贩子有多猖狂?被拐卖的乌克兰女人,下场有多惨?

欧洲人贩子有多猖狂?被拐卖的乌克兰女人,下场有多惨?

跳跳历史
2025-12-31 10:26:01
小杨阿姨言论再惹争议:吃大餐去外面,都爱吃我做的,你说气不气

小杨阿姨言论再惹争议:吃大餐去外面,都爱吃我做的,你说气不气

不甜的李子
2026-01-04 17:47:36
性能高出1000倍!中国北斗被某国电磁干扰,他成功破解助北斗建成

性能高出1000倍!中国北斗被某国电磁干扰,他成功破解助北斗建成

老谢谈史
2025-11-17 20:45:44
卢克文工作室被封:一个“地摊战略家”的破产

卢克文工作室被封:一个“地摊战略家”的破产

紫京讲谈
2025-12-08 22:06:18
赌王儿子元旦公开恋情!超白女友高级脸不输陈滢等绯闻女友

赌王儿子元旦公开恋情!超白女友高级脸不输陈滢等绯闻女友

粤睇先生
2026-01-04 01:29:45
中国通告全球:经中央军委批准,全军统一发放预备役人员证

中国通告全球:经中央军委批准,全军统一发放预备役人员证

科技虎虎
2025-11-26 20:47:11
2026-01-05 01:20:49
机器之心Pro incentive-icons
机器之心Pro
专业的人工智能媒体
12052文章数 142528关注度
往期回顾 全部

科技要闻

雷军:骂小米汽车有流量,但别故意抹黑

头条要闻

特朗普为什么还要掳走马杜罗夫人 美媒分析

头条要闻

特朗普为什么还要掳走马杜罗夫人 美媒分析

体育要闻

女子世界第一,9年前在咖啡店洗碗

娱乐要闻

《小城大事》上星央八 热血筑梦正当时

财经要闻

李迅雷:扩内需必须把重心从"投"转向"消"

汽车要闻

最高续航310km 岚图泰山8或将上半年发布

态度原创

时尚
数码
手机
公开课
军事航空

这才是中年女人该有的打扮,不扮嫩、不穿花,简约大方还显贵

数码要闻

快科技2025年度评奖:品牌整机篇

手机要闻

一加Turbo6参数公布,挑战Turbo档最强游戏体验

公开课

李玫瑾:为什么性格比能力更重要?

军事要闻

美军突袭抓获马杜罗 三个细节值得关注

无障碍浏览 进入关怀版