网易首页 > 网易号 > 正文 申请入驻

dLLM「Free Lunch」浙大&蚂蚁利用中间结果显著提升扩散语言模型

0
分享至

本文第一作者王文,浙江大学博士生,研究方向是多模态理解与生成等。本文通讯作者沈春华,浙江大学求是讲席教授,主要研究课题包括具身智能、大模型推理增强、强化学习、通用感知模型等。

近年来,扩散大语言模型(Diffusion Large Language Models,dLLMs)正迅速崭露头角,成为文本生成领域的一股新势力。与传统自回归(Autoregressive, AR)模型从左到右逐字生成不同,dLLM 依托迭代去噪的生成机制,不仅能够一次性生成多个 token,还能在对话、推理、创作等任务中展现出独特的优势。当你还在等传统 LLM「一个字一个字」地憋出答案时,dLLM 早已通过几轮迭代「秒」出完整结果,带来前所未有的生成效率。

然而,速度的提升并不意味着完美的答案。现有 dLLM 的解码策略往往只关注最后一次迭代的生成结果,直接舍弃了中间多轮迭代中蕴含的丰富语义与推理信息。这些被忽视的中间预测,实际上可能暗藏着更准确、更接近真相的答案。一旦被丢弃,不仅造成信息浪费,还可能让模型错失做对题目的最佳时机。

更令人意外的是,研究团队在数学推理任务中观察到了一种「先对后错」的现象:模型先是得出了正确答案,却在随后的迭代中将其「推翻」,转而采用错误答案,最终导致整体回答错误。以下图为例,模型在第 55 步时明明已经得到正确的25,却在后续生成中改成了2,并一直坚持到最后也未能修正。

正是基于这一关键观察,来自浙江大学的研究团队从时序视角切入,提出了 Temporal Self-Consistency Voting 与 Temporal Consistency Reinforcement 两种方法,对模型的性能进行优化与提升。

  • 论文标题:Time Is a Feature: Exploiting Temporal Dynamics in Diffusion Language Models
  • 论文地址
  • https://arxiv.org/abs/2508.09138
  • 项目主页
  • https://aim-uofa.github.io/dLLM-MidTruth/
  • Github
  • https://github.com/aim-uofa/dLLM-MidTruth
  • Huggingface Paper
  • https://huggingface.co/papers/2508.09138

Temporal Self-Consistency Voting:

从时间维度「抓住」模型最靠谱的答案

在传统的自回归(AR)模型中,majority vote通常需要针对同一个 prompt 多次生成完整回答,再根据出现频率选出最高票的答案。虽然这种方法在提升准确率方面有效,但代价是成倍增加计算开销,往往需要耗费数倍的推理时间与资源。

而研究团队结合 dLLM 的迭代生成特性,提出了Temporal Self-Consistency Voting(TCV) 方法。它不必额外生成多条回答,而是直接利用 dLLM 在去噪过程中每个时间步的中间结果,进行一次「时间轴上的投票」来选出最终答案。考虑到 dLLM 在迭代去噪中理论上会逐渐趋于稳定与确定,TCV 还为不同时间步的结果分配了不同权重,从而更精准地捕捉最可靠的预测。

该方法的主要创新之处在于,它巧妙地将「多数投票」理念与 dLLM 的时间维度信息结合起来,实现了几乎零额外计算成本的性能提升,同时充分挖掘了中间预测中的潜在价值。

Temporal Consistency Reinforcement:

用时序一致性训练出更稳的 dLLM

研究团队针对 dLLM 的中间预测结果,创造性地提出了Temporal Semantic Entropy(TSE) 这一概念。TSE 通过计算模型在不同迭代步骤中预测结果的语义熵,来衡量生成过程中的一致性程度。直观来说,熵越低,说明模型在迭代中越稳定、越坚定自己的选择;熵越高,则意味着生成路径摇摆不定、易于被干扰。

在实验分析中,他们发现了一些颇具规律性的现象:在相对简单、模型准确率较高的数据集(如 GSM8K 和SVAMP)上,TSE 值普遍较低;而在同一个数据集中,模型答对的问题的 TSE 往往显著低于答错的问题。这一发现表明,稳定的生成路径往往与更好的任务表现高度相关。

基于这一洞察,研究团队提出了Temporal Consistency Reinforcement(TCR) 方法,将 TSE 直接作为奖励信号,引导模型在训练中主动降低 TSE,从而提升生成路径的稳定性。进一步地,他们还利用scoring rule,将 TSE 与传统的正确性奖励相结合,实现「双重监督」——既让模型追求正确答案,又保持推理过程的一致性,最终训练出更稳定、性能更优的 dLLM。

实验结果

研究团队在三个主流数学推理数据集(GSM8K、MATH500、SVAMP)以及一个逻辑推理数据集(Countdown)上进行了系统测试。结果显示,Temporal Self-Consistency Voting几乎不增加额外计算成本,就能在多个数据集上稳定带来性能提升,验证了从中间迭代中挖掘信息的有效性。

与此同时,Temporal Consistency Reinforcement的表现同样令人惊艳——仅仅利用Temporal Semantic Entropy (TSE)作为唯一奖励信号,就能在 Countdown 数据集上实现24.7%的显著提升。更进一步,当将 TSE 与传统的正确性奖励结合时,不仅在 Countdown 上提升至25.3%,在 GSM8K、MATH500、SVAMP 上也分别取得了+2.0%、+4.3%、+6.6%的绝对增幅,全面超越了仅依赖正确性奖励的效果。

训练后模型性质分析

研究团队对训练后模型进行分析发现:模型生成更稳定、输出更简洁。具体表现为:

  • 时间一致性提升:生成过程更稳,中间预测波动减少;
  • 仍有提升空间:虽然表现更好,但模型在中间预测上仍有可优化空间;
  • 输出更精炼:有效 token 数下降,答案更简短,可能也更不容易「自打脸」。

这表明,通过 Temporal Consistency Reinforcement,不仅让模型跑得快,也更能稳稳抓住正确答案。

总结

总体来看,这项工作揭示了 dLLM 生成过程中的「先对后错」现象,并提出了两种创新方法——Temporal Self-Consistency Voting 和 Temporal Consistency Reinforcement。它们利用中间预测的时间一致性和语义稳定性,不仅显著提升了模型在数学与逻辑推理任务上的表现,也为未来挖掘 dLLM 潜力提供了全新的思路。

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
“一盒只加一滴”?北冰洋NFC葡萄汁添加量仅0.005%,公司回应:产品没问题

“一盒只加一滴”?北冰洋NFC葡萄汁添加量仅0.005%,公司回应:产品没问题

红星资本局
2026-04-07 20:40:07
美称获以色列总理尊重停火口头承诺

美称获以色列总理尊重停火口头承诺

财联社
2026-04-08 10:25:13
停火、谈判、通航,“最后期限”之际的伊朗战事最新进展

停火、谈判、通航,“最后期限”之际的伊朗战事最新进展

极目新闻
2026-04-08 08:36:22
时隔6年,那个曾扬言让中国给全世界道歉,被央视开除的阿丘怎样了

时隔6年,那个曾扬言让中国给全世界道歉,被央视开除的阿丘怎样了

阅微札记
2026-04-07 15:01:54
研究表明:男性嫖娼率6.4%,女性出轨率15%,且越有钱越开放!

研究表明:男性嫖娼率6.4%,女性出轨率15%,且越有钱越开放!

黯泉
2026-04-01 17:28:39
因中国工人待遇问题,巴西将比亚迪列入“耻辱名单”

因中国工人待遇问题,巴西将比亚迪列入“耻辱名单”

互联网大观
2026-04-07 15:43:15
“唐僧”妻子陈丽华去世,470亿商业帝国谁来继承?

“唐僧”妻子陈丽华去世,470亿商业帝国谁来继承?

野马财经
2026-04-07 22:27:37
严查电动车接送小孩!接娃怎么办?国家新规定:把方便留给群众!

严查电动车接送小孩!接娃怎么办?国家新规定:把方便留给群众!

朝子亥
2026-04-07 16:15:03
全网泪目!张雪峰团队正式复播,人气爆棚

全网泪目!张雪峰团队正式复播,人气爆棚

雷科技
2026-04-08 10:36:59
张水华新代言彻底黄了!全网视频紧急删除,网友:早有预兆

张水华新代言彻底黄了!全网视频紧急删除,网友:早有预兆

马拉松跑步健身
2026-04-07 20:20:26
山东旋转门事件升级!官媒怒批,知情人曝猛料,不止道歉这么简单

山东旋转门事件升级!官媒怒批,知情人曝猛料,不止道歉这么简单

奇思妙想草叶君
2026-04-07 20:12:16
人民日报再发声,言辞犀利,网友:董宇辉恐要“社会性死亡”了

人民日报再发声,言辞犀利,网友:董宇辉恐要“社会性死亡”了

阅微札记
2026-04-07 20:02:14
越南的恨,为何唯独留给了中国

越南的恨,为何唯独留给了中国

民间胡扯老哥
2026-04-05 21:51:40
特朗普的一个更大麻烦,来了……

特朗普的一个更大麻烦,来了……

补壹刀
2026-04-08 09:45:35
监控系统出现漏洞,300多人 被带走?海康威视回应

监控系统出现漏洞,300多人 被带走?海康威视回应

每日经济新闻
2026-04-07 15:06:19
陈丽华去世仅2天,小11岁老公迟重瑞过往被扒,他和翁帆处境一样

陈丽华去世仅2天,小11岁老公迟重瑞过往被扒,他和翁帆处境一样

一娱三分地
2026-04-07 18:37:11
午评:创业板指半日涨4.81% 全市场超5000只个股上涨

午评:创业板指半日涨4.81% 全市场超5000只个股上涨

财联社
2026-04-08 11:33:07
郑丽文书法争议:她的字真的不是自己写的吗?

郑丽文书法争议:她的字真的不是自己写的吗?

书画相约
2026-04-08 08:19:04
WTI原油期货跌幅扩大至19%

WTI原油期货跌幅扩大至19%

澎湃新闻
2026-04-08 07:53:06
一场战争彻底把中国打醒!美军作战最毒的是什么?中国用30年看清

一场战争彻底把中国打醒!美军作战最毒的是什么?中国用30年看清

共工之锚
2026-04-08 00:29:52
2026-04-08 12:43:00
机器之心Pro incentive-icons
机器之心Pro
专业的人工智能媒体
12709文章数 142618关注度
往期回顾 全部

科技要闻

造出地表最强AI,却死活不给你用!

头条要闻

伊朗代表:感谢中俄 坚定站在历史正确的一边

头条要闻

伊朗代表:感谢中俄 坚定站在历史正确的一边

体育要闻

皇马1.5亿巨星浪费超级单刀 丢球摊手抱怨

娱乐要闻

杨颖邓超低调现身观众席 支持陈赫话剧

财经要闻

特朗普同意停火两周 伊朗:接受停火提议

汽车要闻

5门5座/新复古造型 缤果Pro将于4月14日开启预售

态度原创

艺术
旅游
房产
健康
公开课

艺术要闻

齐白石『凌波仙子』

旅游要闻

秦皇河畔,郁金香用色彩“写”了封春日情书

房产要闻

千亿双国企,定序主城第一大盘!三亚买房逻辑变了!

干细胞抗衰4大误区,90%的人都中招

公开课

李玫瑾:为什么性格比能力更重要?

无障碍浏览 进入关怀版