网易首页 > 网易号 > 正文 申请入驻

离散扩散语言模型如何演化?NUS综述解构技术图谱与应用前沿

0
分享至

本论文共同第一作者于润芃和李奇是新加坡国立大学 xML 实验室博士生,指导老师为王鑫超,研究方向是多模态大模型与可信深度模型。

本文主要介绍 xML 团队的论文:Discrete Diffusion in Large Language and Multimodal Models: A Survey。

  • 论文链接:https://arxiv.org/pdf/2506.13759
  • GitHub 仓库:https://github.com/LiQiiiii/DLLM-Survey

自 GPT 引爆大语言模型热潮以来,自回归的大语言模型(LLMs)与多模态模型(MLLMs)已成为智能系统的基石。然而,当人们着眼于更快、更可控、更智能的生成范式时,一条新兴路径悄然浮现:离散扩散(Discrete Diffusion)

本综述系统梳理了离散扩散方向的研究图谱,呈现了离散扩散语言模型(dLLMs)与离散扩散多模态语言模型(dMLLMs)的理论基础、代表模型、训练与推理技术,以及在推理、视觉、生物等多个领域的应用进展。

图 1 综述的框架结构与内容

自回归的局限与离散扩散的崛起

传统大模型采用自回归(Autoregressive, AR)架构,其从左至右逐词生成方式虽然自然,但存在显著的性能瓶颈:无法并行解码、难以精确控制输出、局限于对输入的静态感知、对补全和逆向推理的建模能力差。这使其在需要结构化控制与动态感知的复杂场景中表现受限。

离散扩散模型打破了这一范式。它不再逐词预测,而是将生成视为一个「掩码 - 去噪」迭代过程,并行处理所有 Token,并借助全局注意力机制实现动态感知。这种设计带来了三大核心优势:

  • 推理并行性(Parallel Decoding): 并行推理是离散扩散模型最大的特点和优势。并行推理使得离散扩散每次迭代都可以解码出多个 Token,从而带来解码速度上的提升。
  • 输出可控性(Controllability)与补全能力(Infilling): 掩码 - 去噪的解码机制,使得每一次回答都可以预设回答的长度、格式、结构,为回答设定一个模板。
  • 动态感知能力(Dynamic Perception): 全局注意力机制下模型对左侧 Token 的处理受到右侧 Token 的影响;多轮迭代的解码机制使得对所有 Token 的处理都可以反复多次进行。这使得 dLLM 和 dMLLM 可以对长语料和多模态输入进行多轮、有条件的动态感知,而不是如单向注意力一样仅仅能够感知一次。

图 2 自回归模型与典型离散扩散模型的对比

离散扩散语言模型的数理基础

离散扩散语言模型生态概览

图 3 离散扩散模型的发展历程

随着离散扩散语言模型(dLLMs)快速崛起,近年来该领域涌现出一系列代表性模型。从早期探索性的轻量模型,到近期可比肩自回归 LLM 的离散扩散大模型,再到多模态与统一建模范式的拓展,离散扩散正逐渐演化为一条独立而完整的技术路径。综述将当前模型生态大致划分为以下四类:

1. 轻量级模型:早期的离散扩散模型参数量往往不超过 1B,代表作包括 D3PM、DiffusionBERT、RDM、Diffusion-NAT、TESS、SEDD、MDLM、MD4 等。这些模型重点在于探索基础的建模机制与去噪策略,验证离散扩散在文本和多模态生成任务上的可行性。

2. 大规模 dLLM:随着技术成熟,多个工作开始将扩散架构拓展至 10 亿以上参数量,构建具备完整语言理解与生成能力的「非自回归大模型」,代表模型包括:LLaDA 系列、DiffuGPT / DiffuLLaMA 和 DREAM 等。这些工作从规模上拓展了扩散语言模型的边界,系统性地探索了其工程可行性。

3. 多模态扩展(dMLLM):在语言能力日趋完善之后,研究者开始探索 dLLMs 在多模态任务中的适应性,典型代表有:Dimple、LaViDa 和 LLaDA-V。

4. 统一生成模型:离散扩散在图片生成中的可行性很早就被验证了,随着语言生成能力的完善,MMaDA、FUDOKI 和 Muddit 等模型给出了一种统一的架构,使用离散扩散模型在一个神经网络中同时建模文本和视觉的生成。

训练与推理技术

方兴未艾的 dLLM 与 dMLLM 正在不断演进,伴随而来的还有训练与推理技术的持续创新。本综述系统地梳理并归纳了已有模型中采用的核心方法,同时也在不断收录和更新该领域的最新进展。

训练技术

离散扩散模型在训练过程中面临一系列独特挑战,包括语料利用率低、生成长度偏差(length bias)、随机时间采样带来的监督信号覆盖率低等。为解决这些问题,研究人员提出了多种创新性的训练机制。综述中主要归纳了以下几类:

  • 初始化机制:使用已经训练好的 BERT 模型或者 AR 模型作为训练起点,或者对模型首先进行 AR 训练再进行扩散训练。典型的模型包括 DiffuLLaMA、DiffuGPT 和 Dimple 。这一类初始化技术化能够加速训练过程,保证模型性能,在资源受限的训练时效果显著。
  • 互补掩码策略(Complementary Masking):为提升语料使用效率,构造一对互补的掩码样本,两次掩码的位置互斥,但是拼起来可以使所有 Token 都被覆盖,从而解决信息利用稀疏问题。典型的模型包括 LaViDa 和 DiffuCoder。
  • 掩码调度(Masking Scheduling)函数:掩码调度函数决定了训练过程中各个时间步上掩码比例的大小。在训练过程中既可以为所有的 Token 设置统一的调度函数,也可以针对各个 Token 设置不同的调度函数。在线性调度函数下,掩码比例随时间线性变化,使每一步加噪的 Token 数量大致相同。在凸(convex)调度函数下,掩码函数斜率的绝对值先大后小,在时间步不大时就能够掩码大量的 Token,从而使得模型训练时能够接触到更 noisy 的样本,也鼓励推理时从慢到快,每一步解码出来的 Token 数量先少后多。
  • 重加权策略(Reweighting):对不同 Token 处的损失函数值进行调整,强化对特定 Token 的学习。比如,MGDM 提升损失函数大的 Token 的权重,提升对困难位置的关注,加速收敛。
  • 知识蒸馏(Distillation): 通过知识蒸馏实现对推理步数的压缩,将多步的「教师模型」知识传递给步数更少的「学生模型」。

这些技术从训练目标、数据使用到网络初始化等方面优化了扩散训练流程,使 dLLMs 得以在更大规模、更复杂任务上保持稳定、有效的训练表现。

图 4 几种掩码调度函数

推理技术

dLLMs 和 dMLLMs 的推理过程中的每一步都会对所有的 token 进行并行的同步预测,之后基于特定的规则来决定要保留哪些位置的预测。为兼顾生成质量与效率,研究人员提出了一系列推理技术。综述中主要归纳了以下几类:

  • Unmasking 策略决定「什么时候生成什么」。推理中每轮只会保留对部分 Token 的预测,Unmasking 策略负责决定解哪里、解多少。解码的位置既可以是随机选取,也可以是度量驱动(Metric-based),根据模型置信度、负熵等指标优先解码「最确定」的位置。每一步解码的 Token 数量可以设置为固定值,也可以根据训练时的调度函数计算得到。如果使用了度量驱动的解码策略,还可以使用 Confident Decoding 算法,通过阈值动态调整每一步解码出来的 Token 数量。
  • Remasking 技术实现「修正」,解决吸收态扩散模型「写完不能改」的局限。Remasking 允许将已经解码出来的 Token 再次设置为 [Mask],从而对回答进行修改,实现 Test-Time-Scaling。
  • 缓存机制(Caching):AR 框架下的 Prefilling 和 KV-Cache 机制也被引入了 dLLM 和 dMLLM 中,通过缓存注意力计算的中间结果,并选择性动态更新,以加速生成。
  • Guidance 技术:类比于连续扩散模型中的 Guidance 机制,Classifier-Free Guidance、Reward Guidance、Energy-Based Guidance 等技术也被应用在离散扩散模型中,实现对模型输出的定向调整。

这些推理技术不仅提升了生成效率,更赋予了 dLLMs 修正和控制的能力,逐步构建出具备实用价值的非自回归语言推理范式。

图 5 对 Unmasking 策略的展示

结语

除了以上内容,综述中也介绍了 dLLM 和 dMLLM 在生物、视觉、推理等方面的应用,探讨了其未来可能的发展方向。

随着大语言模型不断拓展其边界,离散扩散模型(dLLMs 与 dMLLMs)为传统自回归范式提供了强有力的替代路径。并行解码、结构控制与动态感知等优势使它们突破了自回归模型在效率与控制性上的瓶颈。从基础理论到工程优化,再到多模态与跨领域应用,离散扩散范式正在逐步走向成熟。

@misc {yu2025dllmsurvey,
title={Discrete Diffusion in Large Language and Multimodal Models: A Survey},
author={Runpeng Yu and Qi Li and Xinchao Wang},
year={2025},
eprint={2506.13759},
archivePrefix={arXiv},
primaryClass={cs.LG},
url={https://arxiv.org/abs/2506.13759},

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
26年央视春晚嘉宾名单曝光,牛鬼蛇神混子引争议

26年央视春晚嘉宾名单曝光,牛鬼蛇神混子引争议

杜鱂手工制作
2026-01-06 18:48:05
国乒坏消息!一哥遭遇严峻挑战,功勋陪练退役对王楚钦能力讲实话

国乒坏消息!一哥遭遇严峻挑战,功勋陪练退役对王楚钦能力讲实话

三十年莱斯特城球迷
2026-01-31 23:50:45
A股大消息,陈永亮被留置

A股大消息,陈永亮被留置

中国基金报
2026-02-01 18:55:43
法布雷加斯不敢相信:狂射28次0球,阿根廷天才成罪人:罚丢点球

法布雷加斯不敢相信:狂射28次0球,阿根廷天才成罪人:罚丢点球

足球狗说
2026-02-02 00:37:16
英超3-2神剧情:91分钟被扳平 94分钟绝杀 7.2亿豪门3连胜重返前4

英超3-2神剧情:91分钟被扳平 94分钟绝杀 7.2亿豪门3连胜重返前4

狍子歪解体坛
2026-02-02 00:02:17
贵州毕节临街门面被砌墙封堵?官方通报:业主矛盾,已全部拆除

贵州毕节临街门面被砌墙封堵?官方通报:业主矛盾,已全部拆除

新京报
2026-02-01 17:34:07
交易已达成,老鹰将克雷伊奇交易至开拓者,换里斯和2次轮选秀权

交易已达成,老鹰将克雷伊奇交易至开拓者,换里斯和2次轮选秀权

好火子
2026-02-02 01:29:09
大局已定,今年的返乡潮可能彻底消失了!

大局已定,今年的返乡潮可能彻底消失了!

达文西看世界
2026-01-29 19:30:48
高市早苗受伤,正接受治疗!

高市早苗受伤,正接受治疗!

新民晚报
2026-02-01 15:02:11
好惨烈的身高对比差距,中越边境上的一张军人合影突然火了起来

好惨烈的身高对比差距,中越边境上的一张军人合影突然火了起来

我心纵横天地间
2026-01-30 22:17:29
吸烟有害健康是大骗局,尼古丁其实根本不致癌?告诉你真相

吸烟有害健康是大骗局,尼古丁其实根本不致癌?告诉你真相

健康之光
2026-02-01 08:40:05
曾精准预判金价狂飙的人,如何看待这场暴跌

曾精准预判金价狂飙的人,如何看待这场暴跌

新浪财经
2026-02-01 18:13:05
哈哈,“错就错在不该带记者去采访......"

哈哈,“错就错在不该带记者去采访......"

李万卿
2026-02-01 09:13:51
舍什科补时绝杀!曼联三连胜重返前四,对手看傻眼,弗格森笑了

舍什科补时绝杀!曼联三连胜重返前四,对手看傻眼,弗格森笑了

奥拜尔
2026-02-02 00:09:16
没想到,李湘风波还没完,让她怀二胎的人竟因一个举动口碑暴涨!

没想到,李湘风波还没完,让她怀二胎的人竟因一个举动口碑暴涨!

五姑娘台球
2026-02-01 08:16:47
极其凶残!非法移民德州大桥扫射百余枪,现场弹壳遍地

极其凶残!非法移民德州大桥扫射百余枪,现场弹壳遍地

华人生活网
2026-02-01 00:54:24
7场不败,曼联是目前英超保持不败最长的球队

7场不败,曼联是目前英超保持不败最长的球队

懂球帝
2026-02-02 00:39:38
工厂里真有男人思想如此龌龊?网友:女生一定不要一个人进厂

工厂里真有男人思想如此龌龊?网友:女生一定不要一个人进厂

带你感受人间冷暖
2026-01-25 00:05:08
深夜利空,46股业绩暴雷,机器人龙头暴降250%,化工龙暴降2007%

深夜利空,46股业绩暴雷,机器人龙头暴降250%,化工龙暴降2007%

鹏哥投研
2026-02-01 11:10:33
美媒:美或考虑对伊朗动用新军事选项

美媒:美或考虑对伊朗动用新军事选项

参考消息
2026-02-01 16:19:07
2026-02-02 02:23:00
机器之心Pro incentive-icons
机器之心Pro
专业的人工智能媒体
12226文章数 142562关注度
往期回顾 全部

科技要闻

10亿元宝红包突袭 复刻微信支付还是微视?

头条要闻

爱泼斯坦追逐女孩、安德鲁跪爬女子身上画面全公布

头条要闻

爱泼斯坦追逐女孩、安德鲁跪爬女子身上画面全公布

体育要闻

德约大度祝贺阿卡 幽默互动逗笑纳达尔

娱乐要闻

春晚第三次联排阵容曝光:全是实力派

财经要闻

黄仁勋台北"夜宴":汇聚近40位台企高管

汽车要闻

岚图汽车1月交付10515辆 同比增长31%

态度原创

手机
亲子
本地
旅游
游戏

手机要闻

消息称一加16长焦镜头将升级至2亿像素,有望支持长焦微距功能

亲子要闻

兰姐带玥儿看北京新学校,玥儿一待俩小时,筱梅的话终于有人信了

本地新闻

云游中国|拨开云雾,巫山每帧都是航拍大片

旅游要闻

社评:欢迎更多外国朋友来中国过春节

末期癌症玩家圆梦《毁灭战士》!id公开致敬

无障碍浏览 进入关怀版