网易首页 > 网易号 > 正文 申请入驻

爆火Block Diffusion引发LLM架构变革?自回归+扩散模型完美结合 | ICLR 2025

0
分享至

新智元报道

编辑:LRS

【新智元导读】块离散去噪扩散语言模型(BD3-LMs)结合自回归模型和扩散模型的优势,解决了现有扩散模型生成长度受限、推理效率低和生成质量低的问题。通过块状扩散实现任意长度生成,利用键值缓存提升效率,并通过优化噪声调度降低训练方差,达到扩散模型中最高的预测准确性,同时生成效率和质量优于其他扩散模型。

扩散模型被广泛应用于生成图像和视频,并且在生成离散数据(如文本或生物序列)任务上的效果也越来越好,与自回归模型相比,扩散模型有望加速「生成过程」并提高模型输出的「可控性」。

然而,离散扩散模型目前仍然有三个局限性

  1. 在聊天系统等应用中,模型需要生成任意长度的输出序列(例如,对用户问题的回答),但大多数现有的扩散架构只能生成固定长度的向量;

  1. 离散扩散在生成过程中使用双向上下文,因此无法利用键值缓存(KV caching)复用之前的计算,使得推理效率较低。

  1. 从困惑度等标准指标来看,离散扩散模型的质量仍落后于自回归方法,也进一步限制了其应用范围。

为了克服这些局限性,康奈尔科技校区(Cornell Tech)、斯坦福大学的研究人员提出了「块离散去噪扩散语言模型」(BD3-LMs,Block Discrete Denoising Diffusion Language Models),介于离散扩散模型和自回归模型之间:块扩散模型(也称为半自回归模型)在离散随机变量的块上定义了一个自回归概率分布;给定前面的块,当前块的条件概率由离散去噪扩散模型指定。

论文链接:https://arxiv.org/pdf/2503.09573

代码链接:https://github.com/kuleshov-group/bd3lms

想要开发出一个高效的BD3-LMs,仍然有两大难题需要解决:

  1. 计算块扩散模型的训练目标无法通过神经网络的标准前向传播实现,需要开发专门的算法;

  2. 扩散目标的梯度方差较大,导致即使在块大小为1(此时两种模型理论上等价)时,BD3-LMs的表现仍不如自回归模型。

研究人员通过推导梯度方差的估计器,发现了导致自回归模型与扩散模型之间困惑度差距的关键因素,文中提出了定制的噪声过程,以最小化梯度方差,并缩小了困惑度差距。

自回归生成过程

扩散生成过程

块扩散生成过程

研究人员在语言建模基准测试中评估了BD3-LMs,结果表明,该模型能够生成任意长度的序列,包括超出其训练上下文长度的序列,并且在离散扩散模型中达到了新的最低困惑度。

与在嵌入层上进行高斯扩散的其他半自回归方法相比,文中提出的离散方法具有可处理的(tractable)似然估计,并且在生成步骤少了一个数量级的情况下,生成样本的困惑度还更低。

Block Diffusion语言建模

自回归语言模型vs扩散语言模型

语言建模任务就是从数据分布q(x)中获得具有L个token的序列 ,目标是拟合出一个服从q分布的模型 。

自回归模型(Autoregressive Models)将token的分布分解成一种逐步生成的形式,即根据前面的token来预测下一个token

但这种方法存在一个问题:由于token之间的顺序依赖关系,自回归模型在生成长序列时需要逐个token进行采样,可能会导致生成速度变慢。

相比之下,扩散模型(Diffusion Models)通过独立建模tokens实现了并行生成,其核心思想是通过「去噪」来逆转预先设计的「加噪」过程,利用转移矩阵(transition matrices)告诉模型如何从噪声中恢复出清晰的token

然而,扩散模型也有局限性,其目标是最小化似然的一个上界,也就意味着在生成质量和预测准确性方面可能不如自回归模型;并且扩散模型目前只能生成固定长度的序列,限制了其在生成任意长度输出应用中的灵活性。


BD3-LMs

研究人员结合了自回归模型在「生成质量」和「灵活长度生成」方面的优势,以及扩散模型在「快速并行生成」方面的优点,提出了块离散去噪扩散语言模型(Block Discrete Denoising Diffusion Language Models,BD3-LMs)。

块扩散似然

研究人员提出了一种新的建模框架,将token分组成块(block),并在每个块内执行扩散操作。

具体来说,模型以自回归的方式处理这些块,同时在每个块内部使用扩散模型进行生成,其似然函数可以分解为B个长度为L'的部分。

每个块都通过离散扩散的变分下界(ELBO)来建模,覆盖的块尺寸为L'个token。

通过优化似然下界,可以得到一个合理的训练目标:

研究人员采用一种简单的离散扩散参数化方法来建模每个块的似然,最终模型的目标函数变成了加权交叉熵项的总和。

高效训练与采样算法

通常情况下,需要循环B次操作来计算结果,研究人员提出了一种高效训练方法,只需要进行两次正向传播即可完成计算。

第一次正向传播会预先计算出整个序列的键(keys)和值(values);第二次正向传播则利用这些预先计算好的键和值,同时为所有块生成去噪后的预测结果。

在从块离散去噪扩散语言模型(BD3-LMs)中采样时,一次生成一个块,并且这个块的生成是基于之前已经生成的块的条件。

生成一个块后,像自回归模型(AR)一样将键和值缓存起来;在生成过程中,可以使用任意扩散采样方法,从条件分布中生成样本,并且每个块的采样步骤可以独立进行。


扩散模型与自回归模型之间的似然差距
单个token生成

块扩散模型在理论上与自回归模型的负对数似然(NLL)是等价的,尤其是在L'=1的极限情况下。

然而,研究人员发现,在LM1B数据集上训练这两种模型时,即使在块大小为1的情况下,块扩散模型与自回归模型之间仍然存在2个点的困惑度差距。

经过分析,可以发现扩散模型的目标函数在训练过程中具有较高的方差,是导致困惑度差距的主要原因。

在离散扩散模型的训练中,使用变分下界(ELBO)时会遇到高方差的问题。

从直觉上来说,如果被遮蔽的部分太少,那么恢复原始内容就会很容易,这种情况下模型就得不到有效的学习信号;

反过来,如果把所有内容都遮蔽掉,那么最优的恢复方式就是简单地根据数据分布中每个token的独立概率来进行猜测,这种任务虽然容易完成,但也同样没有意义。

最终的目标是找到一种合适的噪声调度(noise schedule),以减少由扩散目标引起的训练过程中的波动,并进一步缩小模型在困惑度上的差距。

为了避免因遮蔽率(masking rates)过高而导致训练过程中的大幅波动,研究人员在训练块离散去噪扩散语言模型(BD3-LMs)时,采用了「限制性」的遮蔽率:通过降低训练过程中的波动,当在评估时使用均匀采样的遮蔽率时,模型的预测准确性得到了提升。

由于最优的遮蔽率可能因块的大小而有所不同,研究人员在训练过程中自适应地学习这些遮蔽率,在每次验证步骤中,每完成5000次梯度更新后,通过网格搜索来优化遮蔽率。

研究结果表明,针对每个块大小优化噪声调度可以减少损失估计器的方差,并在与其他噪声时间表的比较中实现最佳的困惑度性能。

实验结果

似然评估

BD3-LMs在扩散模型中达到了最先进的预测准确性(似然性),通过调整块的长度,BD3-LMs能够在扩散模型的似然性和自回归模型的似然性之间实现平衡。


任意长度序列生成

许多现有的扩散语言模型有一个重大缺陷:无法生成比训练时选择的输出上下文长度更长的完整文档。

例如,OpenWebText数据集中包含的文档最长可达13.1万个tokens,但离散扩散模型SEDD只能生成最多1024个token的内容。

实验结果展现了BD3-LMs能够通过解码任意数量的块来生成长度可变的文档,研究人员评估了BD3-LMs在生成长度可变的序列时的质量,并使用相同的生成步数(NFEs)来比较所有方法。

研究人员还测量了在GPT2-Large模型下采样序列的生成困惑度,结果显示BD3-LMs在所有之前的扩散方法中达到了最佳的生成困惑度。

研究人员还将其与半自回归SSD-LM进行了比较,在词嵌入上执行高斯扩散,但无法进行似然估计;相比之下,文中提出的离散方法在少一个数量级的生成步数下,生成的样本具有更低的生成困惑度。

简单来说,BD3-LMs不仅能够生成任意长度的文档,而且在生成效率和质量上都优于其他扩散模型。

参考资料:

https://arxiv.org/pdf/2503.09573

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
广西给物业公司发通牒:限期在3月15日前

广西给物业公司发通牒:限期在3月15日前

广西地产
2026-02-26 16:40:05
广东夫妻爆吵后“扔孩子”投江冲上热搜,我看到了最无能父母的样子……

广东夫妻爆吵后“扔孩子”投江冲上热搜,我看到了最无能父母的样子……

桌子的生活观
2026-02-26 12:17:54
随着中国赢日本 澳大利亚3连胜 韩国翻车 男篮世预赛晋级形势出炉

随着中国赢日本 澳大利亚3连胜 韩国翻车 男篮世预赛晋级形势出炉

侃球熊弟
2026-02-26 21:58:43
72岁迟重瑞卖房,与陈丽华感情破裂,百亿财产恐落空

72岁迟重瑞卖房,与陈丽华感情破裂,百亿财产恐落空

优趣纪史记
2026-02-17 20:51:46
超雄真的有那么可怕吗?网友的分享,一看一个不吱声

超雄真的有那么可怕吗?网友的分享,一看一个不吱声

另子维爱读史
2026-02-01 20:30:29
赶在特朗普来中国前,默茨把话摊开,直接向中方提出一个要求

赶在特朗普来中国前,默茨把话摊开,直接向中方提出一个要求

阿钊是个小小评论员
2026-02-27 03:22:13
赖清德投诚大陆?“台独”内部炸锅,大陆心里有数,这事绝不简单

赖清德投诚大陆?“台独”内部炸锅,大陆心里有数,这事绝不简单

东极妙严
2026-02-26 18:00:28
有色金属:震荡不必慌,本轮行情逻辑才刚清晰

有色金属:震荡不必慌,本轮行情逻辑才刚清晰

奇思妙想生活家
2026-02-26 21:22:41
韩国总统:将持续努力与朝鲜对话

韩国总统:将持续努力与朝鲜对话

财联社
2026-02-26 15:52:05
女孩当小姐,一晚要提供4到5次上门服务,2015年被亲人点到不赴约

女孩当小姐,一晚要提供4到5次上门服务,2015年被亲人点到不赴约

汉史趣闻
2025-11-08 09:27:32
35岁中国音乐家在美身亡:路边换轮胎不幸被卡车撞倒,曾是中美音乐交流中坚力量

35岁中国音乐家在美身亡:路边换轮胎不幸被卡车撞倒,曾是中美音乐交流中坚力量

红星新闻
2026-02-26 12:36:32
马刺逆转双杀猛龙豪取10连胜 文班12+8+5帽莺歌20+11丢绝平球

马刺逆转双杀猛龙豪取10连胜 文班12+8+5帽莺歌20+11丢绝平球

醉卧浮生
2026-02-26 11:12:28
杨毅:放眼国际篮联历史,这场比赛判罚也是无法无天的

杨毅:放眼国际篮联历史,这场比赛判罚也是无法无天的

懂球帝
2026-02-26 20:54:03
发现一个悲哀现象:中国的长寿老人,几乎都是子女用生命在托举

发现一个悲哀现象:中国的长寿老人,几乎都是子女用生命在托举

谈史论天地
2026-02-21 08:33:48
“从凌晨喊到天亮”!不少珠海人被吵到!

“从凌晨喊到天亮”!不少珠海人被吵到!

王晓爱体彩
2026-02-26 14:50:44
女子5.5克黄金戒指换新只剩下2克,丈夫:损失三四千元,实在气不过,店方:5G黄金是一口价的金饰工艺,不是克数

女子5.5克黄金戒指换新只剩下2克,丈夫:损失三四千元,实在气不过,店方:5G黄金是一口价的金饰工艺,不是克数

大风新闻
2026-02-26 15:52:03
注意!海淀这家大超市已闭店!

注意!海淀这家大超市已闭店!

海淀邻友圈
2026-02-26 14:03:21
津媒:安东尼奥近期将与邵佳一交流,少量U23球员将进入国足

津媒:安东尼奥近期将与邵佳一交流,少量U23球员将进入国足

懂球帝
2026-02-26 16:08:00
日本男篮输破防了?赛后投诉裁判偏袒中国队:郭士强进场也不吹?

日本男篮输破防了?赛后投诉裁判偏袒中国队:郭士强进场也不吹?

篮球快餐车
2026-02-27 00:25:59
小猎豹老婆打紧缩针!金晨的鼻子“罢工”!

小猎豹老婆打紧缩针!金晨的鼻子“罢工”!

八卦疯叔
2026-02-26 11:47:39
2026-02-27 05:00:49
新智元 incentive-icons
新智元
AI产业主平台领航智能+时代
14596文章数 66644关注度
往期回顾 全部

科技要闻

单季营收681亿净利429亿!英伟达再次炸裂

头条要闻

美国政府对外交官下令:开始行动

头条要闻

美国政府对外交官下令:开始行动

体育要闻

从排球少女到冰壶女神,她在米兰冬奥练出6块腹肌

娱乐要闻

向华强公开表态 财产留给儿媳妇郭碧婷

财经要闻

中国AI调用量超美国 4款大模型霸榜前5

汽车要闻

40岁的吉利,不惑于内外

态度原创

数码
房产
教育
公开课
军事航空

数码要闻

三星Galaxy S26全球新品发布

房产要闻

2.2万/m²起!三亚主城性价比标杆 海垦·桃花源实景现房春节被疯抢

教育要闻

小升初学霸题,能答对很厉害了,求面积

公开课

李玫瑾:为什么性格比能力更重要?

军事要闻

美政府给新伊核协议设限内容遭披露

无障碍浏览 进入关怀版