网易首页 > 网易号 > 正文 申请入驻

逐字生成非最优?Block Diffusion打通了自回归与扩散

0
分享至

机器之心报道

编辑:杜伟、王佳琳

去年初,OpenAI 的视频生成模型 Sora 带火了扩散模型。

如今,扩散模型被广泛用于生成图像和视频,并在生成文本或生物序列等离散数据方面变得越来越有效。从技术上讲,与自回归模型相比,扩散模型具有加速生成和提高模型输出可控性的潜力。

目前,离散扩散模型目前面临至少三个限制。首先,在聊天系统等应用中,模型必须生成任意长度的输出序列(例如对用户问题的回答)。但是,大多数最新的扩散架构仅能生成固定长度的向量。其次,离散扩散模型在生成过程中使用双向上下文,因此无法使用 KV 缓存重用以前的计算,这会降低推理效率。第三,以困惑度等标准指标衡量的离散扩散模型,质量落后于自回归方法,进一步限制了其适用性。

本文中,来自 Cornell Tech、斯坦福大学、Cohere 的研究者提出通过块离散去噪扩散语言模型(Block Discrete Denoising Diffusion Language Models,BD3-LMs)来解决以上限制,该模型在扩散和自回归模型之间进行插值。

具体来讲,块扩散模型(也是半自回归模型)定义了离散随机变量块的自回归概率分布,而给定先前块的条件概率由离散去噪扩散模型指定。

  • 论文标题:Block Diffusion: Interpolating Between Autoregressive and Diffusion Language Models
  • 论文地址:https://arxiv.org/pdf/2503.09573
  • 项目主页:https://m-arriola.com/bd3lms/

下图为 Block Diffusion 与自回归、扩散模型的生成效果对比:

研究者表示,开发有效的 BD3-LM 面临以下两个挑战:一是使用神经网络的一次标准前向传递无法有效地计算块扩散模型的训练目标,需要开发专门的算法。二是扩散目标梯度的高方差阻碍了训练,导致 BD3-LM 即使在块大小为 1 的情况下(当两个模型等效时)也表现不佳。

因此,研究者推导出梯度方差的估计量,并证明它是自回归和扩散之间困惑度差距的关键因素。然后,他们提出了自定义噪声过程,以实现最小化梯度方差并进一步缩小困惑度差距。

实验部分,研究者在多个语言建模基准上评估了 BD3-LM,并证明它们能够生成任意长度的序列,包括超出其训练上下文的长度。此外,BD3-LM 在离散扩散模型中实现了新的 SOTA 困惑度。与对嵌入进行高斯扩散的替代半自回归方法相比,本文离散方法实现了易于处理的似然估计,并在少一个数量级生成步骤的情况下,生成的样本在困惑度方面得到了改进。

论文一作 Marianne Arriola 发推称,扩散语言模型在并行文本生成领域正在崛起,但与自回归模型相比,它们存在质量、固定长度限制和缺乏 KV 缓存等问题。本文 Block Diffusion 将自回归和扩散模型结合了起来,实现了两全其美。

BD3-LMs 模型概览

研究者结合建模范式,从自回归模型中获得更好的似然估计和灵活的长度生成,并从扩散模型中获得了快速的并行生成效果。

块扩散似然

研究者提出了一个建模框架,该框架对 token 块进行自回归建模,并在每个块内执行扩散操作。他们对长度为 L′ 的 B 个块进行似然分解,如下所示:

每个 pθ(x^b|x^

研究者使用简单的离散扩散参数化对每个块的似然进行建模,最终目标是对交叉熵项进行加权总和:

高效的训练与采样算法

理解扩散模型与自回归模型之间的似然差距

案例研究:单 Token 生成

该研究中的块扩散参数化在期望上等同于自回归负对数似然 (NLL),特别是在 L′=1 的极限情况下。令人惊讶的是,当在 LM1B 数据集上训练两种模型时,研究发现块扩散模型 (L′=1) 与自回归模型之间存在两点困惑度差距。研究确定扩散目标的高训练方差是导致这一困惑度差距的原因。

在离散扩散 ELBO 下进行训练时,存在高方差。

高方差训练导致的扩散差距

实验结果

似然评估

BD3-LMs 在扩散模型中实现了最先进的似然水平。研究表明,通过调整块长度 L′,BD3-LMs 可以在扩散和自回归似然之间实现插值。

在 OWT 上测试针对 262B 标记训练的模型的困惑度 (PPL; ↓)。

任意长度序列生成

许多现有扩散语言模型的一个主要缺点是,它们无法生成超过训练时选择的输出上下文长度的完整文档。例如,OpenWebText 包含最长达 131K tokens 的文档,而离散扩散模型 SEDD(Lou 等人)仅限于生成 1024 tokens。研究表明,BD3-LMs 能够通过解码任意数量的块来生成可变长度的文档。

从在 OWT 上训练的模型中抽样 500 个文档得出的生成长度统计信息。

研究者评估了 BD3-LMs 在变长序列上的生成质量,使用相同数量的生成步骤(NFEs)比较了所有方法。他们用 GPT2-Large 模型测量生成序列的困惑度。结果表明,与之前所有的扩散方法相比,BD3-LMs 实现了最佳的生成困惑度。

300 个可变长度样本的生成困惑度 (Gen. PPL;↓) 和功能评估次数 (NFE;↓)。所有模型都在 OWT 上进行训练,上下文长度为 L = 1024,并使用核采样。

对于 MDLM,研究者使用了其分块解码技术(该技术不同于 BD3-LMs 中的分块扩散训练)处理 L=2048 的序列。研究者还与 SSD-LM(Han 等人提出)进行了比较,后者是一种替代性的分块自回归方法(也称为半自回归),它对词嵌入执行高斯扩散,但无法进行似然估计。该研究的离散方法使用比其他方法少一个数量级的生成步骤,产生了具有更好生成困惑度的样本。

更多细节请参阅原论文。

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
没想到,春晚结束仅1周,央媒发文锐评王菲,狠狠替她出了口恶气

没想到,春晚结束仅1周,央媒发文锐评王菲,狠狠替她出了口恶气

让生活充满温暖
2026-02-25 10:07:35
50岁男子酷爱喝浓茶,茶叶能占半个杯子!连续5年确诊肾结石,痛到打滚如生孩子!医生提醒→

50岁男子酷爱喝浓茶,茶叶能占半个杯子!连续5年确诊肾结石,痛到打滚如生孩子!医生提醒→

大象新闻
2026-02-26 13:45:08
欧足联2025俱乐部收入榜:皇马第1,巴萨第2,前10英超占六席

欧足联2025俱乐部收入榜:皇马第1,巴萨第2,前10英超占六席

懂球帝
2026-02-26 19:50:06
成本2亿,日票房仅1100万,71岁成龙懵了:内地观众凭啥不买账?

成本2亿,日票房仅1100万,71岁成龙懵了:内地观众凭啥不买账?

糊咖娱乐
2026-02-25 18:38:49
血脉压制结局:谁是赢家

血脉压制结局:谁是赢家

金昔说故事
2026-02-25 14:13:06
黑社会去哪了?原来都藏在这4个场所,老百姓千万别惹

黑社会去哪了?原来都藏在这4个场所,老百姓千万别惹

小彭的灿烂笔记1
2026-02-05 18:20:18
离岸人民币兑美元升破6.83,日内涨0.3386%,现报6.8297

离岸人民币兑美元升破6.83,日内涨0.3386%,现报6.8297

每日经济新闻
2026-02-26 14:05:21
男子地铁连续3次猥亵同一女子,被抓后辩称对方“像年轻时的妻子”,专门摸清了她的通勤时间和车厢,被判处有期徒刑8个月

男子地铁连续3次猥亵同一女子,被抓后辩称对方“像年轻时的妻子”,专门摸清了她的通勤时间和车厢,被判处有期徒刑8个月

大风新闻
2026-02-26 16:45:03
商务部:将日有关实体列入出口管制管控名单和关注名单完全正当、合理、合法

商务部:将日有关实体列入出口管制管控名单和关注名单完全正当、合理、合法

界面新闻
2026-02-26 15:15:43
2026年开局,苦尽甘来开始暴富的三个星座,熬过寒冬就是春天

2026年开局,苦尽甘来开始暴富的三个星座,熬过寒冬就是春天

小晴星座说
2026-02-26 18:37:23
仅播6集,就拿下飙升榜冠军,不愧是你们盼了2年的黑马刑侦剧!

仅播6集,就拿下飙升榜冠军,不愧是你们盼了2年的黑马刑侦剧!

黔乡小姊妹
2026-02-26 08:50:04
商业航天重组第一黑马,6元+军工信息化+卫星发射+核电

商业航天重组第一黑马,6元+军工信息化+卫星发射+核电

风风顺
2025-12-07 10:23:50
迷失无人区:女子带藏獒无人区失联两周,警方找到车,车内只剩藏獒

迷失无人区:女子带藏獒无人区失联两周,警方找到车,车内只剩藏獒

罪案洞察者
2025-11-10 13:57:07
日本记者在伊朗突然被抓,关进最敏感监狱

日本记者在伊朗突然被抓,关进最敏感监狱

桂系007
2026-02-25 06:44:55
揭秘大毒枭门乔的帝国:重型武器、四百名武装死士与地雷网

揭秘大毒枭门乔的帝国:重型武器、四百名武装死士与地雷网

世界王室那些事
2026-02-25 15:52:16
赵露思早期艺术体操,体态真好!散发着青春健康的年轻活力美

赵露思早期艺术体操,体态真好!散发着青春健康的年轻活力美

东方不败然多多
2026-02-27 00:40:04
王劲松发声:太可怕了

王劲松发声:太可怕了

南方都市报
2026-02-26 23:37:54
小沢菜穗 41岁再复出,10月神作!

小沢菜穗 41岁再复出,10月神作!

孤独的独角兽影视
2026-02-14 10:00:10
陈婷隐忍12年换来的不是名分,是张艺谋老了也离不开的这张王牌

陈婷隐忍12年换来的不是名分,是张艺谋老了也离不开的这张王牌

TVB的四小花
2026-02-27 02:25:41
纳指跌幅扩大至2%

纳指跌幅扩大至2%

每日经济新闻
2026-02-26 23:42:08
2026-02-27 03:08:49
机器之心Pro incentive-icons
机器之心Pro
专业的人工智能媒体
12368文章数 142569关注度
往期回顾 全部

科技要闻

单季营收681亿净利429亿!英伟达再次炸裂

头条要闻

美国政府对外交官下令:开始行动

头条要闻

美国政府对外交官下令:开始行动

体育要闻

从排球少女到冰壶女神,她在米兰冬奥练出6块腹肌

娱乐要闻

向华强公开表态 财产留给儿媳妇郭碧婷

财经要闻

中国AI调用量超美国 4款大模型霸榜前5

汽车要闻

40岁的吉利,不惑于内外

态度原创

房产
数码
艺术
公开课
军事航空

房产要闻

2.2万/m²起!三亚主城性价比标杆 海垦·桃花源实景现房春节被疯抢

数码要闻

传魅族手机业务3月退出历史舞台 车机业务独立运营

艺术要闻

莫妮卡、麦当娜……这个法国女人拍遍了全世界的性感女神!

公开课

李玫瑾:为什么性格比能力更重要?

军事要闻

美政府给新伊核协议设限内容遭披露

无障碍浏览 进入关怀版