网易首页 > 网易号 > 正文 申请入驻

无限生成视频,规划决策,扩散强制整合下一token预测与全序列扩散

0
分享至

机器之心报道

编辑:Panda W

当前,采用下一 token 预测范式的自回归大型语言模型已经风靡全球,同时互联网上的大量合成图像和视频也早已让我们见识到了扩散模型的强大之处。

近日,MIT CSAIL 的一个研究团队(一作为 MIT 在读博士陈博远)成功地将全序列扩散模型与下一 token 模型的强大能力统合到了一起,提出了一种训练和采样范式:Diffusion Forcing(DF)。

  • 论文标题:Diffusion Forcing:Next-token Prediction Meets Full-Sequence Diffusion
  • 论文地址:https://arxiv.org/pdf/2407.01392
  • 项目网站:https://boyuan.space/diffusion-forcing
  • 代码地址:https://github.com/buoyancy99/diffusion-forcing

如下所示,扩散强制在一致性和稳定性方面都明显胜过全序列扩散和教师强制这两种方法。

在该框架中,每个 token 都关联了一个随机的、独立的噪声水平,并且可使用一种共享的下一 token 预测模型或下几 token 预测模型根据任意的、独立的、每 token 的方案对 token 进行去噪。

该方法的研究灵感来自这一观察:对 token 加噪声的过程就是一种形式的部分掩码过程 —— 零噪声就意味着未对 token 加掩码,而完整噪声则是完全掩蔽 token。因此,DF 可强迫模型学习去除任何可变有噪声 token 集合的掩码(图 2)。

与此同时,通过将预测方法参数化为多个下一 token 预测模型的组合,该系统可以灵活地生成不同长度的序列,并以组合方式泛化到新的轨迹(图 1)。

该团队将用于序列生成的 DF 实现成了因果扩散强制(Causal Diffusion Forcing/CDF),其中未来 token 通过一个因果架构依赖于过去 token。他们训练该模型一次性去噪序列的所有 token(其中每个 token 都有独立的噪声水平)。

在采样期间,CDF 会将一个高斯噪声帧序列逐渐地去噪成洁净的样本,其中不同帧在每个去噪步骤可能会有不同的噪声水平。类似于下一 token 预测模型,CDF 可以生成长度可变的序列;不同于下一 token 预测,CDF 的表现非常稳定 —— 不管是预测接下来的一个 token,还是未来的数千 token,甚至是连续 token。

此外,类似于全序列扩散,它也可接收引导,从而实现高奖励生成。通过协同利用因果关系、灵活的范围和可变噪声调度,CDF 能实现一项新功能:蒙特卡洛树引导(MCTG)。相比于非因果全序列扩散模型,MCTG 能极大提升高奖励生成的采样率。图 1 给出了这些能力的概况。

实验

该团队评估了扩散强制作为生成序列模型的优势,其中涉及视频和时间序列预测、规划和模仿学习等多种应用。

视频预测:一致且稳定的序列生成和无限展开

针对视频生成式建模任务,他们基于 Minecraft 游戏视频和 DMLab 导航为因果扩散强制训练了一个卷积 RNN 实现。

图 3 展示了扩散强制与基准的定性结果。

可以看到,扩散强制能稳定地展开,甚至能超过其训练范围;而教师强制和全序列扩散基准会很快发散。

扩散规划:MCTG、因果不确定性、灵活的范围控制

扩散强制的能力能为决策带来独有的好处。该团队使用一种标准的离线强化学习框架 D4RL 评估了新提出的决策框架。

表 1 给出了定性和定量的评估结果。可以看到,扩散强制在全部 6 个环境中都优于 Diffuser 和所有基准。

可控的序列组合生成

该团队发现,仅需修改采样方案,就可以灵活地组合训练时间观察到的序列的子序列。

他们使用一个 2D 轨迹数据集进行了实验:在一个方形平面上,所有轨迹都是始于一角并最终到达对角,形成一种十字形。

如上图 1 所示,当不需要组合行为时,可让 DF 保持完整记忆,复制十字形的分布。当需要组合时,可让模型使用 MPC 无记忆地生成更短的规划,从而实现对这个十字形的子轨迹的缝合,得到 V 形轨迹。

机器人:长范围模仿学习和稳健的视觉运动控制

扩散强制也为真实机器人的视觉运动控制带来了新的机会。

模仿学习是一种常用的机器人操控技术,即学习专家演示的观察到动作的映射。但是,缺乏记忆往往会让模仿学习难以完成长范围的任务。DF 不仅能缓解这个短板,还能让模仿学习更稳健。

使用记忆进行模仿学习。通过遥控 Franka 机器人,该团队收集了一个视频和动作数据集。如图 4 所示,任务就是利用第三个位置交换苹果和橘子的位置。水果的初始位置是随机的,因此可能的目标状态有两个。

此外,当第三个位置有一个水果时,就无法通过当前观察推断出所需结果 —— 策略必须记住初始配置才能决定移动哪个水果。不同于常用的行为克隆方法,DF 可以自然地将记忆整合进自己的隐藏状态中。结果发现,DF 能实现 80% 的成功率,而扩散策略(当前最佳的无记忆模仿学习算法)却失败了。

此外,DF 还能更稳健地应对噪声并助益机器人预训练。

时间序列预测:扩散强制是一种优秀的通用序列模型

对于多变量时间序列预测任务,该团队的研究表明 DF 足以与之前的扩散模型和基于 Transformer 的模型媲美。

更多技术细节和实验结果请参阅原论文。

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
末节4分!四连败!辽宁跌至第15!攻守毫无侵略性,球迷呼喊下课

末节4分!四连败!辽宁跌至第15!攻守毫无侵略性,球迷呼喊下课

篮球资讯达人
2026-01-25 22:01:46
海归光环已经消失?49.5万留学生涌回国,残酷真相:企业只认这个

海归光环已经消失?49.5万留学生涌回国,残酷真相:企业只认这个

鬼菜生活
2026-01-12 11:46:20
辽宁单节4分惨负新疆引热议!球迷狂刷官媒“输得脸都不要?”

辽宁单节4分惨负新疆引热议!球迷狂刷官媒“输得脸都不要?”

狼叔评论
2026-01-25 22:30:20
四川街头惊现外地救护车 引发群众猜疑和恐慌

四川街头惊现外地救护车 引发群众猜疑和恐慌

七彩云南简南俊
2026-01-25 17:56:40
皇马准备7800万英镑求购利物浦“世界级”球星,红军恐难留人

皇马准备7800万英镑求购利物浦“世界级”球星,红军恐难留人

夜白侃球
2026-01-25 21:14:29
牢A事件仍在发酵!一中国留学女生对外国男友提出体检,惨遭杀害

牢A事件仍在发酵!一中国留学女生对外国男友提出体检,惨遭杀害

火山诗话
2026-01-25 07:03:16
林志玲被曝日本“拍片”?片段流出,网友:你怎么沦落成这样 ……

林志玲被曝日本“拍片”?片段流出,网友:你怎么沦落成这样 ……

八卦王者
2026-01-24 16:26:47
“特朗普和企鹅漫步格陵兰岛”图遭群嘲!白宫发文:“企鹅从不在意那些无法理解它的人的看法”

“特朗普和企鹅漫步格陵兰岛”图遭群嘲!白宫发文:“企鹅从不在意那些无法理解它的人的看法”

都市快报橙柿互动
2026-01-25 17:50:22
广州人注意!阳性率上升,传染性强!目前暂无疫苗或者特效药!

广州人注意!阳性率上升,传染性强!目前暂无疫苗或者特效药!

羊城攻略
2026-01-24 22:58:42
王诗龄这会儿估计也挺闹心的,李湘自己没料到,孩子怕是也想不通

王诗龄这会儿估计也挺闹心的,李湘自己没料到,孩子怕是也想不通

小光侃娱乐
2026-01-25 14:45:03
美航母还没到,伊朗抢先下死手!导弹绞杀盟友基地,五角大楼慌了

美航母还没到,伊朗抢先下死手!导弹绞杀盟友基地,五角大楼慌了

南山塔的姑娘
2026-01-24 18:09:27
中方阳谋奏效!特朗普心态崩了,五角大楼:请33国防长迅速赴美

中方阳谋奏效!特朗普心态崩了,五角大楼:请33国防长迅速赴美

防务观察室
2026-01-24 15:23:29
600581,去年预亏超18亿元,股票可能被实施退市风险警示

600581,去年预亏超18亿元,股票可能被实施退市风险警示

证券时报e公司
2026-01-25 19:03:22
重磅!官方宣布:禁止房子大降价,“限跌令”重出江湖!

重磅!官方宣布:禁止房子大降价,“限跌令”重出江湖!

常州壹楼市
2026-01-17 23:59:54
王楠没想到,她养大、不让打乒乓球的儿子,如今成全家的骄傲

王楠没想到,她养大、不让打乒乓球的儿子,如今成全家的骄傲

白面书誏
2026-01-24 19:33:09
银价涨太猛!女子三年前6000元买的钻戒,现在只值几百元,赠品足银保温杯却已价值2000元!

银价涨太猛!女子三年前6000元买的钻戒,现在只值几百元,赠品足银保温杯却已价值2000元!

每日经济新闻
2026-01-25 14:39:10
1970年陈独秀女儿被批斗后,打算偷渡香港,结果刚上岸就遇到警察

1970年陈独秀女儿被批斗后,打算偷渡香港,结果刚上岸就遇到警察

鉴史录
2026-01-22 18:43:41
1996年, 施瓦辛格在家中无事,和35岁200斤女佣发生不当关系

1996年, 施瓦辛格在家中无事,和35岁200斤女佣发生不当关系

南权先生
2026-01-20 15:49:53
陈光标怒撕梁小龙死因遮羞布:哪里是病死,分明是被折腾死的

陈光标怒撕梁小龙死因遮羞布:哪里是病死,分明是被折腾死的

削桐作琴
2026-01-24 19:12:19
蒙古国首都骚乱再起,社会矛盾愈发尖锐,反华到底图啥

蒙古国首都骚乱再起,社会矛盾愈发尖锐,反华到底图啥

素衣读史
2026-01-24 17:12:53
2026-01-25 23:28:49
机器之心Pro incentive-icons
机器之心Pro
专业的人工智能媒体
12179文章数 142549关注度
往期回顾 全部

科技要闻

黄仁勋在上海逛菜市场,可能惦记着三件事

头条要闻

格陵兰岛官员喊话美国:别碰我们的矿产

头条要闻

格陵兰岛官员喊话美国:别碰我们的矿产

体育要闻

中国足球不会一夜变强,但他们已经创造历史

娱乐要闻

央八开播 杨紫胡歌主演的40集大剧来了

财经要闻

隋广义等80人被公诉 千亿骗局进入末路

汽车要闻

别克至境E7内饰图曝光 新车将于一季度正式发布

态度原创

健康
艺术
游戏
时尚
房产

耳石脱落为何让人天旋地转+恶心?

艺术要闻

砸31亿!赛力斯“超级圆环”新进展,造型太科幻!

《地平线6》腕带进度调整!从路边游客到传奇车手

看了鲁豫对章小蕙的采访,最大感触是这一点

房产要闻

正式官宣!三亚又一所名校要来了!

无障碍浏览 进入关怀版