网易首页 > 网易号 > 正文 申请入驻

图灵奖得主加持,蒙特卡洛树搜索×扩散模型杀回规划赛道

0
分享至

  • henry 发自 凹非寺
    量子位 | 公众号 QbitAI

一个不起眼的迷宫导航任务,却能让一众模型“原形毕露”。

Diffuser和Diffusion Forcing双双翻车,通关率低得可怜。

唯独有一个模型,通关率高达 100%。

而它就来自图灵奖得主Yoshua Bengio与其团队提出的全新方法:蒙特卡洛树扩散(Monte Carlo Tree Diffusion, MCTD)

这个方法将“上古时代”的蒙特卡洛树搜索,和当下热门的扩散模型结合在一起,突破了扩散模型在长程任务推理阶段缺乏可扩展性的瓶颈,并成功入选ICML 2025的Spotlight。

Make MCTS Great Again?

如何在探索(Explore)未知可能性以寻找更优解和利用(Exploit)当前已知最佳方案之间取得平衡,一直是复杂决策和长程规划任务的核心挑战之一。

一个过于强调探索的系统可能效率低下,在大量平庸选项中徘徊;而一个过于强调利用的系统则可能过早收敛到局部最优,错过全局最佳解。

对于扩散模型来说,它虽然能够通过去噪过程实现高质量、全局一致的序列生成(对数据分布的“利用”),但缺乏在不确定性下主动探索不同未来路径的能力。

而MCTS恰恰具备通过树形搜索结构进行高效探索和局部优化的能力,因而能够系统地权衡探索与利用,并在多个决策点进行智能选择。

由此,MCTD将扩散模型的全局一致性生成优势与MCTS的局部探索决策能力相结合。通过将轨迹划分为多个子规划来作为MCTS节点,并对不同子规划实施差异化的去噪调度,实现了在长程规划中探索与利用的平衡,提高了规划的效率和质量。

通过MCTS实现异步控制

在传统的扩散模型中,尤其是在生成轨迹时,模型通常将整条轨迹视为一个整体进行去噪,并用N来表示n个时间步的状态。

与之相反,MCTD并不把整个N个时间步的轨迹作为一个整体去噪,而是将它划分为S个时间段。在论文中,MCTD则先将完整轨迹X划分5个没有重叠的子轨迹。

例如,如果 N=500,S=5,那么一个可能的划分是:

这些子规划在每个时间段(如1-100)是独立的,它们之间没有共享的时间步。

由此,每个子规划的结束可以看作是完整轨迹的一个切片。当模型对一个特定的子规划进行去噪时,这段子规划内部的所有时间步都会同时参与到去噪过程中,遵循针对该子规划设定的统一的去噪调度。

而在不同的子规划之间,MCTS决定了不同子规划的去噪进度和深度,并通过其四个阶段表现出来。

  • Selection:从已有的MCTS中,使用UCB(Upper Confidence Bound,在树中选择最有前景的节点)策略选择一个表示部分去噪轨迹片段(即子规划)的节点。
  • Expansion:从选定的子规划节点的末端状态出发,根据不同的动作或决策,生成一个或多个新的子规划节点。这些新节点代表了从当前状态开始的下一段未探索的轨迹片段。同时,为了进行更智能的规划,MCTS还通过元动作引导级别(Guidance Levels as Meta-Action)来确定子节点的引导级别。高引导级别意味着更精细地、明确地去噪(利用),而低引导级别则意味着去噪过程可以更加自由,允许尝试新的路径(探索)。
  • Simulation:从新扩展的子规划节点开始,MCTD 会利用扩散模型进行“跳跃式去噪”(Jumpy Denoising),快速生成一个从该子规划开始到轨迹末端的粗略但完整的未来轨迹序列。然后,通过一个奖励函数评估这个粗略轨迹的价值。
  • Backpropagation:将“模拟”阶段得到的整个轨迹的奖励值,从模拟开始的子规划节点,沿着树向上,更新其所有祖先子规划节点的访问次数和累积奖励。这些更新将指导未来的Selection阶段,使得 MCTS 能够更好地利用高回报路径,探索未知的路径。

由此,模型一方面将传统的“状态”和“动作”的粒度提升到了“子规划”和“子规划间连接”的粒度;另一方面,则通过MCTS过程,控制前后子规划的降噪进度,实现异步控制,从而能够更高效地处理长序列生成和规划问题。

实验结果

MCTD在包括迷宫导航、机械臂操作、视觉迷宫(部分可观测环境)等任务上进行了测试。

在迷宫导航任务中,MCTD在所有地图尺寸(medium/large/giant)上均接近100%成功率,显著优于基线方法。

在机械臂立方体操作中,所有方法在单方块任务上性能相当。而MCTD-Replanning在多方块场景中表现出显著的性能优势,将双方块任务的成功率从22%提升至50%。

在视觉迷宫中,MCTD优于所有基线,表明其在高维感知空间中的鲁棒性。

最后,随着推理计算预算的增加(如增加最大去噪步数),MCTD成功率持续提升,而Diffuser/Diffuser-Random Search收益有限,验证了MCTD的推理可扩展性。

总体而言,尽管MCTD通过将基于搜索的规划与扩散模型结合,在推理阶段的可扩展性上取得了提升,但由于其类似“系统二”的深度推理方式,计算成本仍然较高。

此外,由于MCTD在大规模搜索空间中效率较低——即使采用了低维的元动作(meta-actions),评估多个轨迹假设的计算开销依然很高。

因此,如何提升整体效率成为了MCTD进一步改进的目标。

Fast-MCTD:加速100倍!

为了解决了MCTD计算开销大,推理时间长的缺点,研究团队又进一步推出了快速蒙特卡洛树扩散框架(Fast Monte Carlo Tree Diffusion,Fast-MCTD,相比前作MCTD,在特定任务上的推理速度提升了100倍。

在原始的MCTD框架中,主要有两个效率瓶颈:

首先,MCTS算法在设计上是顺序的,每次迭代(一次完整的Selection、Expansion、Simulation、Backpropagation)完成后,才会更新搜索树的统计信息(如节点访问次数和价值估计)。这种串行更新机制限制了算法的并行执行能力

其次,扩散模型在生成轨迹时需要执行多次迭代去噪操作。当处理长轨迹时,每一次去噪都是一个计算密集型任务,导致整体计算开销巨大。

因此,为了降低树搜索和迭代去噪的计算开销,同时保留 MCTD 强大的规划能力,Fast-MCTD集成了两种关键的优化技术:并行MCTD和稀疏MCTD。

并行MCTD:提升并行性

MCTD沿用了MCTS的顺序性,即每次模拟完成后才更新树。并行MCTD引入了并行处理,这是Fast-MCTD与前作最显著的区别。

并行MCTD允许K个并发的rollouts。每个rollout在共享的、固定快照(fixed snapshot)的搜索树上独立进行。

树的更新(价值估计和访问计数)只有在整个批次的所有rollouts完成后才统一应用 。不过,当批处理量增大时,树的统计信息会变得过时,降低选择的准确性,从而影响规划性能 。

为了解决上述问题,并行MCTD引入冗余感知选择 (Redundancy-Aware Selection - RAS):它在每个并行搜索阶段临时引入一个辅助访问计数变量,顺序跟踪当前批次中的选择,并在延迟树更新后重置。

这修改了标准UCT的选择准则,通过一个超参数惩罚当前批次中已被选中的节点,鼓励其他rollouts探索树的不同部分 。

由于扩散模型去噪操作昂贵,并行MCTD提出了统一的批处理策略,在扩展和模拟阶段同时处理多个由 RAS 选择的子规划。它通过调度噪声级别和同步DDIM(Denoising Diffusion Implicit Models)更新来批处理去噪步骤。为了处理子规划和不同引导级别,子规划被填充并打包成统一形状的张量,以实现GPU上的高吞吐量并行执行。

稀疏MCTD:减少Rollout长度

MCTD虽然将轨迹分段为子规划,但每个子规划内部仍然是相对密集的轨迹。Fast-MCTD引入了轨迹粗化,从根本上缩短了有效规划时域。通过轨迹粗化 (trajectory coarsening) 在更高的抽象层次上进行rollouts,从而减少rollout的长度和总计算成本。

具体来说,在训练扩散模型之前,通过每隔H步进行下采样,构建粗粒度轨迹数据集.使用在这些压缩表示上训练的专用稀疏扩散规划器来建模粗粒度轨迹。由此,涉及规划的子轨迹数量大大减少,降低总体搜索复杂度及去噪成本。

在迷宫导航测试中,Fast-MCTD相对于标准MCTD实现了约80-110倍的显著加速,而性能损失极小。

而在机械臂操作中,Fast-MCTD在保持MCTD性能的同时,显著提升了效率。

在视觉迷宫中,Fast-MCTD表现出显著的效率提升,比 MCTD 快 25-60 倍,而在更大的迷宫中甚至超越了MCTD。

可以说,Fast-MCTD 在保持或提升规划性能的同时,实现了数量级的速度提升(最高100倍),成为了更实用和可扩展的解决方案 。

ONE MORE THING

这两篇论文的一作均来自韩国科学技术院(KAIST)的博士生尹在植(Jaesik Yoon)。

本文的另一位作者则是尹在植的指导老师安成镇(Sungjin Ahn),安成镇教授是韩国科学技术院和纽约大学的联聘教授。

他的研究方向包括:可扩展贝叶斯推理、深度学习以及人工智能与认知科学的交叉领域,并多次担任NeurIPS、ICM、ICLR等顶会AC。

他于加州大学欧文分校获得博士学位,在Max Welling教授指导下专注于近似贝叶斯推理研究。随后在蒙特利尔大学的MILA实验室进行博士后研究,师从深度学习先驱、图灵奖得主Yoshua Bengio教授。

论文链接:
[1]https://arxiv.org/pdf/2502.07202
[2]https://arxiv.org/pdf/2506.09498
学术主页:
[1]https://jaesikyoon.com/
[2]https://mlml.kaist.ac.kr/sungjinahn

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
上海楼市失控了....

上海楼市失控了....

新浪财经
2026-03-27 00:18:46
特朗普撤回通牒,伊朗打来电话,希望中方伸出援手,王毅斩钉截铁

特朗普撤回通牒,伊朗打来电话,希望中方伸出援手,王毅斩钉截铁

华史谈
2026-03-26 23:37:39
事关停火!刚刚,特朗普最新发声!伊朗,大消息!

事关停火!刚刚,特朗普最新发声!伊朗,大消息!

证券时报
2026-03-27 00:56:03
扎哈罗娃警告日本:任何试图向乌提供致命武器之举,都将招致强硬回应

扎哈罗娃警告日本:任何试图向乌提供致命武器之举,都将招致强硬回应

环球网资讯
2026-03-26 08:55:12
刘强东章泽天的大姑娘!感觉像爸爸多一点

刘强东章泽天的大姑娘!感觉像爸爸多一点

可乐谈情感
2026-03-27 03:08:27
20亿美元还不够!中企对巴拿马索赔涨价,巴政府内部已经乱套了

20亿美元还不够!中企对巴拿马索赔涨价,巴政府内部已经乱套了

悄悄史话
2026-03-26 14:09:05
人社部明确:事业编制改革启动,3100万人的“铁饭碗”要变了

人社部明确:事业编制改革启动,3100万人的“铁饭碗”要变了

慧眼看世界哈哈
2026-03-24 06:36:05
长护险制度全面推开!国家医保局:参保人无论来自农村还是城市,从同一个资金池报销费用

长护险制度全面推开!国家医保局:参保人无论来自农村还是城市,从同一个资金池报销费用

红星新闻
2026-03-26 11:28:05
国民党内讧开始,马英九拒绝电话、倒向美国?大陆发布统一后安排

国民党内讧开始,马英九拒绝电话、倒向美国?大陆发布统一后安排

一家说
2026-03-27 01:31:09
张雪峰的病,速效救心丸能救吗?

张雪峰的病,速效救心丸能救吗?

中国新闻周刊
2026-03-25 16:23:30
伊朗注意了,美军可能声东击西!第82空降师实力有多强?

伊朗注意了,美军可能声东击西!第82空降师实力有多强?

科普100克克
2026-03-27 01:06:44
0.028%!无罪判决率跌至谷底,为何国际水平是我们的35倍?

0.028%!无罪判决率跌至谷底,为何国际水平是我们的35倍?

深析古今
2026-03-25 01:10:47
伊朗官媒发布《为众人复仇》AI短片:一枚伊朗导弹在哈梅内伊等人注视下,精准炸毁幻化成羊头恶魔的美国自由女神像

伊朗官媒发布《为众人复仇》AI短片:一枚伊朗导弹在哈梅内伊等人注视下,精准炸毁幻化成羊头恶魔的美国自由女神像

大象新闻
2026-03-26 09:45:03
航班在美国发生事故后加拿大航空公司CEO仅用英语发表讲话,加总理批:我非常失望

航班在美国发生事故后加拿大航空公司CEO仅用英语发表讲话,加总理批:我非常失望

环球网资讯
2026-03-26 18:26:42
突发,雷军辞职董事长!

突发,雷军辞职董事长!

品牌头版
2026-03-26 14:46:17
很多人都患过“带状疱疹”,却不知它和“老年痴呆”有关!了解下

很多人都患过“带状疱疹”,却不知它和“老年痴呆”有关!了解下

岐黄传人孙大夫
2026-03-26 20:45:03
美国记者挖坑提问:万一台湾不想被统一怎么办?被中方精准反杀

美国记者挖坑提问:万一台湾不想被统一怎么办?被中方精准反杀

雪中风车
2026-02-23 19:34:34
美国懵了,能摧毁伊朗电力的石墨炸弹,竟让中国两座城市联手废了

美国懵了,能摧毁伊朗电力的石墨炸弹,竟让中国两座城市联手废了

瑛派儿老黄
2026-03-25 23:46:07
生死12分钟!广东一男子踢球时心脏骤停 一群医生冲上前接力心肺复苏救回一命

生死12分钟!广东一男子踢球时心脏骤停 一群医生冲上前接力心肺复苏救回一命

闪电新闻
2026-03-26 11:46:05
中国首创!打一针降血脂基因治疗获突破

中国首创!打一针降血脂基因治疗获突破

医学界
2026-03-26 19:17:50
2026-03-27 04:51:00
量子位 incentive-icons
量子位
追踪人工智能动态
12348文章数 176425关注度
往期回顾 全部

科技要闻

美团发布外卖大战后成绩单:亏损超200亿

头条要闻

特朗普:伊朗允许10艘油轮通行霍尔木兹海峡

头条要闻

特朗普:伊朗允许10艘油轮通行霍尔木兹海峡

体育要闻

申京努力了,然而杜兰特啊

娱乐要闻

刘晓庆妹妹发声!称姐姐受身边人挑拨

财经要闻

油价"驯服"特朗普?一到100美元就TACO

汽车要闻

一汽奥迪A6L e-tron开启预售 CLTC最大续航815km

态度原创

亲子
房产
教育
艺术
公开课

亲子要闻

试工育儿嫂被查出传染病,宝妈崩溃!家政服务“健康关”如何保障?

房产要闻

突发,三亚又有大批征迁补偿方案出炉!

教育要闻

2026年高考可能“扎堆报考”的五大专业:就业缺口大,稳定且高薪

艺术要闻

北京大兴机场和青岛胶东机场“撞脸”,长得像就是抄袭?

公开课

李玫瑾:为什么性格比能力更重要?

无障碍浏览 进入关怀版