网易首页 > 网易号 > 正文 申请入驻

ICML 2026|PRISM框架:拒绝暴力算力,让dLLM高效测试时扩展

0
分享至

近年来,大模型能力提升的焦点正在从「训练时扩展」转向「推理时扩展」。从 Best-of-N、Self-Consistency 到更复杂的搜索与验证框架,Test-Time Scaling 已经成为提升大模型复杂推理能力的重要范式。

然而,一个长期被忽视的问题是:这些方法大多默认模型是自回归生成的。

对于离散扩散语言模型(Discrete Diffusion Language Models, dLLMs)而言,情况完全不同。dLLM 并不是从左到右逐 token 生成,而是从被 mask 的序列出发,通过多步去噪逐渐恢复完整答案。这种并行、非自回归的生成方式天然具备全局双向上下文,也更适合规划与自我修正;但与此同时,传统面向自回归模型设计的树搜索、过程奖励模型和 Best-of-N 推理并不能直接高效适配。

针对这一问题,论文提出了 PRISM:Pruning, Remasking, and Integrated Self-verification Method,一个专为离散扩散语言模型设计的高效 Test-Time Scaling 框架。其核心目标很明确:不是简单地让模型「多跑几遍」,而是在去噪过程中识别更有潜力的轨迹,动态裁剪、局部分支,并用模型自身完成轻量级验证,从而在较低推理预算下接近甚至超过 Best-of-N 的效果。



  • 论文标题:Prism: Efficient Test-Time Scaling via Hierarchical Search and Self-Verification for Discrete Diffusion Language Models

  • arXiv 地址:https://arxiv.org/abs/2602.01842

  • 代码地址:https://github.com/viiika/Prism


传统 Best-of-N 太贵,PRISM 重新设计 dLLM 的推理搜索

对于 dLLM 来说,朴素 Best-of-N 的代价非常直接:如果采样 N 条轨迹、每条轨迹需要 T 步去噪,那么总函数调用次数就是 O (NT)。这意味着所有候选答案都要完整跑完,即便其中很多轨迹在中途已经明显质量不佳,也仍然会消耗完整预算。

PRISM 的关键思路是把推理过程拆成三个阶段:早期随机探索、中期渐进裁剪和后期精修。

在高噪声阶段,模型输出仍然不稳定,因此 PRISM 保持较宽的候选集合以保留多样性;在早中期去噪窗口,当答案的「逻辑骨架」开始形成时,PRISM 使用自验证信号裁剪低质量轨迹,并把计算资源重新分配给更有前景的候选;最终,只保留较小数量的轨迹继续完成精修。论文中将这一过程称为 Hierarchical Trajectory Search(HTS)。

这种设计使得 PRISM 的实际复杂度接近 O (N + KT),其中 K 是最终保留的较小候选宽度。相比传统 Best-of-N 的 O (NT),这相当于把 “所有路线都跑到底” 改成了「先广泛探索,再集中火力」。

不是重新开始,而是在低置信 token 上局部分支

PRISM 的第二个关键组件是 Local Branching via Partial Remasking。直观来说,模型在中期去噪时已经形成了一部分高置信 token,这些 token 往往对应答案的稳定结构或逻辑骨架;与此同时,低置信 token 则可能对应不确定的推理细节、实现方式或局部表达。

PRISM 不会粗暴地丢弃整条轨迹重新采样,而是保留高置信部分,只对低置信位置进行重新 mask,然后从这些局部变化中生成新的分支。这样做的好处是,它既保留了已有的高质量结构,又能继续探索不同的细节实现,避免过早收敛到单一路径。论文图 2 对这一过程做了直观展示:在渐进裁剪阶段,PRISM 会围绕高分轨迹进行局部分支,并通过部分重 mask 生成新的候选。


不再依赖外部 verifier:模型自己给自己打分

很多 Test-Time Scaling 方法依赖额外的 reward model 或 verifier 来判断候选答案质量。但这会带来显著系统开销:部署时需要额外加载一个模型,显存、延迟和工程复杂度都会上升。

PRISM 提出了 Self-Verified Feedback(SVF):直接复用同一个 dLLM 作为二分类验证器。具体来说,模型先根据中间去噪状态生成一个完整候选答案,然后构造一个 Yes/No 验证 prompt,让模型判断该答案是否可能正确。PRISM 将 Yes 和 No 的 logits 转换为一个二元归一化分数,用于轨迹排序、裁剪和最终选择。

这一设计的价值在于,它把 verification 从「额外模型」变成了「同一模型的一次轻量自检」。论文进一步指出,SVF 调用次数相较去噪 NFE 很少,实验中通常低于总 NFE 的 10%,因此可以在较低额外开销下提供有效的搜索信号。


实验:在数学推理和代码生成上实现显著性价比提升

论文在四个基准上评估 PRISM:数学推理任务 GSM8K、MATH-500,以及代码生成任务 HumanEval、MBPP。实验覆盖三个离散扩散语言模型:LLaDA-8B-Instruct、Dream-7B-Instruct 和 LLaDA-2.0-mini。

在 LLaDA-8B-Instruct 上,PRISM(K=8)将 GSM8K 从 67.58% 提升到 85.30%,将 MATH-500 从 26.40% 提升到 42.80%;在代码任务上,HumanEval 提升 24.39 个百分点,MBPP 提升 16.40 个百分点。更重要的是,这些提升并不是通过线性增加 Best-of-N 计算量获得的:例如在 GSM8K 上,PRISM 用 1048 NFE 达到 85.30%,而 Best-of-16 需要 4096 NFE 才达到 87.50%,实现了超过 4 倍的去噪计算节省。

在论文图 1 中,PRISM 相比 Best-of-N 在多个任务上展现出更优的性能 — 计算曲线:在可比准确率下,GSM8K、MATH500、HumanEval、MBPP 分别呈现 2.9×、6.5×、1.8×、1.7× 的速度优势。


论文还与其他推理期扩展方法进行了比较。在 TruthfulQA 上,PRISM 的 ROUGE-1/2/L 达到 31.8/35.5/31.9,推理时间为 1048.0 秒;相比之下,LLaDA-ReMDM 为 29.5/31.8/29.5,推理时间为 1354.8 秒。这表明 PRISM 不仅能提升任务性能,也能维持更好的推理效率。


在外部 verifier 对比中,SVF 在 GSM8K 上达到 85.30%,只需加载原本的 8B 模型;虽然 Qwen3-8B verifier 可达到 87.35%,但需要额外加载模型,总参数量达到 16B。论文认为,SVF 的优势并不在于绝对替代所有外部验证器,而在于它提供了一条更轻量、更易部署的 dLLM 推理扩展路径。


意义:为非自回归语言模型打开推理期扩展路线

PRISM 的核心贡献并不是简单提出一个新的搜索启发式,而是重新定义了 dLLM 上的 Test-Time Scaling 应该如何发生。

对于自回归模型,推理搜索通常围绕「前缀」展开;而对于离散扩散模型,中间状态是部分 mask 的全局序列,传统前缀式过程奖励和树搜索并不天然适用。PRISM 将搜索、裁剪、局部分支和自验证都重新放回 dLLM 的去噪动力学中:在结构形成阶段集中分配预算,在低置信区域探索替代表达,在无需额外模型的情况下完成验证。

这意味着,dLLM 不再只是「并行生成更快」的替代范式,也可能成为一种适合推理、规划和自我修正的新型语言模型架构。随着 LLaDA、Dream、Mercury、Gemini Diffusion 等模型推动离散扩散语言模型走向更大规模,PRISM 展示了一条重要方向:让非自回归模型也能像当前主流 LLM 一样,通过推理期计算持续获得能力提升。

从这个角度看,PRISM 不只是一个更省算力的 Best-of-N 替代方案,而是离散扩散语言模型迈向高效推理系统的一块关键拼图。

作者简介


本文由 Jinbin Bai 等研究者完成。作者团队长期关注 discrete diffusion 与 masked generative modeling 等新一代生成范式,研究方向涵盖高分辨率文生图、统一多模态生成、离散扩散模型的偏好对齐与推理优化,以及可交互世界模型等。

此前,团队曾提出 Meissonic [1],探索 masked generative transformer 在高分辨率文本到图像生成中的潜力;随后进一步提出 Muddit [2],将离散扩散建模从图像生成推进到更统一的多模态生成框架。此次入选 ICML 2026 的 PRISM,则将这一研究脉络进一步延伸到推理阶段,关注如何通过层次化搜索、自验证反馈和局部 remasking,让离散扩散模型在无需额外 verifier 的情况下实现高效 Test-Time Scaling。

[1] Meissonic: Revitalizing Masked Generative Transformers for Efficient High-Resolution Text-to-Image Synthesis, ICLR 2025, https://arxiv.org/abs/2410.08261

[2] Muddit: Liberating Generation Beyond Text-to-Image with a Unified Discrete Diffusion Model, ICLR 2026, https://arxiv.org/abs/2505.23606

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
“连穿着体面都做不到”,民办大专宣传片难登大雅之堂,名不虚传

“连穿着体面都做不到”,民办大专宣传片难登大雅之堂,名不虚传

泽泽先生
2026-05-10 09:05:10
斯诺克巨星邀请赛:小特不败夺冠!进账462万奖金,吴宜泽险垫底

斯诺克巨星邀请赛:小特不败夺冠!进账462万奖金,吴宜泽险垫底

刘姚尧的文字城堡
2026-05-11 07:57:47
震惊全网!一个月薪45000的IT男,如今成为钢筋工

震惊全网!一个月薪45000的IT男,如今成为钢筋工

慧翔百科
2026-03-09 11:29:14
于和伟越来越不对劲了,不是演技退步,而是整个人肉眼可见的变化

于和伟越来越不对劲了,不是演技退步,而是整个人肉眼可见的变化

喜欢历史的阿繁
2026-05-08 07:19:46
男子为不吃预制菜,要求麻婆豆腐切三角形,炒鱼香肉丝不放盐被拒

男子为不吃预制菜,要求麻婆豆腐切三角形,炒鱼香肉丝不放盐被拒

观察鉴娱
2026-05-11 13:36:37
出乎所有人预料,特朗普修改访华计划,中方官宣,他必须多来一天

出乎所有人预料,特朗普修改访华计划,中方官宣,他必须多来一天

影孖看世界
2026-05-11 18:05:24
局势恶化,61岁李在明沉痛悼念,韩国被日本激怒,高市捅了马蜂窝

局势恶化,61岁李在明沉痛悼念,韩国被日本激怒,高市捅了马蜂窝

锅锅爱历史
2026-05-11 05:39:50
人一旦有了体系,做什么都会成功

人一旦有了体系,做什么都会成功

细说职场
2026-05-10 09:47:15
把瑜伽裤穿成日常的松弛感美女

把瑜伽裤穿成日常的松弛感美女

只要高兴就好
2026-04-13 14:30:30
长期走路能把五类病走没?医生建议:70岁后这样动,降低生病风险

长期走路能把五类病走没?医生建议:70岁后这样动,降低生病风险

39健康网
2026-05-11 18:31:48
什么时候让你意识到这就是命,考公四次落榜,随便报个东大就中了

什么时候让你意识到这就是命,考公四次落榜,随便报个东大就中了

夜深爱杂谈
2026-05-11 07:41:40
记者:皇马队内一些有影响力的球员希望俱乐部今夏让82离开

记者:皇马队内一些有影响力的球员希望俱乐部今夏让82离开

懂球帝
2026-05-11 19:12:33
本想大干一场,却被大干一场

本想大干一场,却被大干一场

最爱历史
2026-05-11 18:58:17
根本卖不掉!连续6个一字跌停,封单超百万手,有人已亏91万

根本卖不掉!连续6个一字跌停,封单超百万手,有人已亏91万

财经智多星
2026-05-11 15:26:15
汪小菲带儿女去公园散心!玥儿双手叉腰站最后,马筱梅消瘦不少

汪小菲带儿女去公园散心!玥儿双手叉腰站最后,马筱梅消瘦不少

凛若秋霜
2026-05-12 06:41:55
刘涛扮妈祖翻车?对比民间小妈祖,终于懂了啥叫“天生神性”!

刘涛扮妈祖翻车?对比民间小妈祖,终于懂了啥叫“天生神性”!

阿废冷眼观察所
2026-05-11 20:42:01
神仙同框!杨丽萍教小酒窝孔雀舞,董璇穿黄衣白裙,也格外吸睛!

神仙同框!杨丽萍教小酒窝孔雀舞,董璇穿黄衣白裙,也格外吸睛!

明星私服穿搭daily
2026-05-11 13:59:13
美股收盘:标普500指数、纳指续创新高,多只储存芯片股大涨并创新高

美股收盘:标普500指数、纳指续创新高,多只储存芯片股大涨并创新高

界面新闻
2026-05-12 07:05:10
太尴尬了!一个状元中锋,27岁当打之年,斗不过一个二轮秀中锋

太尴尬了!一个状元中锋,27岁当打之年,斗不过一个二轮秀中锋

球毛鬼胎
2026-05-11 12:24:18
黄一鸣摊上事了,闺蜜曝孩子生父猛料,难怪王思聪不认孩子太离谱

黄一鸣摊上事了,闺蜜曝孩子生父猛料,难怪王思聪不认孩子太离谱

青梅侃史啊
2026-05-12 07:16:18
2026-05-12 08:44:49
我不叫阿哏
我不叫阿哏
分享有趣、有用的故事!
402文章数 6743关注度
往期回顾 全部

科技要闻

纳德拉法庭爆料:拒当“AI时代的IBM”

头条要闻

牛弹琴:特朗普要来了 可以肯定这不是一次寻常的访问

头条要闻

牛弹琴:特朗普要来了 可以肯定这不是一次寻常的访问

体育要闻

梁靖崑:可能是最后一届了,想让大家记住这个我

娱乐要闻

“孕妇坠崖案”王暖暖称被霸凌协商解约

财经要闻

特朗普要来了,我们且淡定

汽车要闻

吉利银河“TT”申报图曝光 电动尾翼+激光雷达

态度原创

教育
本地
亲子
健康
公开课

教育要闻

有公费海外交换机会的院校(妈妈!免费旷野!

本地新闻

用苏绣的方式,打开江西婺源

亲子要闻

带孩子看完《绵羊侦探团》果然有惊喜!

干细胞能让人“返老还童”吗

公开课

李玫瑾:为什么性格比能力更重要?

无障碍浏览 进入关怀版