网易首页 > 网易号 > 正文 申请入驻

拒绝大力出奇迹,PRISM框架让dLLM也能高效Test-Time Scaling

0
分享至



近年来,大模型能力提升的焦点正在从「训练时扩展」转向「推理时扩展」。从 Best-of-N、Self-Consistency 到更复杂的搜索与验证框架,Test-Time Scaling 已经成为提升大模型复杂推理能力的重要范式。

然而,一个长期被忽视的问题是:这些方法大多默认模型是自回归生成的。

对于离散扩散语言模型(Discrete Diffusion Language Models, dLLMs)而言,情况完全不同。dLLM 并不是从左到右逐 token 生成,而是从被 mask 的序列出发,通过多步去噪逐渐恢复完整答案。这种并行、非自回归的生成方式天然具备全局双向上下文,也更适合规划与自我修正;但与此同时,传统面向自回归模型设计的树搜索、过程奖励模型和 Best-of-N 推理并不能直接高效适配。

针对这一问题,论文提出了 PRISM:Pruning, Remasking, and Integrated Self-verification Method,一个专为离散扩散语言模型设计的高效 Test-Time Scaling 框架。其核心目标很明确:不是简单地让模型「多跑几遍」,而是在去噪过程中识别更有潜力的轨迹,动态裁剪、局部分支,并用模型自身完成轻量级验证,从而在较低推理预算下接近甚至超过 Best-of-N 的效果。



  • 论文标题:Prism: Efficient Test-Time Scaling via Hierarchical Search and Self-Verification for Discrete Diffusion Language Models
  • arXiv 地址:https://arxiv.org/abs/2602.01842
  • 代码地址:https://github.com/viiika/Prism



传统 Best-of-N 太贵,PRISM 重新设计 dLLM 的推理搜索

对于 dLLM 来说,朴素 Best-of-N 的代价非常直接:如果采样 N 条轨迹、每条轨迹需要 T 步去噪,那么总函数调用次数就是 O (NT)。这意味着所有候选答案都要完整跑完,即便其中很多轨迹在中途已经明显质量不佳,也仍然会消耗完整预算。

PRISM 的关键思路是把推理过程拆成三个阶段:早期随机探索、中期渐进裁剪和后期精修。

在高噪声阶段,模型输出仍然不稳定,因此 PRISM 保持较宽的候选集合以保留多样性;在早中期去噪窗口,当答案的「逻辑骨架」开始形成时,PRISM 使用自验证信号裁剪低质量轨迹,并把计算资源重新分配给更有前景的候选;最终,只保留较小数量的轨迹继续完成精修。论文中将这一过程称为 Hierarchical Trajectory Search(HTS)。

这种设计使得 PRISM 的实际复杂度接近 O (N + KT),其中 K 是最终保留的较小候选宽度。相比传统 Best-of-N 的 O (NT),这相当于把 “所有路线都跑到底” 改成了「先广泛探索,再集中火力」。

不是重新开始,而是在低置信 token 上局部分支

PRISM 的第二个关键组件是 Local Branching via Partial Remasking。直观来说,模型在中期去噪时已经形成了一部分高置信 token,这些 token 往往对应答案的稳定结构或逻辑骨架;与此同时,低置信 token 则可能对应不确定的推理细节、实现方式或局部表达。

PRISM 不会粗暴地丢弃整条轨迹重新采样,而是保留高置信部分,只对低置信位置进行重新 mask,然后从这些局部变化中生成新的分支。这样做的好处是,它既保留了已有的高质量结构,又能继续探索不同的细节实现,避免过早收敛到单一路径。论文图 2 对这一过程做了直观展示:在渐进裁剪阶段,PRISM 会围绕高分轨迹进行局部分支,并通过部分重 mask 生成新的候选。



不再依赖外部 verifier:模型自己给自己打分

很多 Test-Time Scaling 方法依赖额外的 reward model 或 verifier 来判断候选答案质量。但这会带来显著系统开销:部署时需要额外加载一个模型,显存、延迟和工程复杂度都会上升。

PRISM 提出了 Self-Verified Feedback(SVF):直接复用同一个 dLLM 作为二分类验证器。具体来说,模型先根据中间去噪状态生成一个完整候选答案,然后构造一个 Yes/No 验证 prompt,让模型判断该答案是否可能正确。PRISM 将 Yes 和 No 的 logits 转换为一个二元归一化分数,用于轨迹排序、裁剪和最终选择。

这一设计的价值在于,它把 verification 从「额外模型」变成了「同一模型的一次轻量自检」。论文进一步指出,SVF 调用次数相较去噪 NFE 很少,实验中通常低于总 NFE 的 10%,因此可以在较低额外开销下提供有效的搜索信号。



实验:在数学推理和代码生成上实现显著性价比提升

论文在四个基准上评估 PRISM:数学推理任务 GSM8K、MATH-500,以及代码生成任务 HumanEval、MBPP。实验覆盖三个离散扩散语言模型:LLaDA-8B-Instruct、Dream-7B-Instruct 和 LLaDA-2.0-mini。

在 LLaDA-8B-Instruct 上,PRISM(K=8)将 GSM8K 从 67.58% 提升到 85.30%,将 MATH-500 从 26.40% 提升到 42.80%;在代码任务上,HumanEval 提升 24.39 个百分点,MBPP 提升 16.40 个百分点。更重要的是,这些提升并不是通过线性增加 Best-of-N 计算量获得的:例如在 GSM8K 上,PRISM 用 1048 NFE 达到 85.30%,而 Best-of-16 需要 4096 NFE 才达到 87.50%,实现了超过 4 倍的去噪计算节省。

在论文图 1 中,PRISM 相比 Best-of-N 在多个任务上展现出更优的性能 — 计算曲线:在可比准确率下,GSM8K、MATH500、HumanEval、MBPP 分别呈现 2.9×、6.5×、1.8×、1.7× 的速度优势。



论文还与其他推理期扩展方法进行了比较。在 TruthfulQA 上,PRISM 的 ROUGE-1/2/L 达到 31.8/35.5/31.9,推理时间为 1048.0 秒;相比之下,LLaDA-ReMDM 为 29.5/31.8/29.5,推理时间为 1354.8 秒。这表明 PRISM 不仅能提升任务性能,也能维持更好的推理效率。



在外部 verifier 对比中,SVF 在 GSM8K 上达到 85.30%,只需加载原本的 8B 模型;虽然 Qwen3-8B verifier 可达到 87.35%,但需要额外加载模型,总参数量达到 16B。论文认为,SVF 的优势并不在于绝对替代所有外部验证器,而在于它提供了一条更轻量、更易部署的 dLLM 推理扩展路径。



意义:为非自回归语言模型打开推理期扩展路线

PRISM 的核心贡献并不是简单提出一个新的搜索启发式,而是重新定义了 dLLM 上的 Test-Time Scaling 应该如何发生。

对于自回归模型,推理搜索通常围绕「前缀」展开;而对于离散扩散模型,中间状态是部分 mask 的全局序列,传统前缀式过程奖励和树搜索并不天然适用。PRISM 将搜索、裁剪、局部分支和自验证都重新放回 dLLM 的去噪动力学中:在结构形成阶段集中分配预算,在低置信区域探索替代表达,在无需额外模型的情况下完成验证。

这意味着,dLLM 不再只是「并行生成更快」的替代范式,也可能成为一种适合推理、规划和自我修正的新型语言模型架构。随着 LLaDA、Dream、Mercury、Gemini Diffusion 等模型推动离散扩散语言模型走向更大规模,PRISM 展示了一条重要方向:让非自回归模型也能像当前主流 LLM 一样,通过推理期计算持续获得能力提升。

从这个角度看,PRISM 不只是一个更省算力的 Best-of-N 替代方案,而是离散扩散语言模型迈向高效推理系统的一块关键拼图。

作者简介


本文由 Jinbin Bai 等研究者完成。作者团队长期关注 discrete diffusion 与 masked generative modeling 等新一代生成范式,研究方向涵盖高分辨率文生图、统一多模态生成、离散扩散模型的偏好对齐与推理优化,以及可交互世界模型等。

此前,团队曾提出 Meissonic [1],探索 masked generative transformer 在高分辨率文本到图像生成中的潜力;随后进一步提出 Muddit [2],将离散扩散建模从图像生成推进到更统一的多模态生成框架。此次入选 ICML 2026 的 PRISM,则将这一研究脉络进一步延伸到推理阶段,关注如何通过层次化搜索、自验证反馈和局部 remasking,让离散扩散模型在无需额外 verifier 的情况下实现高效 Test-Time Scaling。

[1] Meissonic: Revitalizing Masked Generative Transformers for Efficient High-Resolution Text-to-Image Synthesis, ICLR 2025, https://arxiv.org/abs/2410.08261

[2] Muddit: Liberating Generation Beyond Text-to-Image with a Unified Discrete Diffusion Model, ICLR 2026, https://arxiv.org/abs/2505.23606

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
“专坑中国”,世界杯这回撞墙了

“专坑中国”,世界杯这回撞墙了

南风窗
2026-05-11 14:11:47
房产圈最近最大的瓜,当属贝壳2025年财报的发布——没有惊喜,全是惊吓

房产圈最近最大的瓜,当属贝壳2025年财报的发布——没有惊喜,全是惊吓

每日质量报道网
2026-05-11 12:04:19
拉什福德任意球破门,费兰建功定乾坤,巴萨2-0复仇皇马勇夺29冠

拉什福德任意球破门,费兰建功定乾坤,巴萨2-0复仇皇马勇夺29冠

钉钉陌上花开
2026-05-11 05:10:06
中国移动通信集团四川有限公司基建工程办公室原总经理曹江洪被查

中国移动通信集团四川有限公司基建工程办公室原总经理曹江洪被查

界面新闻
2026-05-11 14:43:08
OPPO母亲节文案翻车,原来是武大余思月写的

OPPO母亲节文案翻车,原来是武大余思月写的

大张的自留地
2026-05-11 09:32:12
塞尔主持:姆巴佩可能以为皇马是主队2-0领先,才发了Hala Madrid

塞尔主持:姆巴佩可能以为皇马是主队2-0领先,才发了Hala Madrid

懂球帝
2026-05-11 12:09:08
疯了!9天大涨15倍,股价冲至1215,它是怎么做到不声不响上去的

疯了!9天大涨15倍,股价冲至1215,它是怎么做到不声不响上去的

丁丁鲤史纪
2026-05-11 15:01:25
三亚皮皮虾再升级!老板身亡仍被追责,游客曝猛料,不止是为了钱

三亚皮皮虾再升级!老板身亡仍被追责,游客曝猛料,不止是为了钱

北纬的咖啡豆
2026-05-10 11:43:20
摩洛哥姑娘嫁江苏农村小伙,婚礼全程开心大笑,摄影师感慨:拍了七年婚礼没见过这样的

摩洛哥姑娘嫁江苏农村小伙,婚礼全程开心大笑,摄影师感慨:拍了七年婚礼没见过这样的

可达鸭面面观
2026-05-10 13:46:52
紫牛头条|儿子车祸受伤生存希望不足0.1%仍绝不放弃!这位母亲生死守护已620天

紫牛头条|儿子车祸受伤生存希望不足0.1%仍绝不放弃!这位母亲生死守护已620天

扬子晚报
2026-05-10 20:20:42
中国政府奖学金留学人员抵达平壤,正式开启在朝留学生活

中国政府奖学金留学人员抵达平壤,正式开启在朝留学生活

大风新闻
2026-05-11 08:36:09
男子酒后与女友游玩时跳河溺亡,家属起诉女友及两公司索赔28万 法院判了

男子酒后与女友游玩时跳河溺亡,家属起诉女友及两公司索赔28万 法院判了

红星新闻
2026-05-11 14:58:23
彻底撕破脸!央视硬刚天价转播费后,资本报复手段简直不堪入目

彻底撕破脸!央视硬刚天价转播费后,资本报复手段简直不堪入目

阅微札记
2026-05-11 14:25:49
伟伟道来 | 奇怪的海战,吊诡的僵持

伟伟道来 | 奇怪的海战,吊诡的僵持

经济观察报
2026-05-11 13:07:05
太讽刺了,抓了一辈子“保护伞”,原来自己就是那把最大的伞

太讽刺了,抓了一辈子“保护伞”,原来自己就是那把最大的伞

爱意随风起呀
2026-05-11 14:18:01
张本智和回应遭梁靖崑逆转:一切都怪我,留下了太多遗憾,金牌依然遥不可及,回家好好训练变更强

张本智和回应遭梁靖崑逆转:一切都怪我,留下了太多遗憾,金牌依然遥不可及,回家好好训练变更强

鲁中晨报
2026-05-11 10:18:08
中国赛车+中国车手再夺世界冠军!吉利星瑞TCR首战即夺冠

中国赛车+中国车手再夺世界冠军!吉利星瑞TCR首战即夺冠

扬子晚报
2026-05-10 21:25:15
麻省理工发现:唤醒孩子自律最快的方法,竟是飞轮效应!

麻省理工发现:唤醒孩子自律最快的方法,竟是飞轮效应!

户外阿毽
2026-05-10 19:24:43
国际足联被曝愿作出“重大让步”:官员正飞往中国,争取让央视购买今年世界杯的电视转播权,并提出将报价降低50%以上

国际足联被曝愿作出“重大让步”:官员正飞往中国,争取让央视购买今年世界杯的电视转播权,并提出将报价降低50%以上

大风新闻
2026-05-11 15:12:02
特斯拉降价,扯下电动汽车成本的遮羞布——电动车的成本有多低?

特斯拉降价,扯下电动汽车成本的遮羞布——电动车的成本有多低?

社会日日鲜
2026-05-10 09:26:48
2026-05-11 17:35:00
机器之心Pro incentive-icons
机器之心Pro
专业的人工智能媒体
12970文章数 142648关注度
往期回顾 全部

科技要闻

黄仁勋:你们赶上了一代人一次的大机会

头条要闻

媒体:中美元首即将北京会晤 美方一细节耐人寻味

头条要闻

媒体:中美元首即将北京会晤 美方一细节耐人寻味

体育要闻

尼克斯横扫费城:唐斯恩比德的命运与角色

娱乐要闻

“孕妇坠崖案”王暖暖称被霸凌协商解约

财经要闻

"手搓汽车"曝光:伪造证件、电池以旧代新

汽车要闻

吉利银河“TT”申报图曝光 电动尾翼+激光雷达

态度原创

家居
旅游
亲子
健康
数码

家居要闻

多元生活 此处无声

旅游要闻

安徽巢湖:“船塘花海”绚烂绽放

亲子要闻

一转眼儿子3岁了,从出生到现在带来太多快乐幸福,生日快乐!

干细胞能让人“返老还童”吗

数码要闻

小米“米家保温杯口袋版”新增三色可选,42.9元

无障碍浏览 进入关怀版