弗吉尼亚理工大学PRISM：让AI推理更聪明的新方法|科学|实验|正确性|新论文|弗吉尼亚理工学院暨州立大学

分享至

在人工智能迅速发展的今天，让AI变得更聪明一直是科学家们追求的目标。弗吉尼亚理工大学的研究团队在2025年3月发表于顶级学术会议的这项研究（论文编号arXiv:2603.02479v1），为我们带来了一个名为PRISM的突破性技术。有趣的是，这项研究并不是简单地让AI模型变得更大，而是让现有的AI在思考过程中变得更加精明。

当我们面对复杂问题时，往往会从多个角度思考，反复推敲，最终得出最佳答案。传统的AI系统在处理复杂数学和科学问题时，虽然也能生成多个候选答案，但在筛选和改进这些答案的过程中常常出现问题。就像一群学生在考试时，即使每个人都给出了不同的解题思路，但如果没有好的老师来指导哪些思路正确、哪些需要改进，最终可能被错误的多数意见误导。

PRISM技术的核心创新在于引入了一个"智能评分员"的概念，这个评分员能够逐步检查AI的推理过程，就像一位经验丰富的老师批改作业时不仅看最终答案，还会仔细检查每一个解题步骤。通过这种方式，PRISM能够识别出哪些推理路径更加可靠，从而引导整个思考过程朝着正确的方向发展。

在严格的测试中，PRISM展现出了令人印象深刻的性能。在数学竞赛AIME25和HMMT25，以及科学问答基准GPQA Diamond上，使用PRISM技术的较小AI模型（20B参数）竟然能够匹敌甚至超越未使用该技术的大型模型（120B参数）。这就像是一个聪明的学生通过正确的学习方法，能够在考试中超越那些仅仅依靠死记硬背的同学。

一、深度思考系统的挑战与机遇

要理解PRISM的重要性，我们首先需要了解当前AI系统在处理复杂问题时面临的挑战。目前的深度思考（DEEPTHINK）系统就像一个思维工作坊，包含三个关键环节：首先生成多个候选解决方案，然后对这些方案进行反复改进，最后选出最佳答案。

然而，现实中这个过程经常出现问题。研究团队发现了一个关键瓶颈：在改进候选方案的过程中，系统往往缺乏可靠的质量判断信号。这就好比一群人在黑暗中摸索正确道路，没有指南针的指引，很容易走入歧途。更糟糕的是，当大多数人都走错了方向时，少数走对路的人反而会被"多数暴政"拖下水，被迫跟随错误的主流方向。

为了深入分析这个问题，研究团队提出了一个功能性分类框架，将深度思考系统分解为三个阶段：候选方案生成、候选方案改进和最终答案聚合。通过这种分解，他们发现问题的症结主要出现在第二个阶段——候选方案的改进过程。许多现有方法在这个阶段表现得像是在进行"随机重写"，而不是有方向性的改进。

传统的改进策略存在几个关键缺陷。一些方法会反复重写整个解决方案，但没有稳定的质量评估标准，就像是一个学生不断地重做作业，但没有老师告诉他哪里对了哪里错了。另一些基于多数决策的方法则容易陷入"多数人的错误胜过少数人的正确"这一陷阱。当错误的答案在群体中占多数时，这些方法会逐渐压制正确但少见的推理路径。

研究团队通过实验发现了一个令人意外的现象：简单的并行采样加多数投票的方法，竟然能与许多复杂的深度思考系统表现相当。这个发现揭示了一个重要事实——当前很多系统的性能提升主要来自初始方案的多样性和最终的聚合方式，而不是中间的迭代改进过程。这就像发现了一个残酷的现实：花费大量时间和精力进行的"深度思考"，效果可能还不如最初的直觉判断。

二、PRISM的核心创新：过程奖励模型引导的推理

面对传统方法的局限性，PRISM提出了一个全新的解决方案。这个名字本身就很有意思——PRISM代表"过程奖励模型引导的改进、迭代和选择机制"。就像物理学中的棱镜能够将光线分解为不同的颜色并重新组合，PRISM也能够将复杂的推理过程分解、分析并重新优化组合。

PRISM的核心思想是引入一个过程奖励模型（PRM），这个模型就像一位经验丰富的老师，能够逐步评估推理过程中的每一个步骤。与传统方法只关注最终答案的对错不同，PRM会仔细检查推理的每一个环节，判断每个步骤的正确性和合理性。这种逐步评估的方式能够提供更精细、更可靠的质量反馈。

在改进候选方案的过程中，PRISM将每个候选解决方案看作是能量场中的粒子，而PRM的评分则定义了这个能量场的结构。高质量的推理对应低能量区域，而错误或不完整的推理则处于高能量区域。通过这种能量场的比喻，改进过程就变成了引导粒子从高能量区域移动到低能量区域的过程。

具体来说，PRISM的改进机制包含三个关键步骤。首先是评分阶段，系统使用PRM对每个候选方案进行逐步评估，并将评分转换为重要性权重。这就像给每个学生的作业打分，分数高的作业会得到更多关注。然后是重采样阶段，当权重过于集中在少数候选方案上时，系统会进行重采样，复制高分方案并淘汰低分方案，同时避免过度集中。最后是随机改进阶段，系统对每个方案提出修改建议，并根据PRM评分决定是否接受这些修改。

这个随机改进过程特别巧妙，它采用了类似马尔可夫链蒙特卡罗（MCMC）的接受-拒绝策略。当一个修改能够提高PRM评分时，它几乎总是被接受。但即使是降低评分的修改，也有一定概率被接受，这保证了系统不会陷入局部最优解，就像登山者有时需要先下山才能找到更高的山峰一样。

为了防止系统出现病态行为，PRISM还加入了两个重要的保护机制。冲突仲裁机制用来处理不同答案获得相似高分的情况，它会调用一个比较模型来判断哪个答案更可靠。复制限制机制则防止某个候选方案在重采样过程中过度复制，确保群体保持适当的多样性。

三、革命性的实验结果与深度分析

PRISM的实验结果令人印象深刻，不仅在准确性上有显著提升，更重要的是展现了一系列传统方法难以实现的优良特性。为了确保实验的公平性，研究团队采用了严格的对照实验设计，所有对比方法都使用相同的基础模型、相同的初始候选方案集合和相同的计算资源配置。

在数学竞赛AIME25上，PRISM达到了90.0%的准确率，显著超越了当时的顶级方法递归自聚合（87.8%）和智能辩论（85.6%）。在HMMT25数学竞赛中，PRISM获得了75.4%的准确率，与其他先进方法保持竞争力。在科学问答GPQA Diamond基准上，PRISM实现了71.4%的准确率，超越了递归自聚合的68.6%。更令人惊讶的是，使用PRISM的20B参数模型能够匹敌甚至超越120B参数的大型模型，这相当于让一个聪明的小学生在数学竞赛中击败了普通的大学生。

但准确率的提升只是故事的一部分。更重要的发现在于PRISM展现的系统性改进能力。研究团队引入了一个叫做"净翻转"（NetFlip）的指标来测量方向性修正能力。这个指标统计了在改进过程中，错误答案被修正为正确答案的次数，减去正确答案被破坏为错误答案的次数。传统方法的净翻转值通常很小，有时甚至为负数，说明它们的"改进"过程实际上是一种随机游走，既可能让答案变好，也可能让答案变坏。而PRISM在所有测试数据集上都显示出显著的正净翻转值，证明它真正实现了有方向性的错误修正。

为了更深入地理解不同方法的表现，研究团队进行了一个特别有趣的实验：根据初始候选方案集合中正确答案的数量，将测试问题分成不同的组别，然后观察各种方法在不同"初始条件"下的表现。结果揭示了传统方法的一个致命弱点——当初始方案中正确答案较少时，基于多数决策的方法会迅速退化，因为错误的多数会压制正确的少数。而PRISM即使在初始方案中只有很少正确答案的情况下，仍然能够保持相对较高的最终准确率，展现出从弱势起点"逆风翻盘"的能力。

从计算效率的角度来看，PRISM也表现出了优秀的性能。研究团队绘制了计算成本与准确率的帕累托前沿图，发现PRISM经常位于或接近这个前沿，这意味着它能够以最少的计算资源获得最高的准确率。相比之下，许多传统的改进方法尽管消耗了大量计算资源，但最终性能甚至不如简单的多数投票，可以说是在做"无用功"。

四、技术细节的精妙设计

PRISM的成功不仅来自于整体架构的创新，更源于每个技术细节的精心设计。以过程奖励模型的实现为例，这并不是简单的对错判断，而是一个复杂的多层次评估系统。

首先，系统需要将自然语言的推理过程结构化为明确的步骤序列。这个过程就像将一篇散文改写为条理清晰的说明书，每个推理步骤都被包装在特定的标签中，便于后续的逐步分析。过程奖励模型会对每个步骤给出三种评价：正确（+1）、中性（0）或错误（-1），同时还会对最终答案进行独立的正确性检查。

这种逐步评估的设计非常巧妙。它不仅关注每个步骤的数学正确性，还会检查逻辑连贯性、是否与问题相关、是否提供了足够的推理细节等多个维度。当发现某个步骤存在错误时，后续依赖于这个错误步骤的推理也会被标记为错误，体现了错误传播的现实规律。

在将逐步评估结果转换为总体质量分数时，PRISM采用了一个巧妙的加权平均方法。正确的步骤得到满分，错误的步骤得零分，而中性的步骤得到一半分数。这种设计避免了对包含大量中性步骤的冗长推理过度惩罚，同时仍然能够区分推理质量的高低。

在重采样机制的设计上，PRISM引入了有效样本量（ESS）的概念来监控群体多样性。当权重过于集中在少数候选方案上时（ESS低于阈值），系统会触发重采样，高权重的方案被复制，低权重的方案被淘汰。但为了防止某个特别优秀的方案过度复制导致群体失去多样性，系统还设置了复制上限，确保任何单一方案都不会占据群体的绝大部分。

在随机改进的实现上，PRISM使用了一个混合提议分布。大部分时候（比如90%），系统会根据PRM的反馈对当前推理进行局部修正，就像学生根据老师的批注修改作业。但有小部分时候（比如10%），系统会尝试完全不同的解题方法，这种探索性的修改有助于避免所有候选方案都陷入同一种思路的局限性。

五、广泛的适用性验证

为了验证PRISM的普适性，研究团队在多个不同的模型家族上进行了广泛的测试。除了主要的gpt-oss系列模型，他们还在Qwen3家族的多个变体上进行了实验，包括不同尺寸的模型（从1.7B到30B参数）以及不同训练方式的模型（基础版、指令微调版、思维专门训练版）。

实验结果显示，PRISM在所有模型上都能带来一致的性能提升，但提升幅度与模型的初始能力呈反比关系。换句话说，基础能力较弱的模型从PRISM中获得的改进更加明显，这表明PRISM特别适合用来提升中等规模模型的推理能力。这个发现具有重要的实际意义，因为它意味着我们不一定需要追求越来越大的模型，而可以通过更好的推理机制让现有模型发挥更大潜力。

一个特别有趣的实验是交叉验证器测试。研究团队让不同大小的模型承担不同角色：小模型生成候选方案，大模型担任验证器评估质量。结果发现，当验证器比生成器更强大时，PRISM的效果最佳。这就像是让经验丰富的老师来指导年轻学生，比让学生自己评价自己的作业效果要好得多。

在模型变体的比较中，研究发现PRISM对基础模型的改进最为显著，能够大幅缩小基础模型与专门训练模型之间的性能差距。这表明PRISM提供了一种通用的推理增强机制，可以在不需要重新训练模型的情况下，显著提升现有模型的推理能力。

六、系统动态行为的深入解析

为了理解PRISM为什么能够成功，研究团队对系统的内部动态进行了详细分析。他们发现，在改进过程的早期阶段，候选方案的权重分布通常高度不均，少数高质量方案获得大部分权重，这会触发频繁的重采样。但随着改进的进行，权重分布逐渐变得更加均匀，重采样的频率也相应下降，表明系统达到了稳定状态。

在提议接受率的分析中，研究团队发现了一个有趣的现象：被接受的修改提议平均得分明显高于被拒绝的提议，但系统仍然会以一定概率接受得分较低的提议。这种"适度冒险"的策略确保了探索与利用之间的良好平衡，避免系统过早收敛到局部最优解。

通过跟踪候选方案的演化轨迹，研究团队发现PRISM确实实现了"能量最小化"的目标——群体中候选方案的平均PRM得分随着迭代次数的增加而稳步上升。更重要的是，这种上升是单调的，没有出现传统方法中常见的振荡或倒退现象。

七、深远影响与未来展望

PRISM的成功不仅仅是一个技术突破，更代表了AI推理研究的一个重要转折点。它证明了在不增加模型参数的情况下，通过改进推理过程本身，我们可以显著提升AI系统的问题解决能力。这为资源受限的应用场景提供了新的可能性——不需要部署超大规模的模型，也能获得接近的推理性能。

从更广阔的视角来看，PRISM体现了从"大力出奇迹"到"巧力出奇迹"的思维转变。传统的AI发展路径主要依赖于增加模型规模和训练数据，而PRISM展示了通过算法创新和机制设计来提升性能的巨大潜力。这种方向不仅在技术上更加可持续，也为AI的民主化应用提供了可能。

PRISM的过程监督思想也可能对其他AI应用领域产生深远影响。在自然语言生成、代码编写、创意设计等需要多步骤推理的任务中，类似的过程质量评估和迭代改进机制都可能发挥重要作用。我们可以期待看到更多基于过程奖励的AI系统在各个领域的应用。

当然，PRISM也面临一些限制和挑战。首先，它依赖于高质量的过程奖励模型，而构建这样的模型本身就需要大量的专业知识和标注数据。其次，将复杂推理过程分解为离散步骤的方法可能不适用于所有类型的问题，特别是那些需要整体性思考的任务。此外，当前的实现主要针对数学和科学问题进行了优化，在其他领域的有效性还有待验证。

研究团队也诚实地承认了他们方法的一些局限性。比如，过程奖励模型本身可能存在偏见或错误，这会影响整个系统的性能。步骤分割的质量也直接影响评估的准确性，如果分割不当，可能导致评估结果失真。这些问题都需要在未来的研究中继续解决。

说到底，PRISM为我们展示了AI推理能力提升的一条新路径。它不是简单地让AI变得更大更强，而是让AI变得更加智慧和精准。通过引入逐步质量评估和有向改进机制，PRISM让AI系统能够像优秀的学者一样进行深度思考——不仅生成多种可能的解决方案，更能够理性地评估这些方案的质量，并持续改进直到找到最佳答案。

这项研究提醒我们，在追求更强大AI系统的道路上，有时候最重要的不是增加更多的计算资源，而是找到更聪明的方法来利用现有资源。就像一个优秀的老师能够让普通学生取得优异成绩一样，PRISM证明了通过正确的指导机制，中等规模的AI模型也能够解决复杂的问题。

对于普通人来说，PRISM的成功意味着高质量的AI推理服务可能会变得更加普及和经济。我们不再需要等待超级计算机级别的模型，就能享受到智能问题解决的好处。从教育辅导到科学研究，从工程设计到决策支持，PRISM所代表的技术方向都可能带来深远的影响。

未来的研究将会在多个方向上继续拓展PRISM的思想。改进过程奖励模型的训练方法，扩展到更多类型的推理任务，以及与其他AI技术的融合，都是值得期待的发展方向。也许在不久的将来，我们会看到每个AI系统都配备了类似的"内在导师"，让人工智能真正实现从简单的模式匹配到深度理性思考的跨越。

Q&A

Q1：PRISM技术与传统AI推理方法有什么区别？

A：传统AI推理方法在改进候选答案时往往是"盲目"的随机重写，就像学生胡乱修改作业。而PRISM引入了过程奖励模型作为"智能老师"，能够逐步检查推理的每个步骤，指导系统有方向性地改进，避免好答案被破坏，让差答案得到修正。

Q2：为什么PRISM能让小模型超越大模型的表现？

A：PRISM的核心不在于模型大小，而在于推理质量的提升。它通过逐步评估和有向改进，让20B参数的小模型能够进行更精确的推理，效果甚至超过120B参数的大模型。这就像一个掌握了正确学习方法的学生，能够在考试中超越仅靠死记硬背的同学。

Q3：PRISM技术在实际应用中有什么局限性？

A：PRISM主要依赖高质量的过程奖励模型来评估推理步骤，这需要专业的训练数据。另外，它需要将复杂推理分解为离散步骤，可能不适用于需要整体性思考的任务。目前的实验主要集中在数学和科学问题上，在其他领域的效果还需要进一步验证。

特别声明：以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布，本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.