加州伯克利提出V1框架，让机器推理变得更加可靠|算法|实验|数学|新论文|v1框架

分享至

这项由加州大学伯克利分校联合Together AI等机构开展的研究，发表于2026年3月4日的arXiv预印本平台，论文编号为arXiv:2603.04304v1。有兴趣深入了解的读者可以通过该编号查询完整论文。

人工智能现在已经变得非常聪明了，但有个问题一直困扰着研究者：当AI生成多个答案时，怎样才能准确地挑出最好的那个？这就像考试时你写了好几个答案，但不知道哪个是对的。传统做法是让AI给每个答案打分，然后选分数最高的。但这种方法有个致命缺陷——AI就像一个没有标准的老师，今天给8分的答案明天可能就给6分了，评分标准很不稳定。

研究团队发现了一个有趣的现象：虽然AI很难给单个答案准确打分，但它在比较两个答案哪个更好时，判断力要强得多。这就好比你虽然很难说一道菜到底应该打几分，但你能很容易判断出两道菜中哪道更好吃。基于这个洞察，他们开发了一套名为V1的全新框架，让AI通过"一对一比较"的方式来选择最佳答案，大大提高了推理准确性。

这项研究不仅提出了改进推理验证的新方法，更重要的是，它还设计了一种全新的训练方式，让AI在学习生成答案的同时，也学会了如何更好地验证答案。这种"一边学做题，一边学判分"的联合训练方式，让AI的整体能力得到了显著提升。在代码生成和数学推理等多个测试中，这套方法的表现都超过了现有的最佳技术。

一、传统验证方法的困境：为什么独立打分不可靠

当AI面对复杂问题时，通常会生成多个候选答案，然后需要从中选出最好的一个。这个选择过程就是"验证"环节，它的准确性直接决定了AI的最终表现。目前主流的验证方法是让AI独立为每个答案打分，然后选择得分最高的答案。这听起来很合理，但实际应用中却暴露出严重问题。

研究团队通过大量实验发现，当AI试图独立评估一个答案的质量时，就像一个缺乏参考标准的评委，往往会出现"评分崩溃"现象。比如说，同样一段代码，AI可能今天给9分，明天给6分，因为它没有一个稳定的评分基准。更糟糕的是，AI还存在"自我偏爱"倾向，即使自己生成的答案有错误，也倾向于给出较高分数。

另一个普遍使用的方法是"自我聚合"，即让AI把多个答案合并成一个更好的答案。但这种方法也有个致命缺陷：在合并过程中，正确的答案经常会被丢弃掉。研究团队发现，随着聚合步骤的增加，整体答案质量不但没有提升，反而在下降。这就像做菜时把好食材和坏食材混在一起，最终的味道往往更糟糕。

这些问题的根源在于，独立评分缺乏比较的基准。当你要判断一幅画的好坏时，如果只看一幅画是很难给出准确评价的，但如果同时看两幅画，你很容易判断出哪幅更好。AI也是如此，它在进行相对比较时的判断能力远强于绝对评分。

二、成对比较的智慧：让AI成为更好的"裁判"

基于对传统方法问题的深入分析，研究团队提出了一个革命性的想法：既然AI在独立打分时不够准确，为什么不让它进行成对比较呢？就像体育比赛中的淘汰赛制度一样，通过一对一的较量来决出最终胜者。

这个想法的核心在于利用了人工智能的一个重要特点：相对判断比绝对判断更可靠。当AI面对两个候选答案时，它能够相对准确地判断出哪个更好，即使它无法准确地给每个答案打绝对分数。这就好比你可能说不准一件衣服值多少钱，但你绝对能判断出两件衣服中哪件更值钱。

研究团队设计的V1框架包含两个主要组成部分。第一个叫做V1-Infer，这是一个智能的推理算法，它不是简单地让所有答案两两比较（那样会需要进行太多次比较），而是采用了类似瑞士轮赛制的策略，优先比较那些质量相近、难以区分的答案对。这种方法既保证了比较的全面性，又大大减少了所需的计算量。

V1-Infer的工作过程很像一场精心设计的锦标赛。首先，它确保每个答案都至少参与几次比较，这样没有答案会被"遗忘"。然后，它会重点关注那些实力相当的选手之间的对决，因为这些比较能提供最多的信息。通过这种方式，系统能够用相对较少的比较次数，就准确地排出所有答案的优劣顺序。

更巧妙的是，V1-Infer还会根据每次比较的"置信度"来调整权重。如果AI对某次比较的结果非常确定（比如一个明显正确的答案对比一个明显错误的答案），这次比较就会获得更高的权重。相反，如果比较结果比较模糊，权重就会相对较低。这种加权机制让整个排序过程更加准确可靠。

三、联合训练新范式：一边学解题，一边学判题

传统的AI训练就像专门培养数学家或专门培养数学老师，而V1框架的第二个创新——V1-PairRL，则提出了"一边学数学，一边学当老师"的联合训练方式。这种方法让AI在学习如何生成好答案的同时，也学会了如何准确地比较和评估答案质量。

这种联合训练的思路非常符合人类的学习方式。当我们学习一门学科时，随着知识的积累，我们不仅能解决更复杂的问题，也逐渐具备了判断答案好坏的能力。V1-PairRL让AI也经历这样的成长过程：在训练的每个阶段，AI都会同时练习生成答案和比较答案，两种能力相互促进，共同提升。

传统训练方法面临一个重要问题：用于训练验证能力的数据往往来自固定的数据集，但随着AI生成能力的提升，它产生的答案类型和质量都在变化，这就造成了训练数据和实际应用场景的不匹配。V1-PairRL巧妙地解决了这个问题，它让验证训练始终使用AI当前生成的答案，确保验证能力能够跟上生成能力的发展步伐。

在具体实施中，V1-PairRL面临着一些技术挑战，比如如何防止AI"作弊"——即故意生成简单的错误答案来让验证变得容易。研究团队设计了巧妙的防护机制，包括只在包含至少一个正确答案的情况下进行验证训练，以及使用稀疏奖励机制来避免AI走捷径。

四、实验验证：多领域测试展现显著优势

为了验证V1框架的有效性，研究团队在多个具有挑战性的任务上进行了全面测试，涵盖了代码生成、数学推理和软件工程等多个领域。这些测试就像给AI安排了一系列"期末考试"，检验它在不同场景下的表现。

在代码生成任务上，V1-Infer相比传统的独立评分方法，准确率提升了高达10%。这个提升非常显著，因为在代码生成领域，即使是1-2%的改进都被认为是重要进展。更令人印象深刻的是，V1-Infer不仅在准确率上超越了现有方法，在计算效率上也表现出色，用更少的验证次数就能达到更好的效果。

在数学推理测试中，V1框架同样表现出色。特别是在AIME和HMMT这样的高水平数学竞赛题目上，V1-Infer将答题正确率提升了6-10%。这些数学题目通常需要多步推理和复杂计算，能在这类任务上取得显著提升，说明成对比较的验证方式确实能更好地识别高质量的推理过程。

研究团队还在一个特别有趣的测试场景——真实软件开发任务上验证了V1的效果。他们使用了SWE-bench Lite数据集，这个数据集包含300个来自真实GitHub项目的问题。在这个更接近实际应用的场景中，V1的成对比较方法将问题解决率从26.3%提升到了33.3%，相对提升超过25%。

特别值得注意的是，V1-PairRL的联合训练方法不仅提升了验证能力，还改善了AI的基础生成能力。这就像一个学生在学会判断作文好坏的过程中，自己的写作能力也得到了提升。实验显示，即使在不使用任何测试时验证的情况下，经过V1-PairRL训练的模型在基础任务上的表现也比传统方法提升了8.7%。

五、深入分析：为什么成对比较更有效

为了深入理解V1框架成功的原因，研究团队进行了细致的分析实验。他们发现，成对比较的优势在不同难度的问题上表现得不一样。对于简单问题，AI本身就能生成很好的答案，验证方法的差异不太明显。但对于困难问题，成对比较的优势就非常突出了。

在最困难的问题类别中，V1-Infer将准确率从40.2%提升到了63.9%，提升幅度达到惊人的23.7%。这个结果特别有意义，因为它说明当AI面对真正具有挑战性的问题时，好的验证方法能够发挥关键作用。这就像在奥林匹克竞赛中，水平相近的选手之间，裁判的专业程度往往决定了最终的排名是否公正。

研究团队还通过对比实验证明了V1-Infer相比随机配对的优势。他们让AI随机选择答案对进行比较，结果发现有策略的配对比随机配对效果更好，证明了算法设计的重要性。这说明不是简单地进行成对比较就够了，如何聪明地选择比较对象同样关键。

一个特别有趣的发现是，当研究团队分析V1失效的案例时，他们发现主要问题出现在所有候选答案都非常相似的情况下。在这种情况下，即使是成对比较也难以发现细微差别，可能会被表面的相似性误导。这提醒我们，任何方法都有其适用边界，理解这些边界对于正确应用技术非常重要。

六、技术创新的深层意义

V1框架的成功不仅仅是一个算法改进，它代表了AI研究中一个重要的思维转变：从追求绝对准确的单点评估，转向利用相对比较的集体智慧。这种思维转变在其他领域也有重要启示。

成对比较的思想其实在很多人类活动中都有体现。体育比赛用淘汰赛制决出冠军，学术界用同行评议评估研究质量，市场经济通过竞争机制配置资源，这些都是利用相对比较来做出准确判断的例子。V1框架本质上是把这种人类社会中行之有效的机制引入到了AI系统中。

从技术发展的角度看，V1框架还体现了"测试时计算"这一新兴趋势的重要性。传统观念认为，模型训练好后，推理时应该尽可能快速高效。但V1表明，在推理时投入更多计算资源进行验证，能够显著提升最终结果的质量。这为AI系统的设计提供了新的思路：与其一味追求推理速度，不如在准确性和效率之间找到最佳平衡点。

联合训练范式的提出也具有深远意义。它表明，AI系统的不同能力之间存在深层联系，联合优化这些能力可能比分别优化每个能力更有效。这种思路可能会启发更多"一专多能"的AI训练方法，让AI系统变得更加智能和通用。

七、实际应用前景与挑战

V1框架的实际应用前景非常广阔。在软件开发领域，它可以帮助程序员从AI生成的多个代码方案中选出最优的那个，提高开发效率和代码质量。在教育领域，它可以帮助AI辅导系统更准确地评估学生答案，提供更精准的学习建议。在内容创作领域，它可以帮助AI写作助手从多个文案中选出最符合要求的版本。

但是，V1框架的推广也面临一些挑战。最明显的是计算成本问题：成对比较需要更多的计算资源，这在大规模应用中可能成为瓶颈。不过研究团队的实验显示，V1-Infer通过智能的配对策略，已经大大减少了所需的比较次数，在实用性和效果之间找到了较好的平衡。

另一个挑战是如何处理主观性较强的任务。V1框架在代码生成和数学推理等有相对客观标准的任务上表现出色，但在创意写作或艺术创作等更主观的领域，其效果还需要进一步验证。毕竟，当"好坏"的标准变得模糊时，即使是成对比较也可能失去判断依据。

从技术普及的角度看，V1框架的复杂性可能会限制其在一些资源受限场景中的应用。但随着计算能力的不断提升和算法的进一步优化，这些限制预计会逐渐减少。而且，V1框架的核心思想——利用相对比较提升判断准确性——已经为AI系统设计提供了有价值的指导方向。

归根结底，V1框架代表了AI推理能力发展的一个重要里程碑。它不仅提供了一套实用的技术方案，更重要的是，它揭示了AI系统中验证和生成能力之间的深层关系，为未来开发更智能、更可靠的AI系统指明了方向。随着这项技术的不断完善和推广，我们有理由期待AI在更多复杂任务中展现出更加出色的表现，更好地服务于人类社会的各种需求。无论你是软件开发者、研究人员还是普通用户，这项技术的进步都将以某种方式影响到你与AI交互的体验，让AI变得更加智能和可信赖。

Q&A

Q1：什么是V1框架的核心创新？

A：V1框架的核心创新是用"成对比较"替代传统的"独立打分"。就像体育比赛的淘汰赛制一样，让AI通过一对一比较来选择最佳答案，而不是给每个答案单独打分。这种方法利用了AI在相对判断上比绝对判断更准确的特点，大大提高了验证的可靠性。

Q2：V1-PairRL的联合训练方法有什么优势？

A：V1-PairRL让AI"一边学解题，一边学判题"，这种联合训练方式有两大优势：一是确保验证能力能跟上生成能力的发展，避免了传统方法中训练数据过时的问题；二是两种能力相互促进，不仅提升了验证准确性，连基础的答案生成能力也得到了改善，就像学会判断作文好坏的过程中自己写作能力也提升了。

Q3：V1框架在实际应用中效果如何？

A：V1框架在多个领域都表现出色。在代码生成任务上准确率提升了10%，数学推理提升了6-10%，真实软件开发任务的解决率从26.3%提升到33.3%。特别是在困难问题上效果更加明显，最高可提升23.7%的准确率。这些提升对AI应用来说都是非常显著的改进。

特别声明：以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布，本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.