网易首页 > 网易号 > 正文 申请入驻

加州伯克利提出V1框架,让机器推理变得更加可靠

0
分享至


这项由加州大学伯克利分校联合Together AI等机构开展的研究,发表于2026年3月4日的arXiv预印本平台,论文编号为arXiv:2603.04304v1。有兴趣深入了解的读者可以通过该编号查询完整论文。

人工智能现在已经变得非常聪明了,但有个问题一直困扰着研究者:当AI生成多个答案时,怎样才能准确地挑出最好的那个?这就像考试时你写了好几个答案,但不知道哪个是对的。传统做法是让AI给每个答案打分,然后选分数最高的。但这种方法有个致命缺陷——AI就像一个没有标准的老师,今天给8分的答案明天可能就给6分了,评分标准很不稳定。

研究团队发现了一个有趣的现象:虽然AI很难给单个答案准确打分,但它在比较两个答案哪个更好时,判断力要强得多。这就好比你虽然很难说一道菜到底应该打几分,但你能很容易判断出两道菜中哪道更好吃。基于这个洞察,他们开发了一套名为V1的全新框架,让AI通过"一对一比较"的方式来选择最佳答案,大大提高了推理准确性。

这项研究不仅提出了改进推理验证的新方法,更重要的是,它还设计了一种全新的训练方式,让AI在学习生成答案的同时,也学会了如何更好地验证答案。这种"一边学做题,一边学判分"的联合训练方式,让AI的整体能力得到了显著提升。在代码生成和数学推理等多个测试中,这套方法的表现都超过了现有的最佳技术。

一、传统验证方法的困境:为什么独立打分不可靠

当AI面对复杂问题时,通常会生成多个候选答案,然后需要从中选出最好的一个。这个选择过程就是"验证"环节,它的准确性直接决定了AI的最终表现。目前主流的验证方法是让AI独立为每个答案打分,然后选择得分最高的答案。这听起来很合理,但实际应用中却暴露出严重问题。

研究团队通过大量实验发现,当AI试图独立评估一个答案的质量时,就像一个缺乏参考标准的评委,往往会出现"评分崩溃"现象。比如说,同样一段代码,AI可能今天给9分,明天给6分,因为它没有一个稳定的评分基准。更糟糕的是,AI还存在"自我偏爱"倾向,即使自己生成的答案有错误,也倾向于给出较高分数。

另一个普遍使用的方法是"自我聚合",即让AI把多个答案合并成一个更好的答案。但这种方法也有个致命缺陷:在合并过程中,正确的答案经常会被丢弃掉。研究团队发现,随着聚合步骤的增加,整体答案质量不但没有提升,反而在下降。这就像做菜时把好食材和坏食材混在一起,最终的味道往往更糟糕。

这些问题的根源在于,独立评分缺乏比较的基准。当你要判断一幅画的好坏时,如果只看一幅画是很难给出准确评价的,但如果同时看两幅画,你很容易判断出哪幅更好。AI也是如此,它在进行相对比较时的判断能力远强于绝对评分。

二、成对比较的智慧:让AI成为更好的"裁判"

基于对传统方法问题的深入分析,研究团队提出了一个革命性的想法:既然AI在独立打分时不够准确,为什么不让它进行成对比较呢?就像体育比赛中的淘汰赛制度一样,通过一对一的较量来决出最终胜者。

这个想法的核心在于利用了人工智能的一个重要特点:相对判断比绝对判断更可靠。当AI面对两个候选答案时,它能够相对准确地判断出哪个更好,即使它无法准确地给每个答案打绝对分数。这就好比你可能说不准一件衣服值多少钱,但你绝对能判断出两件衣服中哪件更值钱。

研究团队设计的V1框架包含两个主要组成部分。第一个叫做V1-Infer,这是一个智能的推理算法,它不是简单地让所有答案两两比较(那样会需要进行太多次比较),而是采用了类似瑞士轮赛制的策略,优先比较那些质量相近、难以区分的答案对。这种方法既保证了比较的全面性,又大大减少了所需的计算量。

V1-Infer的工作过程很像一场精心设计的锦标赛。首先,它确保每个答案都至少参与几次比较,这样没有答案会被"遗忘"。然后,它会重点关注那些实力相当的选手之间的对决,因为这些比较能提供最多的信息。通过这种方式,系统能够用相对较少的比较次数,就准确地排出所有答案的优劣顺序。

更巧妙的是,V1-Infer还会根据每次比较的"置信度"来调整权重。如果AI对某次比较的结果非常确定(比如一个明显正确的答案对比一个明显错误的答案),这次比较就会获得更高的权重。相反,如果比较结果比较模糊,权重就会相对较低。这种加权机制让整个排序过程更加准确可靠。

三、联合训练新范式:一边学解题,一边学判题

传统的AI训练就像专门培养数学家或专门培养数学老师,而V1框架的第二个创新——V1-PairRL,则提出了"一边学数学,一边学当老师"的联合训练方式。这种方法让AI在学习如何生成好答案的同时,也学会了如何准确地比较和评估答案质量。

这种联合训练的思路非常符合人类的学习方式。当我们学习一门学科时,随着知识的积累,我们不仅能解决更复杂的问题,也逐渐具备了判断答案好坏的能力。V1-PairRL让AI也经历这样的成长过程:在训练的每个阶段,AI都会同时练习生成答案和比较答案,两种能力相互促进,共同提升。

传统训练方法面临一个重要问题:用于训练验证能力的数据往往来自固定的数据集,但随着AI生成能力的提升,它产生的答案类型和质量都在变化,这就造成了训练数据和实际应用场景的不匹配。V1-PairRL巧妙地解决了这个问题,它让验证训练始终使用AI当前生成的答案,确保验证能力能够跟上生成能力的发展步伐。

在具体实施中,V1-PairRL面临着一些技术挑战,比如如何防止AI"作弊"——即故意生成简单的错误答案来让验证变得容易。研究团队设计了巧妙的防护机制,包括只在包含至少一个正确答案的情况下进行验证训练,以及使用稀疏奖励机制来避免AI走捷径。

四、实验验证:多领域测试展现显著优势

为了验证V1框架的有效性,研究团队在多个具有挑战性的任务上进行了全面测试,涵盖了代码生成、数学推理和软件工程等多个领域。这些测试就像给AI安排了一系列"期末考试",检验它在不同场景下的表现。

在代码生成任务上,V1-Infer相比传统的独立评分方法,准确率提升了高达10%。这个提升非常显著,因为在代码生成领域,即使是1-2%的改进都被认为是重要进展。更令人印象深刻的是,V1-Infer不仅在准确率上超越了现有方法,在计算效率上也表现出色,用更少的验证次数就能达到更好的效果。

在数学推理测试中,V1框架同样表现出色。特别是在AIME和HMMT这样的高水平数学竞赛题目上,V1-Infer将答题正确率提升了6-10%。这些数学题目通常需要多步推理和复杂计算,能在这类任务上取得显著提升,说明成对比较的验证方式确实能更好地识别高质量的推理过程。

研究团队还在一个特别有趣的测试场景——真实软件开发任务上验证了V1的效果。他们使用了SWE-bench Lite数据集,这个数据集包含300个来自真实GitHub项目的问题。在这个更接近实际应用的场景中,V1的成对比较方法将问题解决率从26.3%提升到了33.3%,相对提升超过25%。

特别值得注意的是,V1-PairRL的联合训练方法不仅提升了验证能力,还改善了AI的基础生成能力。这就像一个学生在学会判断作文好坏的过程中,自己的写作能力也得到了提升。实验显示,即使在不使用任何测试时验证的情况下,经过V1-PairRL训练的模型在基础任务上的表现也比传统方法提升了8.7%。

五、深入分析:为什么成对比较更有效

为了深入理解V1框架成功的原因,研究团队进行了细致的分析实验。他们发现,成对比较的优势在不同难度的问题上表现得不一样。对于简单问题,AI本身就能生成很好的答案,验证方法的差异不太明显。但对于困难问题,成对比较的优势就非常突出了。

在最困难的问题类别中,V1-Infer将准确率从40.2%提升到了63.9%,提升幅度达到惊人的23.7%。这个结果特别有意义,因为它说明当AI面对真正具有挑战性的问题时,好的验证方法能够发挥关键作用。这就像在奥林匹克竞赛中,水平相近的选手之间,裁判的专业程度往往决定了最终的排名是否公正。

研究团队还通过对比实验证明了V1-Infer相比随机配对的优势。他们让AI随机选择答案对进行比较,结果发现有策略的配对比随机配对效果更好,证明了算法设计的重要性。这说明不是简单地进行成对比较就够了,如何聪明地选择比较对象同样关键。

一个特别有趣的发现是,当研究团队分析V1失效的案例时,他们发现主要问题出现在所有候选答案都非常相似的情况下。在这种情况下,即使是成对比较也难以发现细微差别,可能会被表面的相似性误导。这提醒我们,任何方法都有其适用边界,理解这些边界对于正确应用技术非常重要。

六、技术创新的深层意义

V1框架的成功不仅仅是一个算法改进,它代表了AI研究中一个重要的思维转变:从追求绝对准确的单点评估,转向利用相对比较的集体智慧。这种思维转变在其他领域也有重要启示。

成对比较的思想其实在很多人类活动中都有体现。体育比赛用淘汰赛制决出冠军,学术界用同行评议评估研究质量,市场经济通过竞争机制配置资源,这些都是利用相对比较来做出准确判断的例子。V1框架本质上是把这种人类社会中行之有效的机制引入到了AI系统中。

从技术发展的角度看,V1框架还体现了"测试时计算"这一新兴趋势的重要性。传统观念认为,模型训练好后,推理时应该尽可能快速高效。但V1表明,在推理时投入更多计算资源进行验证,能够显著提升最终结果的质量。这为AI系统的设计提供了新的思路:与其一味追求推理速度,不如在准确性和效率之间找到最佳平衡点。

联合训练范式的提出也具有深远意义。它表明,AI系统的不同能力之间存在深层联系,联合优化这些能力可能比分别优化每个能力更有效。这种思路可能会启发更多"一专多能"的AI训练方法,让AI系统变得更加智能和通用。

七、实际应用前景与挑战

V1框架的实际应用前景非常广阔。在软件开发领域,它可以帮助程序员从AI生成的多个代码方案中选出最优的那个,提高开发效率和代码质量。在教育领域,它可以帮助AI辅导系统更准确地评估学生答案,提供更精准的学习建议。在内容创作领域,它可以帮助AI写作助手从多个文案中选出最符合要求的版本。

但是,V1框架的推广也面临一些挑战。最明显的是计算成本问题:成对比较需要更多的计算资源,这在大规模应用中可能成为瓶颈。不过研究团队的实验显示,V1-Infer通过智能的配对策略,已经大大减少了所需的比较次数,在实用性和效果之间找到了较好的平衡。

另一个挑战是如何处理主观性较强的任务。V1框架在代码生成和数学推理等有相对客观标准的任务上表现出色,但在创意写作或艺术创作等更主观的领域,其效果还需要进一步验证。毕竟,当"好坏"的标准变得模糊时,即使是成对比较也可能失去判断依据。

从技术普及的角度看,V1框架的复杂性可能会限制其在一些资源受限场景中的应用。但随着计算能力的不断提升和算法的进一步优化,这些限制预计会逐渐减少。而且,V1框架的核心思想——利用相对比较提升判断准确性——已经为AI系统设计提供了有价值的指导方向。

归根结底,V1框架代表了AI推理能力发展的一个重要里程碑。它不仅提供了一套实用的技术方案,更重要的是,它揭示了AI系统中验证和生成能力之间的深层关系,为未来开发更智能、更可靠的AI系统指明了方向。随着这项技术的不断完善和推广,我们有理由期待AI在更多复杂任务中展现出更加出色的表现,更好地服务于人类社会的各种需求。无论你是软件开发者、研究人员还是普通用户,这项技术的进步都将以某种方式影响到你与AI交互的体验,让AI变得更加智能和可信赖。

Q&A

Q1:什么是V1框架的核心创新?

A:V1框架的核心创新是用"成对比较"替代传统的"独立打分"。就像体育比赛的淘汰赛制一样,让AI通过一对一比较来选择最佳答案,而不是给每个答案单独打分。这种方法利用了AI在相对判断上比绝对判断更准确的特点,大大提高了验证的可靠性。

Q2:V1-PairRL的联合训练方法有什么优势?

A:V1-PairRL让AI"一边学解题,一边学判题",这种联合训练方式有两大优势:一是确保验证能力能跟上生成能力的发展,避免了传统方法中训练数据过时的问题;二是两种能力相互促进,不仅提升了验证准确性,连基础的答案生成能力也得到了改善,就像学会判断作文好坏的过程中自己写作能力也提升了。

Q3:V1框架在实际应用中效果如何?

A:V1框架在多个领域都表现出色。在代码生成任务上准确率提升了10%,数学推理提升了6-10%,真实软件开发任务的解决率从26.3%提升到33.3%。特别是在困难问题上效果更加明显,最高可提升23.7%的准确率。这些提升对AI应用来说都是非常显著的改进。

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
伊朗外长宣布革命卫队已经事实独立

伊朗外长宣布革命卫队已经事实独立

远方青木
2026-03-04 00:29:55
新型电车痴汉,根本不需要触碰到你

新型电车痴汉,根本不需要触碰到你

日本通
2026-03-03 15:07:10
办事大厅收材料的人,半年都能收1600多万 省委书记怒了:“吃拿卡要、损害企业利益的,迟早都会被查处”

办事大厅收材料的人,半年都能收1600多万 省委书记怒了:“吃拿卡要、损害企业利益的,迟早都会被查处”

大风新闻
2026-03-06 16:46:09
他是原副总理,1975年被永远开除党籍,1979年当选为副主席

他是原副总理,1975年被永远开除党籍,1979年当选为副主席

老范谈史
2026-02-13 08:38:33
男子养豪猪拔刺 每斤刺能卖400元

男子养豪猪拔刺 每斤刺能卖400元

闪电新闻
2026-03-08 00:25:56
特朗普傻眼,难怪伊朗导弹百发百中,原来有人偷偷给美军定位

特朗普傻眼,难怪伊朗导弹百发百中,原来有人偷偷给美军定位

策前论
2026-03-07 16:23:23
“哈梅内伊之死”可以有几种赢法?

“哈梅内伊之死”可以有几种赢法?

名人苟或
2026-03-07 06:04:59
地方算力建疯了!广东砸34.5亿,还强制要求100%国产,背后不简单

地方算力建疯了!广东砸34.5亿,还强制要求100%国产,背后不简单

小陆搞笑日常
2026-03-07 11:12:56
统一信号出现!台海巡署罕见向大陆表态,金门将成首个回归试点地

统一信号出现!台海巡署罕见向大陆表态,金门将成首个回归试点地

基斯默默
2026-03-07 05:19:57
美军前高官发出警告:以色列可不是中美俄,打急眼了它真敢丢核弹

美军前高官发出警告:以色列可不是中美俄,打急眼了它真敢丢核弹

徐徐道史
2026-03-08 02:19:39
今年,北京已无离职潮

今年,北京已无离职潮

微微热评
2026-03-01 18:45:40
史诗级封杀!2000万网红“听风的蚕”彻底凉了

史诗级封杀!2000万网红“听风的蚕”彻底凉了

互联网品牌官
2026-02-12 01:17:23
马上停止使用这3种酱油,已被医生加入黑名单,大人孩子都别吃

马上停止使用这3种酱油,已被医生加入黑名单,大人孩子都别吃

橘子约定
2026-03-04 09:56:59
五代十国的20个冷知识,你都知道哪些?

五代十国的20个冷知识,你都知道哪些?

北梦一
2026-03-07 18:39:35
中国警告:若安世半导体纠纷再升级 全球芯片供应或再度陷入危机

中国警告:若安世半导体纠纷再升级 全球芯片供应或再度陷入危机

cnBeta.COM
2026-03-08 02:02:05
一个女人默许你泡她,会用这4种方式“暗示”你,给你机会征服她

一个女人默许你泡她,会用这4种方式“暗示”你,给你机会征服她

幸福的拉拉
2026-03-06 07:00:09
人这辈子,其实就三件事,做好了,一生都圆圆满满!

人这辈子,其实就三件事,做好了,一生都圆圆满满!

艺鉴在线
2026-02-15 05:35:28
A股:周六下午突发1个特大级消息!下周或迎来更大级别大行情?

A股:周六下午突发1个特大级消息!下周或迎来更大级别大行情?

股市皆大事
2026-03-07 15:28:33
被邪修的“养生壶用法”惊到了,思路打开后,成了办公室神器!

被邪修的“养生壶用法”惊到了,思路打开后,成了办公室神器!

美家指南
2026-03-06 15:38:12
随着火箭险胜,马刺25分大逆转,西部最新排名出炉!3-6名太疯狂

随着火箭险胜,马刺25分大逆转,西部最新排名出炉!3-6名太疯狂

现代小青青慕慕
2026-03-07 19:31:31
2026-03-08 04:56:49
至顶AI实验室 incentive-icons
至顶AI实验室
一个专注于探索生成式AI前沿技术及其应用的实验室。
2127文章数 163关注度
往期回顾 全部

科技要闻

OpenClaw爆火,六位"养虾人"自述与AI共生

头条要闻

选举24小时内举行 伊朗今天或选出最高领袖

头条要闻

选举24小时内举行 伊朗今天或选出最高领袖

体育要闻

塔图姆298天走完这段路 只用27分钟征服这座城

娱乐要闻

汪小菲曝亲妈猛料,张兰公开财产分配

财经要闻

针对"不敢休、不让休"怪圈 国家出手了

汽车要闻

逃离ICU,上汽通用“止血”企稳

态度原创

教育
旅游
数码
公开课
军事航空

教育要闻

全国政协委员刘国梁建议通过体育锻炼加强挫折教育

旅游要闻

不用去荷兰!金华这处郁金香花海,美到窒息

数码要闻

英特尔 Core Ultra 3 “Panther Lake-H” 结构细节曝光

公开课

李玫瑾:为什么性格比能力更重要?

军事要闻

美第三个航母打击群据称准备部署至中东

无障碍浏览 进入关怀版