网易首页 > 网易号 > 正文 申请入驻

UC伯克利大学发布革命性AI预算验证法:数学解题准确率提升15.3%

0
分享至


这项由加州大学圣克鲁兹分校的Kyle Montgomery、Yuqi Chen和Chenguang Wang,以及加州大学伯克利分校的Sijun Tan、Siyuan Zhuang、Tianjun Zhang和Raluca Ada Popa共同完成的研究,发表于2025年10月的arXiv预印本(编号:arXiv:2510.14913v1)。

在AI快速发展的今天,让人工智能系统变得更聪明的方法通常只有一种:烧钱。就像养育孩子一样,想要AI在数学、编程这些复杂任务上表现得更好,传统做法就是投入更多计算资源,训练更大的模型,或者在推理时让AI多思考几遍。这种"用算力砸出智能"的策略确实有效,但代价高昂,就像让一群专家开会讨论每道题一样。

然而,研究团队发现了一个令人意外的现象:当你的预算有限时,雇佣一个"快速判断员"可能比请一群"深度思考专家"更明智。这就是他们提出的"判别式验证"方法的核心思想。

一、AI推理中的计算经济学困境

当前AI系统解决复杂问题的主流方法叫做"测试时扩展",可以把它想象成考试策略。传统方法是让学生(AI)针对同一道题写出多个答案,然后要么简单投票选最频繁的答案,要么请一位资深老师(生成式验证器)仔细阅读每个答案并写出详细评语来判断对错。

这种"资深老师"方法虽然准确,但成本极高。每次验证一个答案,这位老师都要写出一长篇分析报告,解释为什么这个答案对或错。这个过程消耗的计算资源甚至可能超过学生写答案本身的成本。研究发现,如果考虑到验证成本,这种方法需要8倍的计算资源才能达到简单投票法的效果,而即使给它128倍的预算,提升也很有限。

问题的根源在于一个残酷的现实:无论验证器多么强大,如果学生的所有答案都是错的,再好的老师也无法从中挑出正确答案。这就像在一堆烂苹果中找好苹果一样不可能。而且,简单的投票法已经相当有效,要想超越它,验证器必须既能在大多数人正确时认同多数,又能在大多数人错误时识破真相,这是一个极其苛刻的要求。

二、"快速判断员"的智慧:判别式验证

面对这个困境,研究团队提出了一个精妙的替代方案:用"快速判断员"代替"资深老师"。这个判断员不会写长篇分析,而是快速给每个答案打个分数,就像给试卷打分一样简单直接。这种方法叫做判别式验证。

判别式验证的最大优势是速度。它只需要进行一次"前向传播"(可以理解为快速浏览一遍),就能给出评分,避免了生成长篇文字的昂贵过程。在实际测试中,验证32个数学解答只需要1.66秒,仅占生成这些解答时间的0.1%。相比之下,生成式验证需要3423.7秒,是生成时间的两倍多。

然而,判别式验证器也有弱点:当候选答案很多时,它容易被那些看起来很有信心但实际错误的答案误导。这就像一个快速判断员可能被表面功夫迷惑一样。为了解决这个问题,研究团队开发了两种"混合策略"。

三、混合策略的智慧结合

第一种策略叫做"加权自洽性"。传统投票是简单计数,但这种方法会考虑验证器的评分。如果某个答案不仅出现频繁,而且验证器也给了高分,那它就更可能被选中。这就像既考虑观众投票又考虑专业评委打分的选秀节目。

第二种策略叫做"悲观验证",这个名字听起来有点消极,但实际上很聪明。它会对那些只有少数支持者的答案进行"惩罚",减少选择孤立答案的机会。具体做法是计算每个答案的平均验证分数,然后根据支持人数给予不同程度的惩罚。支持者越少,惩罚越重。这种方法的逻辑是:如果一个答案连基本的支持都得不到,那即使验证器给了高分,也要谨慎对待。

研究团队发现了一个有趣的平衡点:当惩罚系数设为0.5时效果最佳。这意味着对少数答案既不能过度怀疑,也不能完全无视其孤立性。

四、训练判别式验证器的秘诀

为了训练这个"快速判断员",研究团队采用了一种叫做"Bradley-Terry排序"的方法。简单来说,就是让AI学会比较:给它看大量正确和错误的数学解答,训练它学会给正确答案打高分,给错误答案打低分。

他们从各种数学竞赛和考试中收集了32000个问题,然后用10个不同的AI模型来解答,产生了大量正确和错误的解答样本。有趣的是,他们发现去掉AI的"思考过程"(那些被标签包围的推理内容),只保留最终答案,反而能让验证器表现更好。这就像考试时只看答案不看解题过程一样,有时候过多的信息反而会造成干扰。

训练过程中,他们使用了一个巧妙的损失函数,不仅要求正确答案得高分,还加入了正则化项防止评分过于极端。这就像训练一个既不过分严厉也不过分宽松的评委。

五、令人印象深刻的实验结果

在AIME2025这个权威数学竞赛数据集上的测试结果让人眼前一亮。在相同的计算预算下,混合判别式验证方法比最先进的生成式验证方法准确率高出15.3%。这不是一个小幅提升,而是一个显著的飞跃。

更具体地说,当使用32个候选答案时,悲观验证方法在AIME2025上的准确率达到69.1%,比简单的自洽性方法高出2.5%,比单纯的最佳选择法高出8.3%。令人惊讶的是,即使在生物、物理、化学等跨领域的GPQA数据集上,这种方法依然有效,比自洽性方法高出2.1%。

从计算效率角度看,结果更加令人震撼。在实际的GPU测试中,验证32个解答用判别式方法只需1.66秒,而生成式方法需要3423.7秒,差距超过2000倍。这意味着在相同时间内,判别式方法可以处理数千倍的问题。

六、扩展性与适用性分析

研究团队还测试了这种方法在不同规模模型上的表现。他们使用了从15亿到320亿参数的不同大小的AI模型,发现无论模型大小如何,混合判别式验证都能保持相对于简单投票的优势。这就像一个好的评判标准,无论选手水平高低都能发挥作用。

在推理时间扩展实验中,他们发现即使限制AI的思考时间(从0到16384个词汇单位),混合方法依然能保持优势。这证明了这种方法的鲁棒性,不会因为外部条件变化而失效。

研究还深入分析了计算成本。他们发现,在现实的计算预算限制下(比如22.5分钟的推理时间),判别式验证几乎总是更优选择。只有当预算极其充裕时,生成式验证才开始显示优势,但这种情况在实际应用中很少见。

七、方法论的深层智慧

这项研究的深层智慧在于重新思考了"验证"的本质。传统观念认为,更复杂、更详细的验证一定更好,就像认为写得越长的评语越有价值。但这个研究证明,在资源受限的现实世界中,简单高效的判断往往更实用。

判别式验证的成功还揭示了一个重要原理:在AI系统中,把大部分计算资源用于生成更多候选解答,而不是过度验证少数解答,通常能获得更好的整体效果。这就像在有限时间内,让学生多做几道题比在一道题上花费过多时间更有效。

混合策略的设计体现了"协同智能"的思想:既不完全依赖数量(投票),也不完全依赖质量评分(验证器),而是巧妙地结合两者的优势。这种平衡艺术在许多现实决策场景中都有借鉴价值。

八、实际应用前景与影响

这项研究的实际影响远超学术范围。在商业AI应用中,计算成本直接关系到服务价格和普及程度。一个能在相同成本下提供更好性能的方法,意味着AI服务可以更便宜、更快速地服务更多用户。

在教育领域,这种技术可以让AI辅导系统更高效地验证学生答案,提供即时反馈。在科研领域,研究人员可以用更少的计算资源处理更多问题,加速发现过程。

更重要的是,这种"预算感知"的设计理念为AI发展指出了一个现实可行的方向。不是所有改进都需要无限的计算资源,聪明的算法设计往往能用更少的资源达到更好的效果。

说到底,这项研究最大的价值不在于发明了一个全新的技术,而在于重新定义了"效率"在AI系统中的含义。它告诉我们,在追求AI性能的道路上,有时候快速而巧妙的方法比昂贵而复杂的方案更值得追求。这种"以小搏大"的智慧,正是当前AI发展所需要的务实精神。对于那些希望在有限预算下获得最佳AI性能的开发者和研究者来说,这项研究提供了一个极具价值的参考范例,证明了技术创新的真正价值不在于炫耀复杂性,而在于解决实际问题。

Q&A

Q1:什么是判别式验证,它和传统的生成式验证有什么区别?

A:判别式验证就像一个快速打分员,只给每个答案打个分数,而不写详细评语。传统的生成式验证像资深老师,要为每个答案写长篇分析报告。判别式验证速度快、成本低,验证32个答案只需1.66秒,而生成式验证需要3423.7秒,成本差距超过2000倍。

Q2:为什么混合判别式验证方法效果更好?

A:因为它结合了投票和评分的双重优势。单纯的投票可能选中错误但流行的答案,单纯的评分可能被表面功夫迷惑。混合方法既考虑答案的支持度,又考虑验证器的评分,还会对孤立答案进行适当惩罚,这样能更准确地识别真正正确的答案。

Q3:这种方法在实际应用中能节省多少成本?

A:在相同计算预算下,这种方法比最先进的生成式验证准确率高出15.3%,而计算开销仅增加2%。这意味着你可以用几乎相同的成本获得显著更好的性能,或者用更少的成本达到相同的效果。对于商业AI应用来说,这种效率提升直接转化为成本节约和服务质量提升。

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
蒋介石评价我军十大元帅:朱德是唯一帅才,刘伯承战术在国内一绝

蒋介石评价我军十大元帅:朱德是唯一帅才,刘伯承战术在国内一绝

健康快乐丁
2026-03-08 11:06:54
谢娜霸气护夫后首露面!回四川和家人过妇女节,真实状态让人意外

谢娜霸气护夫后首露面!回四川和家人过妇女节,真实状态让人意外

最新声音
2026-03-09 09:59:38
以色列不排除地面入侵,伊朗外长表态

以色列不排除地面入侵,伊朗外长表态

观察者网
2026-03-09 08:32:07
胡明轩谈三分大赛夺冠:我岁数比于米提更大一些 心态要更平稳一些

胡明轩谈三分大赛夺冠:我岁数比于米提更大一些 心态要更平稳一些

狼叔评论
2026-03-09 09:14:58
贾国龙彻底火出圈了!不仅在员工面前丢脸,还把脸丢到了人民日报

贾国龙彻底火出圈了!不仅在员工面前丢脸,还把脸丢到了人民日报

乐悠悠娱乐
2026-01-22 10:27:42
2换1!湖人如愿,重磅交易达成,东契奇更稳了

2换1!湖人如愿,重磅交易达成,东契奇更稳了

现代小青青慕慕
2026-03-08 18:52:23
别吵了!乔丹一句话终结GOAT之争!

别吵了!乔丹一句话终结GOAT之争!

柚子说球
2026-03-09 11:23:48
“老大的眼神说明一切”,农村父亲炫耀5儿3女,穷得只吃豆豉

“老大的眼神说明一切”,农村父亲炫耀5儿3女,穷得只吃豆豉

泽泽先生
2026-03-06 21:40:46
伊朗导弹车只能活4分钟,第8天只发射15枚导弹12架无人机

伊朗导弹车只能活4分钟,第8天只发射15枚导弹12架无人机

移光幻影
2026-03-08 17:38:18
巴菲特认为,未来20年或50年后,日美将更强大,对中国却保持谨慎

巴菲特认为,未来20年或50年后,日美将更强大,对中国却保持谨慎

老范谈史
2026-01-28 13:32:11
GPT-5.4杀入Excel,Claude打崩IBM!华尔街恐慌:AI要端掉整个行业

GPT-5.4杀入Excel,Claude打崩IBM!华尔街恐慌:AI要端掉整个行业

新智元
2026-03-09 11:09:39
赵心童领衔,4大TOP16跨界打中8!颜丙涛明年复出,再战斯诺克!

赵心童领衔,4大TOP16跨界打中8!颜丙涛明年复出,再战斯诺克!

刘姚尧的文字城堡
2026-03-09 09:15:25
杨幂杨幂这波涛汹涌的身

杨幂杨幂这波涛汹涌的身

喜欢历史的阿繁
2026-03-09 11:28:15
美军斩首行动大获全胜,结果一看阵亡名单,特朗普心凉了半截!

美军斩首行动大获全胜,结果一看阵亡名单,特朗普心凉了半截!

随遇而安之心
2026-03-08 09:40:16
一堆人不知道!iPhone内置防晕车神器:网友实测超强大

一堆人不知道!iPhone内置防晕车神器:网友实测超强大

快科技
2026-03-08 18:15:04
黎真主党向以色列发动火箭弹袭击

黎真主党向以色列发动火箭弹袭击

界面新闻
2026-03-09 12:49:23
伊朗没有低头,外媒传出消息:伊朗与中方达成导弹采购协议,中方回应

伊朗没有低头,外媒传出消息:伊朗与中方达成导弹采购协议,中方回应

星辰夜语
2026-03-05 13:24:22
年满70~80岁的老人有福了!除养老金外,还能获得这几项补贴待遇

年满70~80岁的老人有福了!除养老金外,还能获得这几项补贴待遇

社保小达人
2026-03-01 11:35:07
翁帆近况:以访问学者身份去英国,专注学术研究,50岁内心很宁静

翁帆近况:以访问学者身份去英国,专注学术研究,50岁内心很宁静

查尔菲的笔记
2026-03-07 13:38:17
普京发声:尾巴摇狗,非常诡异

普京发声:尾巴摇狗,非常诡异

观察者网
2026-03-09 12:03:14
2026-03-09 13:11:00
科技行者 incentive-icons
科技行者
科技正在如何变革商业世界
7487文章数 553关注度
往期回顾 全部

科技要闻

冲上热搜,马化腾说没想到“龙虾”这么火

头条要闻

穆杰塔巴"冒死"接班 或让伊朗进入"复仇+军管"模式

头条要闻

穆杰塔巴"冒死"接班 或让伊朗进入"复仇+军管"模式

体育要闻

36连胜终结!大魔王也是可以战胜的

娱乐要闻

姆巴佩恋情确认!与26岁新欢共度良宵

财经要闻

油价直逼120美元!

汽车要闻

对标奔驰小号G级 路虎小型卫士最新消息曝光

态度原创

手机
教育
亲子
房产
家居

手机要闻

vivo X300 Ultra三摄全曝光,行业最大底超广角

教育要闻

全国人大代表黄花春:对学生心理问题先当耳朵再动嘴巴 #写给未来的五年 #2026全国两会

亲子要闻

杭州医院生长贴火 孩子贴后长高6-7厘米

房产要闻

来了!2月海南楼市销售TOP榜出炉!三亚又霸榜

家居要闻

独栋独院 精致亲子墅

无障碍浏览 进入关怀版