你有没有过这种经历:做数学题时,自己顺着思路算半天得出错误答案,可看到同学的错题后,反而一眼看穿问题所在?现在,清华大学的研究团队把这个 “人类小技巧” 用在了大模型上,居然让 AI 的推理能力暴涨 ——关键是,不用额外训练、不用多花钱,只是换个提问方式!
论文《Asking LLMs to Verify First is Almost Free Lunch》就进行了这项研究。
![]()
核心思想特别简单:给大模型提问题时,别让它直接 “一步一步想答案”,而是先扔给它一个候选答案(哪怕是随机猜的、无关紧要的),让它先验证 “这个答案对不对”,再自己写正确答案。就这么一个小改动,大模型的逻辑错误率直接下降,还没增加多少计算成本~
![]()
图 1:反向推理路径(验证过程)更易构建,且包含与正向推理路径(标准思维链,CoT)互补的信息。
原来大模型答题,也有 “自我中心” 的小毛病
我们先搞懂:为啥大模型明明很聪明,却总在简单推理题上翻车?
比如这道经典题:“蝙蝠和球一共1.1美元,蝙蝠比球贵1美元,球多少钱?” 很多人(包括大模型)会脱口而出 “0.1美元”—— 顺着 “1.1-1=0.1” 的思路走,完全没发现逻辑漏洞。
这就是大模型的 “老毛病”:现在主流的推理方法叫 CoT(逐步思考),让 AI “一步一步推导”。但 AI 是 “ autoregressive(自回归)” 生成的,简单说就是 “顺着自己的思路往下说”,更在乎表达流畅,反而容易忽略逻辑严谨性—— 就像人太相信自己的第一判断,陷入 “自我中心”,看不到错误。
而且之前想提升 AI 推理能力,要么得花大价钱训练模型,要么让 AI 多算几十遍采样答案,成本高得吓人。
“先挑错” 策略:给 AI 一个 “错题”,它反而更会做!✨
清华团队的 VF(Verification-First,先验证)策略,刚好戳中了 AI 的 “软肋”,还不用多花钱。核心是两个超有趣的认知规律:
验证答案,比自己算答案简单多了!
就像老师批改作业比自己做题快 —— 假设答案是 A,你只要倒着推 “这个答案能不能满足题目条件”,比从零开始推导简单太多。哪怕给的是错答案,AI 在验证时也会理清 “题目该怎么解”,相当于提前搭好了思路框架。从数学上来说,其实是让大模型的回答事先收敛到相关领域的大的特征空间里,再从大的特征空间里寻找准确的部分进行检索和回答。而非直接让大模型跳进最小的特征空间找答案。
让 AI “挑别人的错”,能激活批判性思维!
人在评价别人时,会不自觉跳出自己的思维定式;AI 也一样~ 让它先验证一个 “外部答案”,能避免它顺着自己的错误思路一条道走到黑,减少 “想当然” 的错误。
![]()
图 2:带有随机 / 简单答案的 VF 提示(右侧),与标准的 CoT 提示(左侧)对比
这张图直接对比了 “普通 CoT” 和 “VF 策略” 的区别,两道题就能看出差距:
左栏是普通 CoT:AI 顺着思路推导,蝙蝠和球的题答错(算成 0.1 美元),“一年有几个月有 28 天” 也答错(只想到 2 月,忘了所有月份都有 28 号)。
右栏是 VF 策略:先给一个随机答案 “1”,让 AI 先验证——✅ 验证蝙蝠和球的题:“如果球是 1 美元,蝙蝠就是 2 美元,总价 3 美元,不对!” 然后顺理成章列出方程,算出正确答案 0.05 美元;✅ 验证月份题:“如果答案是 1,意味着只有 1 个月有 28 天,但题目问的是‘有 28 天’,不是‘只有 28 天’,所有 12 个月都符合!” 直接纠正错误。
是不是很神奇?一个随机的 “错题”,反而帮 AI 理清了思路~
升级款 Iter-VF:让 AI 自己迭代 “挑错”,越算越准
如果遇到复杂题,给一个随机答案不够用怎么办?团队又搞出了 “迭代版”——Iter-VF。
简单说就是:让 AI 自己生成第一个答案,然后用 VF 策略验证这个答案、生成新答案;再用新答案当 “候选答案”,重复验证 - 生成的过程,循环几次(次数可以控制,不浪费算力)。
![]()
图3:(a)使用先前生成的答案进行VF提示的说明,以及将此过程迭代为(b)用于测试时扩展的Iter-VF的说明。
图 3 左边展示了 “用 AI 之前的答案做验证”(比如编程题,没法给随机答案,就用 AI 第一次写的代码当候选),右边是 Iter-VF 的循环流程:从初始答案开始,迭代验证 - 生成,最后得到最优解。
关键优势是:AI 每次只关注上一个答案,不纠结之前的推导过程,不会因为 “想太多” 导致逻辑混乱(这是很多其他迭代方法的通病),还能控制计算成本~
实验结果:准确率暴涨,成本几乎可以忽略!
团队在数学题(GSM8K、MATH500)、研究生级科学题(GPQA)、编程题(HumanEval)、API 调用等多个任务上测试,结果超亮眼:
这里要贴论文图 4 和表 1
![]()
图4:VF提示法始终优于标准的CoT提示法。
图 4 能看到:不管是 10 亿参数的小模型,还是 720 亿参数的大模型,VF 策略都比普通 CoT 准确率高,数学题上的提升尤其明显(毕竟数学最需要逻辑严谨);
![]()
表1:推理基准测试的输出标记数量。
表 1 显示:VF 只比 CoT 多输出 20%-50% 的文字(token),计算成本几乎可以忽略—— 对比其他需要多算几十倍的方法,这简直是 “白嫖” 级提升!
![]()
表2:编码和API任务的性能比较。具有可比性结果的行未用水平线分隔。“HEval”是“HumanEval”的缩写。
表 2 证明:在编程、API 调用这些 “没法给随机答案” 的实际任务中,VF 用 AI 之前的答案做验证,表现也比 “让 AI 算两次”“让 AI 自己修改” 好,甚至 “算两次 VF” 的正确率能冲到 99.4%;
![]()
表3:与隐藏思维的大语言模型服务的性能对比。准确率%(输出令牌数量)。
表 3 更厉害:哪怕是 GPT-5 这种 “隐藏思考过程” 的商业大模型(我们看不到它怎么推导,没法让它 “修改思路”),用 VF 策略也能提升准确率,而且只多花一点点算力~
总结:简单却强大的 “答题技巧”,未来可期!
清华团队的这个方法,本质上是 “借力打力”:不用改模型、不用多花钱,只是利用 “验证比生成简单”“批判性思维能避坑” 的认知规律,就大幅提升了大模型的推理能力。
对我们来说,以后用 AI 做题、写代码、解决问题时,或许可以试试:先给 AI 一个 “随便猜的答案”,让它先挑错,再要正确结果 —— 说不定正确率会翻倍~
感兴趣的同学可以去看原文,里面还有更多实验细节和案例~ 不得不说,把人类的学习技巧用在 AI 上,真的太妙了!
✨ 科研不一定都要 “高大上”,有时候一个简单的思路转变,就能带来巨大突破~ 为研究团队点赞!
原标题:大模型答题总翻车(幻觉)?清华大学新方法:先挑错再写答案,正确率飙升还不花钱!
来源:计算科学
编辑:丁香叶子
转载内容仅代表作者观点
不代表中科院物理所立场
如需转载请联系原公众号
特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.