网易首页 > 网易号 > 正文 申请入驻

大模型答题总翻车(幻觉)?先挑错再写答案,正确率飙升还不花钱!

0
分享至

你有没有过这种经历:做数学题时,自己顺着思路算半天得出错误答案,可看到同学的错题后,反而一眼看穿问题所在?现在,清华大学的研究团队把这个 “人类小技巧” 用在了大模型上,居然让 AI 的推理能力暴涨 ——关键是,不用额外训练、不用多花钱,只是换个提问方式!

论文《Asking LLMs to Verify First is Almost Free Lunch》就进行了这项研究。


核心思想特别简单:给大模型提问题时,别让它直接 “一步一步想答案”,而是先扔给它一个候选答案(哪怕是随机猜的、无关紧要的),让它先验证 “这个答案对不对”,再自己写正确答案。就这么一个小改动,大模型的逻辑错误率直接下降,还没增加多少计算成本~


图 1:反向推理路径(验证过程)更易构建,且包含与正向推理路径(标准思维链,CoT)互补的信息。

原来大模型答题,也有 “自我中心” 的小毛病

我们先搞懂:为啥大模型明明很聪明,却总在简单推理题上翻车?

比如这道经典题:“蝙蝠和球一共1.1美元,蝙蝠比球贵1美元,球多少钱?” 很多人(包括大模型)会脱口而出 “0.1美元”—— 顺着 “1.1-1=0.1” 的思路走,完全没发现逻辑漏洞。

这就是大模型的 “老毛病”:现在主流的推理方法叫 CoT(逐步思考),让 AI “一步一步推导”。但 AI 是 “ autoregressive(自回归)” 生成的,简单说就是 “顺着自己的思路往下说”,更在乎表达流畅,反而容易忽略逻辑严谨性—— 就像人太相信自己的第一判断,陷入 “自我中心”,看不到错误。

而且之前想提升 AI 推理能力,要么得花大价钱训练模型,要么让 AI 多算几十遍采样答案,成本高得吓人。

“先挑错” 策略:给 AI 一个 “错题”,它反而更会做!✨

清华团队的 VF(Verification-First,先验证)策略,刚好戳中了 AI 的 “软肋”,还不用多花钱。核心是两个超有趣的认知规律:

  1. 验证答案,比自己算答案简单多了!

  2. 就像老师批改作业比自己做题快 —— 假设答案是 A,你只要倒着推 “这个答案能不能满足题目条件”,比从零开始推导简单太多。哪怕给的是错答案,AI 在验证时也会理清 “题目该怎么解”,相当于提前搭好了思路框架。从数学上来说,其实是让大模型的回答事先收敛到相关领域的大的特征空间里,再从大的特征空间里寻找准确的部分进行检索和回答。而非直接让大模型跳进最小的特征空间找答案。

  3. 让 AI “挑别人的错”,能激活批判性思维!

  4. 人在评价别人时,会不自觉跳出自己的思维定式;AI 也一样~ 让它先验证一个 “外部答案”,能避免它顺着自己的错误思路一条道走到黑,减少 “想当然” 的错误。

举两个例子,一看就懂!


图 2:带有随机 / 简单答案的 VF 提示(右侧),与标准的 CoT 提示(左侧)对比

这张图直接对比了 “普通 CoT” 和 “VF 策略” 的区别,两道题就能看出差距:

左栏是普通 CoT:AI 顺着思路推导,蝙蝠和球的题答错(算成 0.1 美元),“一年有几个月有 28 天” 也答错(只想到 2 月,忘了所有月份都有 28 号)。

右栏是 VF 策略:先给一个随机答案 “1”,让 AI 先验证——✅ 验证蝙蝠和球的题:“如果球是 1 美元,蝙蝠就是 2 美元,总价 3 美元,不对!” 然后顺理成章列出方程,算出正确答案 0.05 美元;✅ 验证月份题:“如果答案是 1,意味着只有 1 个月有 28 天,但题目问的是‘有 28 天’,不是‘只有 28 天’,所有 12 个月都符合!” 直接纠正错误。

是不是很神奇?一个随机的 “错题”,反而帮 AI 理清了思路~

升级款 Iter-VF:让 AI 自己迭代 “挑错”,越算越准

如果遇到复杂题,给一个随机答案不够用怎么办?团队又搞出了 “迭代版”——Iter-VF。

简单说就是:让 AI 自己生成第一个答案,然后用 VF 策略验证这个答案、生成新答案;再用新答案当 “候选答案”,重复验证 - 生成的过程,循环几次(次数可以控制,不浪费算力)。


图3:(a)使用先前生成的答案进行VF提示的说明,以及将此过程迭代为(b)用于测试时扩展的Iter-VF的说明。

图 3 左边展示了 “用 AI 之前的答案做验证”(比如编程题,没法给随机答案,就用 AI 第一次写的代码当候选),右边是 Iter-VF 的循环流程:从初始答案开始,迭代验证 - 生成,最后得到最优解。

关键优势是:AI 每次只关注上一个答案,不纠结之前的推导过程,不会因为 “想太多” 导致逻辑混乱(这是很多其他迭代方法的通病),还能控制计算成本~

实验结果:准确率暴涨,成本几乎可以忽略!

团队在数学题(GSM8K、MATH500)、研究生级科学题(GPQA)、编程题(HumanEval)、API 调用等多个任务上测试,结果超亮眼:

这里要贴论文图 4 和表 1


图4:VF提示法始终优于标准的CoT提示法。

图 4 能看到:不管是 10 亿参数的小模型,还是 720 亿参数的大模型,VF 策略都比普通 CoT 准确率高,数学题上的提升尤其明显(毕竟数学最需要逻辑严谨);


表1:推理基准测试的输出标记数量。

表 1 显示:VF 只比 CoT 多输出 20%-50% 的文字(token),计算成本几乎可以忽略—— 对比其他需要多算几十倍的方法,这简直是 “白嫖” 级提升!


表2:编码和API任务的性能比较。具有可比性结果的行未用水平线分隔。“HEval”是“HumanEval”的缩写。

表 2 证明:在编程、API 调用这些 “没法给随机答案” 的实际任务中,VF 用 AI 之前的答案做验证,表现也比 “让 AI 算两次”“让 AI 自己修改” 好,甚至 “算两次 VF” 的正确率能冲到 99.4%;


表3:与隐藏思维的大语言模型服务的性能对比。准确率%(输出令牌数量)。

表 3 更厉害:哪怕是 GPT-5 这种 “隐藏思考过程” 的商业大模型(我们看不到它怎么推导,没法让它 “修改思路”),用 VF 策略也能提升准确率,而且只多花一点点算力~

总结:简单却强大的 “答题技巧”,未来可期!

清华团队的这个方法,本质上是 “借力打力”:不用改模型、不用多花钱,只是利用 “验证比生成简单”“批判性思维能避坑” 的认知规律,就大幅提升了大模型的推理能力。

对我们来说,以后用 AI 做题、写代码、解决问题时,或许可以试试:先给 AI 一个 “随便猜的答案”,让它先挑错,再要正确结果 —— 说不定正确率会翻倍~

感兴趣的同学可以去看原文,里面还有更多实验细节和案例~ 不得不说,把人类的学习技巧用在 AI 上,真的太妙了!

✨ 科研不一定都要 “高大上”,有时候一个简单的思路转变,就能带来巨大突破~ 为研究团队点赞!

原标题:大模型答题总翻车(幻觉)?清华大学新方法:先挑错再写答案,正确率飙升还不花钱!

来源:计算科学

编辑:丁香叶子

转载内容仅代表作者观点

不代表中科院物理所立场

如需转载请联系原公众号

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
靠谱不?曼城主场负倒数第一,枪手完胜红魔,英超冠军本轮悬念终

靠谱不?曼城主场负倒数第一,枪手完胜红魔,英超冠军本轮悬念终

涛哥侃球
2026-01-23 15:17:35
全麻手术能让多少人身败名裂?都说让你们别玩太花,这下翻车了吧

全麻手术能让多少人身败名裂?都说让你们别玩太花,这下翻车了吧

夜深爱杂谈
2026-01-23 18:13:14
雷军以10万订单回击市场质疑

雷军以10万订单回击市场质疑

蓝鲨财经社
2026-01-23 18:01:51
“光速升迁”的朝鲜副总理,被当场罢免

“光速升迁”的朝鲜副总理,被当场罢免

中国新闻周刊
2026-01-22 18:56:04
A股下周一剧本已出!晚间突传四重大消息,下周要来大动作吗?

A股下周一剧本已出!晚间突传四重大消息,下周要来大动作吗?

股市皆大事
2026-01-23 17:21:00
1958年,李达和毛泽东吵架,李达怒言:你脑子发热,高烧到39度了

1958年,李达和毛泽东吵架,李达怒言:你脑子发热,高烧到39度了

元哥说历史
2026-01-23 09:30:03
自慰全球比例最高:中国人无处安放的性需求

自慰全球比例最高:中国人无处安放的性需求

书画艺术收藏
2026-01-22 19:30:05
许勤、戴厚良、阴和俊、陈忠岳、章轲、刘小明,出镜《新闻联播》

许勤、戴厚良、阴和俊、陈忠岳、章轲、刘小明,出镜《新闻联播》

新京报政事儿
2026-01-23 20:34:31
上海男篮4连胜,排名暂时升至第2 弗格36分梦回巅峰 主力保存体能

上海男篮4连胜,排名暂时升至第2 弗格36分梦回巅峰 主力保存体能

替补席看球
2026-01-23 21:28:34
柬埔寨提高获取公民身份投资门槛:从30万美元涨至100万美元

柬埔寨提高获取公民身份投资门槛:从30万美元涨至100万美元

红星新闻
2026-01-22 13:15:18
26岁健美选手毕嘉琪去世,好友曝在睡梦中猝死,满身肌肉血管暴起

26岁健美选手毕嘉琪去世,好友曝在睡梦中猝死,满身肌肉血管暴起

180视角
2026-01-22 13:34:58
核紧张局势升级,特朗普下令美国海军航母打击群向伊朗方向部署

核紧张局势升级,特朗普下令美国海军航母打击群向伊朗方向部署

假如明天来临
2026-01-24 00:29:50
不许报复美国,美方话音刚落,欧盟作出决定,将逐步淘汰中国制造

不许报复美国,美方话音刚落,欧盟作出决定,将逐步淘汰中国制造

科普100克克
2026-01-23 18:10:13
消费者投诉称限量发售的6.68万元“一口价”飞度要加价3000元购买,广汽本田回应:已启动专项调查

消费者投诉称限量发售的6.68万元“一口价”飞度要加价3000元购买,广汽本田回应:已启动专项调查

鲁中晨报
2026-01-22 17:23:31
外媒:阿根廷总统米莱称,不必在美国和中国之间做选择,中国是“伟大”的贸易伙伴

外媒:阿根廷总统米莱称,不必在美国和中国之间做选择,中国是“伟大”的贸易伙伴

环球网资讯
2026-01-22 22:29:07
自然资源部:坚决拥护党中央决定

自然资源部:坚决拥护党中央决定

新京报
2026-01-22 21:25:13
陈光标不忍了!坦言梁小龙死因,心衰或是“遮羞布”,真相太寒心

陈光标不忍了!坦言梁小龙死因,心衰或是“遮羞布”,真相太寒心

查尔菲的笔记
2026-01-23 19:46:23
高盛2026年全球股市展望:非科技行业今年可能表现强劲 人们可能会越来越关注科技行业以外的公司

高盛2026年全球股市展望:非科技行业今年可能表现强劲 人们可能会越来越关注科技行业以外的公司

财联社
2026-01-23 18:34:18
日媒:中国球迷忧心忡忡,U23决赛主裁曾执法J联赛,被指最坏消息

日媒:中国球迷忧心忡忡,U23决赛主裁曾执法J联赛,被指最坏消息

星耀国际足坛
2026-01-23 20:27:42
郭晶晶代言品牌被立案调查 跳水女皇退役15年年代言收入超5000万

郭晶晶代言品牌被立案调查 跳水女皇退役15年年代言收入超5000万

劲爆体坛
2026-01-23 13:18:04
2026-01-24 02:00:49
中科院物理所 incentive-icons
中科院物理所
爱上物理,改变世界。
9799文章数 136432关注度
往期回顾 全部

教育要闻

中国家庭普遍做错的教育行为是什么?吴军:追求同质化的教育,孩子的培养不需要盲目跟风

头条要闻

疑在达沃斯受挫 79岁的特朗普转发超80条帖子发泄怒气

头条要闻

疑在达沃斯受挫 79岁的特朗普转发超80条帖子发泄怒气

体育要闻

杜兰特鏖战44分钟累瘫 轰36+7却致命失误

娱乐要闻

演员孙涛澄清闫学晶言论 落泪维护妻子

财经要闻

2026年,消费没有新故事?

科技要闻

TikTok守住了算法"灵魂" 更握紧了"钱袋子"

汽车要闻

主打家庭大六座 奕境首款SUV将北京车展亮相

态度原创

教育
时尚
房产
家居
军事航空

教育要闻

震撼美味!!!!!!!

今日热点:车银优代言广告被隐藏;《巅峰对决》主演担任米兰冬奥会火炬手……

房产要闻

正式官宣!三亚又一所名校要来了!

家居要闻

在家度假 160平南洋混搭宅

军事要闻

美军首艘“高超导弹战舰”出海测试

无障碍浏览 进入关怀版