网易首页 > 网易号 > 正文 申请入驻

新加坡国立大学突破:让AI不再被"好心帮倒忙"的推理示例困扰

0
分享至


这项由新加坡国立大学王浩楠、梁伟达、傅梓航等研究人员与悉尼大学、MiroMind AI联合开展的研究,发表于2025年9月的arXiv预印本平台(论文编号:arXiv:2509.23196v1),揭示了现代AI推理模型面临的一个意外困境:那些本应帮助AI更好推理的示例,反而让它们的表现变得更糟。

当我们谈到AI推理时,通常会想到这样一个场景:就像学生需要看几道例题才能更好地解答新题目一样,AI模型也需要一些推理示例来指导它们处理复杂问题。这种被称为"少样本思维链"的方法,长期以来被认为是提升AI推理能力的黄金标准。然而,这项研究却发现了一个令人意外的现象:对于那些经过强化学习训练的现代推理模型来说,这些"好心"的示例反而成了绊脚石。

研究团队选择了包括DeepSeek-R1和Qwen系列在内的多个先进AI模型进行测试,测试场景包括数学竞赛题目和科学推理问题。结果令人震惊:即使给这些模型提供了高质量、与目标问题高度相关的推理示例,它们的准确率也会显著下降,而且提供的示例越多,表现越差。在某些情况下,准确率甚至下降了35%。

这个发现让人联想到一个有趣的类比:一个已经熟练掌握厨艺的大厨,如果在烹饪时总是被人在旁边指手画脚地提供"建议",反而可能做出比独自烹饪更糟糕的菜品。现代AI推理模型经过大量训练后,已经具备了相当强的内在推理能力,外部示例有时会干扰它们的正常思维流程。

为了深入了解这种现象的根本原因,研究团队进行了细致的分析,发现了两个关键的失效机制。第一个问题可以称为"表面相似性陷阱":当AI看到示例问题与目标问题在用词或表述上很相似时,它会误以为这两个问题完全相同,然后直接照搬示例的解题步骤和答案,完全忽略了目标问题的独特逻辑结构。这就像一个学生看到题目中都提到"苹果和橘子",就认为所有这类题目的解法都一样,结果把计算重量的方法用到了计算价格的问题上。

第二个问题则是"策略提取失败":即使示例中包含了有用的解题策略,AI也难以正确地提取并应用到新问题上。研究团队观察到,AI经常会错误地简化或误解示例中的推理模式,就像一个人学习别人的写作技巧时,只记住了表面的词汇搭配,却没有理解深层的逻辑结构。

基于这些发现,研究团队开发了一套名为"洞察到解答"(Insight-to-Solve, I2S)的新方法。这种方法的核心思想是将推理示例转化为抽象的、可复用的指导原则,而不是让AI直接模仿具体的解题过程。

I2S方法的工作流程就像一个优秀的导师指导学生学习。首先,它会让AI仔细比较示例问题和目标问题,明确指出两者的相似点和不同点,避免混淆。接着,AI需要从示例的详细解题过程中提取出通用的策略和方法,比如"先分析数据结构"或"检查边界条件"这样的抽象指导。最后,AI运用这些抽象指导来构建针对目标问题的全新推理过程,而不是照搬示例的具体步骤。

更进一步的I2S+版本还加入了自我完善机制。就像一个作家会反复修改自己的文章一样,AI在生成初步答案后,会对自己的推理过程进行多轮检查和改进。它会主动寻找可能的错误,检查逻辑是否连贯,并对有问题的部分进行修正。这个过程通常经过2-3轮迭代就能达到最佳效果。

实验结果显示,这种新方法取得了显著的效果改进。在数学竞赛AIME 2025的测试中,使用I2S+方法的7B参数模型准确率从42%提升到了51.33%,提升幅度超过9个百分点。更令人印象深刻的是,这种方法不仅对开源模型有效,对GPT-4.1和o1-mini这样的闭源商业模型同样有效。GPT-4.1在AIME测试中的表现从34%提升到48%,提升了14个百分点。

研究团队还发现,I2S方法在计算效率方面也表现出色。与简单地生成多个答案然后投票选择最佳结果的方法相比,I2S能够用更少的计算资源获得更好的结果。这就像一个高效的学习方法,能让学生用更少的时间获得更好的学习效果。

在开放式推理任务中,I2S方法同样表现良好。研究团队使用GPT-4.1作为评判标准,发现I2S在工程和通用推理任务中都能带来稳定的性能提升,提升幅度达到1-2个百分点。虽然这个提升看起来不如数学题目那么显著,但考虑到开放式问题评判的复杂性和主观性,这样的提升仍然很有价值。

特别值得注意的是迭代改进的效果模式。研究发现,对于数学类问题,多轮自我改进通常能带来明显的效果提升,而且模型规模越大,从迭代中获得的收益越明显。然而,对于开放式问题,过多的迭代有时反而会产生负面效果,特别是对较小的模型。这揭示了一个重要的实用原则:不同类型的问题需要不同的处理策略。

从技术实现的角度来看,I2S方法的一个重要优势是它的轻量级特性。整个过程只需要三次模型调用:比较生成、策略分析和答案构建,计算开销相对较小。而且,这种方法不需要对原有模型进行重新训练,可以直接应用于现有的各种AI模型,具有很强的实用性。

这项研究的意义远不止于解决一个技术问题。它揭示了AI发展过程中的一个重要现象:随着AI能力的提升,传统的训练和使用方法可能需要相应调整。那些曾经有效的方法可能不再适用于新一代的AI系统,我们需要不断探索更适合先进AI特点的交互方式。

研究还展现了AI推理能力评估的复杂性。表面上看起来应该有帮助的输入,实际可能会产生负面影响,这提醒我们在设计AI系统时需要更加细致地考虑各种因素的相互作用。同时,这也说明了AI的"智能"与人类智能有着本质的不同特点,需要我们用新的视角来理解和优化它们的表现。

从更广泛的应用前景来看,I2S方法的成功为改进AI推理能力开辟了新的思路。它不仅可以应用于学术研究中的复杂推理任务,也可能对实际应用中的AI助手、教育软件、科学计算等领域产生积极影响。任何需要AI进行复杂推理的场景,都可能从这种新方法中受益。

值得一提的是,这项研究还展现了跨机构合作在AI研究中的重要性。新加坡国立大学、悉尼大学和MiroMind AI的合作,汇集了学术界和产业界的不同优势,为解决复杂的AI问题提供了有力支撑。这种合作模式可能是未来AI研究发展的重要趋势。

说到底,这项研究告诉我们一个重要道理:在AI快速发展的今天,我们不能简单地假设传统的方法总是最好的。随着AI能力的提升,我们需要不断重新审视和改进与AI交互的方式。有时候,退一步海阔天空,让AI发挥自己的内在能力,可能比试图过度指导它们更加有效。这项研究为我们提供了一个很好的例子,说明了如何通过深入理解AI的工作机制,开发出更加有效的使用方法。

Q&A

Q1:什么是洞察到解答(I2S)方法?它是如何工作的?

A:I2S是新加坡国立大学研发的一种新型AI推理方法。它不让AI直接模仿示例解题过程,而是先让AI比较示例与目标问题的异同,然后提取抽象的解题策略,最后用这些策略独立构建新的推理过程。就像优秀导师教学生提取解题思路而非照搬具体步骤。

Q2:为什么传统的推理示例会让现代AI表现变差?

A:研究发现两个主要原因:一是"表面相似性陷阱",AI看到用词相似就误认为是同一问题,直接照搬答案;二是"策略提取失败",AI难以从示例中正确提取有用的推理策略。这就像一个熟练厨师被人指手画脚反而做不好菜一样。

Q3:I2S方法在实际测试中效果如何?适用于哪些AI模型?

A:效果显著且适用面广。在数学竞赛中,小模型准确率提升9个百分点,GPT-4.1提升14个百分点。方法不需要重新训练,可直接应用于包括GPT-4.1、o1-mini在内的各种开源和闭源模型,计算开销也相对较小。

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
“废掉”一个孩子,就让ta待在家里,一天到晚待在家里

“废掉”一个孩子,就让ta待在家里,一天到晚待在家里

行者马生的笔记
2026-01-27 21:15:41
女子退货误寄6000元奔驰车钥匙,逼商家自证清白,网友吵翻了

女子退货误寄6000元奔驰车钥匙,逼商家自证清白,网友吵翻了

一盅情怀
2026-02-01 19:17:39
从搜索一哥到“崩坏之王”,百度只用了十年

从搜索一哥到“崩坏之王”,百度只用了十年

智识漂流
2026-01-31 09:46:28
15名菲议员施压驱逐我大使,中方表态将配合离境

15名菲议员施压驱逐我大使,中方表态将配合离境

像梦一场a
2026-01-31 22:25:57
惯子如杀子,溺子吃火锅害全家灭门,自己被呛死,父母被杀

惯子如杀子,溺子吃火锅害全家灭门,自己被呛死,父母被杀

墨染尘香
2024-07-13 16:32:19
1923年戴笠落魄住表弟家阁楼,遭表弟媳冷待,发迹后这样对待对方

1923年戴笠落魄住表弟家阁楼,遭表弟媳冷待,发迹后这样对待对方

磊子讲史
2026-01-28 11:14:50
震惊!大数据让贪官无处藏身,公职人员下班后行为曝光!

震惊!大数据让贪官无处藏身,公职人员下班后行为曝光!

特约前排观众
2026-01-15 00:20:03
曼联新帅神了:豪取3连胜,超越切尔西利物浦,升到第4名

曼联新帅神了:豪取3连胜,超越切尔西利物浦,升到第4名

足球狗说
2026-02-02 00:01:22
三方交易官宣!换队球员增至5人 施罗德埃利斯去骑士+国王迎亨特

三方交易官宣!换队球员增至5人 施罗德埃利斯去骑士+国王迎亨特

罗说NBA
2026-02-02 04:36:59
3换1!正式达成交易!再见了,开拓者!

3换1!正式达成交易!再见了,开拓者!

篮球实战宝典
2026-02-02 02:35:03
内存涨到怀疑人生:512GB DDR5逼近100000元!价签贴了一层又一层

内存涨到怀疑人生:512GB DDR5逼近100000元!价签贴了一层又一层

快科技
2026-02-01 20:57:39
美司法部公布爱泼斯坦案新照 两只鸡中间被涂黑

美司法部公布爱泼斯坦案新照 两只鸡中间被涂黑

看看新闻Knews
2026-02-01 18:31:09
刚刚,雷霆穿阵!解放军直闯菲律宾军演区,美军“哑火”了

刚刚,雷霆穿阵!解放军直闯菲律宾军演区,美军“哑火”了

新财迷
2026-02-01 13:13:37
13岁女生确诊胃癌晚期,医生:她吸了13年爸爸的二手烟,肚子里布满了大大小小的肿瘤,没有任何治愈机会

13岁女生确诊胃癌晚期,医生:她吸了13年爸爸的二手烟,肚子里布满了大大小小的肿瘤,没有任何治愈机会

观威海
2026-01-31 10:06:12
2月狗屎运最旺的星座TOP3,有你吗?

2月狗屎运最旺的星座TOP3,有你吗?

同道大叔
2026-01-31 22:01:54
伴娘好看还是新娘好看​​​​

伴娘好看还是新娘好看​​​​

太急张三疯
2026-02-01 15:55:51
退休后存80万养老,女婿问存款,我说就3万,隔天收到法院传票

退休后存80万养老,女婿问存款,我说就3万,隔天收到法院传票

船长与船1
2026-02-01 08:46:21
亲家有没有钱,一看便知:没钱的亲家,大多有以下4个坏习惯

亲家有没有钱,一看便知:没钱的亲家,大多有以下4个坏习惯

千秋文化
2025-12-03 10:05:36
中国太厚道了

中国太厚道了

牛弹琴
2026-02-01 08:23:14
台“教育部”正式宣布,禁止下载抖音、小红书、微信等高风险app

台“教育部”正式宣布,禁止下载抖音、小红书、微信等高风险app

我心纵横天地间
2026-02-01 13:11:09
2026-02-02 05:15:00
科技行者 incentive-icons
科技行者
科技正在如何变革商业世界
7081文章数 548关注度
往期回顾 全部

科技要闻

10亿元宝红包突袭 复刻微信支付还是微视?

头条要闻

爱泼斯坦追逐女孩、安德鲁跪爬女子身上画面全公布

头条要闻

爱泼斯坦追逐女孩、安德鲁跪爬女子身上画面全公布

体育要闻

德约大度祝贺阿卡 幽默互动逗笑纳达尔

娱乐要闻

春晚第三次联排阵容曝光:全是实力派

财经要闻

黄仁勋台北"夜宴":汇聚近40位台企高管

汽车要闻

岚图汽车1月交付10515辆 同比增长31%

态度原创

游戏
艺术
房产
数码
公开课

末期癌症玩家圆梦《毁灭战士》!id公开致敬

艺术要闻

上海“高技派”地标:华润中心竣工,LV总部入驻!

房产要闻

藏不住的小城大事,海澄新城执掌自贸港风口,进阶兑现美好生活新篇

数码要闻

显存稀缺暴涨:三款RTX 50 GPU将占一季度总供应量75%!

公开课

李玫瑾:为什么性格比能力更重要?

无障碍浏览 进入关怀版