网易首页 > 网易号 > 正文 申请入驻

新加坡国立大学突破:让AI不再被"好心帮倒忙"的推理示例困扰

0
分享至

这项由新加坡国立大学王浩楠、梁伟达、傅梓航等研究人员与悉尼大学、MiroMind AI联合开展的研究,发表于2025年9月的arXiv预印本平台(论文编号:arXiv:2509.23196v1),揭示了现代AI推理模型面临的一个意外困境:那些本应帮助AI更好推理的示例,反而让它们的表现变得更糟。

当我们谈到AI推理时,通常会想到这样一个场景:就像学生需要看几道例题才能更好地解答新题目一样,AI模型也需要一些推理示例来指导它们处理复杂问题。这种被称为"少样本思维链"的方法,长期以来被认为是提升AI推理能力的黄金标准。然而,这项研究却发现了一个令人意外的现象:对于那些经过强化学习训练的现代推理模型来说,这些"好心"的示例反而成了绊脚石。

研究团队选择了包括DeepSeek-R1和Qwen系列在内的多个先进AI模型进行测试,测试场景包括数学竞赛题目和科学推理问题。结果令人震惊:即使给这些模型提供了高质量、与目标问题高度相关的推理示例,它们的准确率也会显著下降,而且提供的示例越多,表现越差。在某些情况下,准确率甚至下降了35%。

这个发现让人联想到一个有趣的类比:一个已经熟练掌握厨艺的大厨,如果在烹饪时总是被人在旁边指手画脚地提供"建议",反而可能做出比独自烹饪更糟糕的菜品。现代AI推理模型经过大量训练后,已经具备了相当强的内在推理能力,外部示例有时会干扰它们的正常思维流程。

为了深入了解这种现象的根本原因,研究团队进行了细致的分析,发现了两个关键的失效机制。第一个问题可以称为"表面相似性陷阱":当AI看到示例问题与目标问题在用词或表述上很相似时,它会误以为这两个问题完全相同,然后直接照搬示例的解题步骤和答案,完全忽略了目标问题的独特逻辑结构。这就像一个学生看到题目中都提到"苹果和橘子",就认为所有这类题目的解法都一样,结果把计算重量的方法用到了计算价格的问题上。

第二个问题则是"策略提取失败":即使示例中包含了有用的解题策略,AI也难以正确地提取并应用到新问题上。研究团队观察到,AI经常会错误地简化或误解示例中的推理模式,就像一个人学习别人的写作技巧时,只记住了表面的词汇搭配,却没有理解深层的逻辑结构。

基于这些发现,研究团队开发了一套名为"洞察到解答"(Insight-to-Solve, I2S)的新方法。这种方法的核心思想是将推理示例转化为抽象的、可复用的指导原则,而不是让AI直接模仿具体的解题过程。

I2S方法的工作流程就像一个优秀的导师指导学生学习。首先,它会让AI仔细比较示例问题和目标问题,明确指出两者的相似点和不同点,避免混淆。接着,AI需要从示例的详细解题过程中提取出通用的策略和方法,比如"先分析数据结构"或"检查边界条件"这样的抽象指导。最后,AI运用这些抽象指导来构建针对目标问题的全新推理过程,而不是照搬示例的具体步骤。

更进一步的I2S+版本还加入了自我完善机制。就像一个作家会反复修改自己的文章一样,AI在生成初步答案后,会对自己的推理过程进行多轮检查和改进。它会主动寻找可能的错误,检查逻辑是否连贯,并对有问题的部分进行修正。这个过程通常经过2-3轮迭代就能达到最佳效果。

实验结果显示,这种新方法取得了显著的效果改进。在数学竞赛AIME 2025的测试中,使用I2S+方法的7B参数模型准确率从42%提升到了51.33%,提升幅度超过9个百分点。更令人印象深刻的是,这种方法不仅对开源模型有效,对GPT-4.1和o1-mini这样的闭源商业模型同样有效。GPT-4.1在AIME测试中的表现从34%提升到48%,提升了14个百分点。

研究团队还发现,I2S方法在计算效率方面也表现出色。与简单地生成多个答案然后投票选择最佳结果的方法相比,I2S能够用更少的计算资源获得更好的结果。这就像一个高效的学习方法,能让学生用更少的时间获得更好的学习效果。

在开放式推理任务中,I2S方法同样表现良好。研究团队使用GPT-4.1作为评判标准,发现I2S在工程和通用推理任务中都能带来稳定的性能提升,提升幅度达到1-2个百分点。虽然这个提升看起来不如数学题目那么显著,但考虑到开放式问题评判的复杂性和主观性,这样的提升仍然很有价值。

特别值得注意的是迭代改进的效果模式。研究发现,对于数学类问题,多轮自我改进通常能带来明显的效果提升,而且模型规模越大,从迭代中获得的收益越明显。然而,对于开放式问题,过多的迭代有时反而会产生负面效果,特别是对较小的模型。这揭示了一个重要的实用原则:不同类型的问题需要不同的处理策略。

从技术实现的角度来看,I2S方法的一个重要优势是它的轻量级特性。整个过程只需要三次模型调用:比较生成、策略分析和答案构建,计算开销相对较小。而且,这种方法不需要对原有模型进行重新训练,可以直接应用于现有的各种AI模型,具有很强的实用性。

这项研究的意义远不止于解决一个技术问题。它揭示了AI发展过程中的一个重要现象:随着AI能力的提升,传统的训练和使用方法可能需要相应调整。那些曾经有效的方法可能不再适用于新一代的AI系统,我们需要不断探索更适合先进AI特点的交互方式。

研究还展现了AI推理能力评估的复杂性。表面上看起来应该有帮助的输入,实际可能会产生负面影响,这提醒我们在设计AI系统时需要更加细致地考虑各种因素的相互作用。同时,这也说明了AI的"智能"与人类智能有着本质的不同特点,需要我们用新的视角来理解和优化它们的表现。

从更广泛的应用前景来看,I2S方法的成功为改进AI推理能力开辟了新的思路。它不仅可以应用于学术研究中的复杂推理任务,也可能对实际应用中的AI助手、教育软件、科学计算等领域产生积极影响。任何需要AI进行复杂推理的场景,都可能从这种新方法中受益。

值得一提的是,这项研究还展现了跨机构合作在AI研究中的重要性。新加坡国立大学、悉尼大学和MiroMind AI的合作,汇集了学术界和产业界的不同优势,为解决复杂的AI问题提供了有力支撑。这种合作模式可能是未来AI研究发展的重要趋势。

说到底,这项研究告诉我们一个重要道理:在AI快速发展的今天,我们不能简单地假设传统的方法总是最好的。随着AI能力的提升,我们需要不断重新审视和改进与AI交互的方式。有时候,退一步海阔天空,让AI发挥自己的内在能力,可能比试图过度指导它们更加有效。这项研究为我们提供了一个很好的例子,说明了如何通过深入理解AI的工作机制,开发出更加有效的使用方法。

Q&A

Q1:什么是洞察到解答(I2S)方法?它是如何工作的?

A:I2S是新加坡国立大学研发的一种新型AI推理方法。它不让AI直接模仿示例解题过程,而是先让AI比较示例与目标问题的异同,然后提取抽象的解题策略,最后用这些策略独立构建新的推理过程。就像优秀导师教学生提取解题思路而非照搬具体步骤。

Q2:为什么传统的推理示例会让现代AI表现变差?

A:研究发现两个主要原因:一是"表面相似性陷阱",AI看到用词相似就误认为是同一问题,直接照搬答案;二是"策略提取失败",AI难以从示例中正确提取有用的推理策略。这就像一个熟练厨师被人指手画脚反而做不好菜一样。

Q3:I2S方法在实际测试中效果如何?适用于哪些AI模型?

A:效果显著且适用面广。在数学竞赛中,小模型准确率提升9个百分点,GPT-4.1提升14个百分点。方法不需要重新训练,可直接应用于包括GPT-4.1、o1-mini在内的各种开源和闭源模型,计算开销也相对较小。

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
世乒赛决赛预测:中国男团3-1日本夺12连冠 女团3-0日本轻取7连冠

世乒赛决赛预测:中国男团3-1日本夺12连冠 女团3-0日本轻取7连冠

风过乡
2026-05-10 07:51:31
陪玩陪睡根本不够!认干爹、舔手指,背地里的阴暗面完全藏不住了

陪玩陪睡根本不够!认干爹、舔手指,背地里的阴暗面完全藏不住了

杰丝聊古今
2026-05-03 13:35:27
中国冲击3万美元人均GDP,将颠覆全球发达国家格局!

中国冲击3万美元人均GDP,将颠覆全球发达国家格局!

陈博世财经
2026-05-10 14:16:59
出来了?顾超自涉入反赌扫黑案件后,首度更新社交媒体

出来了?顾超自涉入反赌扫黑案件后,首度更新社交媒体

懂球帝
2026-05-10 09:33:22
西媒:弗里克的父亲于昨夜离世,他仍将带队出战国家德比

西媒:弗里克的父亲于昨夜离世,他仍将带队出战国家德比

懂球帝
2026-05-10 19:55:19
250亿!赖清德窜访代价来了,斯威士兰开始要债 卢秀燕却声援绿营

250亿!赖清德窜访代价来了,斯威士兰开始要债 卢秀燕却声援绿营

闻识
2026-05-10 18:17:01
陈海涛乐开了花,广东队赢球奖金翻倍!

陈海涛乐开了花,广东队赢球奖金翻倍!

体育哲人
2026-05-10 10:55:21
中国想要打通日本海出海口只有一条路,就是将哈桑区划入中国版图

中国想要打通日本海出海口只有一条路,就是将哈桑区划入中国版图

叹知
2026-05-10 07:10:07
斯诺克巨星邀请赛:塞尔比4-3夺赛点!冲世锦赛后首胜,老马告急

斯诺克巨星邀请赛:塞尔比4-3夺赛点!冲世锦赛后首胜,老马告急

刘姚尧的文字城堡
2026-05-10 16:35:35
马卡:姆巴佩最后一练结束前5分钟突感腘绳肌不适,所有人都很惊讶

马卡:姆巴佩最后一练结束前5分钟突感腘绳肌不适,所有人都很惊讶

懂球帝
2026-05-10 19:12:06
伊朗媒体:美F-35战机在阿曼湾上空请求紧急降落

伊朗媒体:美F-35战机在阿曼湾上空请求紧急降落

新华社
2026-05-10 18:02:03
红场阅兵落幕中方代表离场,普京喊话乌克兰,四年战争即将结束

红场阅兵落幕中方代表离场,普京喊话乌克兰,四年战争即将结束

谛听骨语本尊
2026-05-10 21:14:48
女人一直暗恋着你,会有以下几个信号,别不懂

女人一直暗恋着你,会有以下几个信号,别不懂

叶飞飞情感屋
2026-05-09 19:09:32
摩纳哥夏琳王妃惊艳晚会,罕见与丈夫同框,三次逃婚失败接受现实

摩纳哥夏琳王妃惊艳晚会,罕见与丈夫同框,三次逃婚失败接受现实

译言
2026-05-10 06:37:12
黄瓜立大功?医生发现:经常吃黄瓜的人,不出半年,或有4大改善

黄瓜立大功?医生发现:经常吃黄瓜的人,不出半年,或有4大改善

芹姐说生活
2026-05-09 21:08:03
里子面子都丢了,森林北自曝身体出了问题,汪峰的体面被撕碎

里子面子都丢了,森林北自曝身体出了问题,汪峰的体面被撕碎

素衣读史
2025-11-19 16:09:14
累计4黄停赛,山东外援阿尔瓦罗将无缘下轮主场战重庆铜梁龙

累计4黄停赛,山东外援阿尔瓦罗将无缘下轮主场战重庆铜梁龙

懂球帝
2026-05-10 19:03:30
河南37岁单亲妈妈与男子网恋遭遇“杀猪盘”,诱惑投资“伦敦金”被骗53万元,事发前在股市赚了七八万

河南37岁单亲妈妈与男子网恋遭遇“杀猪盘”,诱惑投资“伦敦金”被骗53万元,事发前在股市赚了七八万

极目新闻
2026-05-10 20:05:26
释永信被一女子爆料:她们姐妹住少林寺3天,争着往释永信房间跑

释永信被一女子爆料:她们姐妹住少林寺3天,争着往释永信房间跑

江山挥笔
2026-03-23 15:40:31
王思聪晒出一墙皮卡丘,说想换两条牛仔裤

王思聪晒出一墙皮卡丘,说想换两条牛仔裤

国创漫话
2026-05-09 23:40:19
2026-05-10 22:20:49
科技行者 incentive-icons
科技行者
科技正在如何变革商业世界
8282文章数 563关注度
往期回顾 全部

科技要闻

DeepSeek融资,改写所有人的估值

头条要闻

谈判陷僵局 世界杯转播费报价大幅降低央视仍不接招

头条要闻

谈判陷僵局 世界杯转播费报价大幅降低央视仍不接招

体育要闻

那个曾让詹姆斯抱头的兄弟,40岁从大学毕业了

娱乐要闻

赵露思老实人豁出去了 没舞蹈天赋硬跳

财经要闻

白酒大逃杀

汽车要闻

轴距加长/智驾拉满 阿维塔07L定位大五座SUV

态度原创

时尚
游戏
家居
艺术
公开课

真爱大牌|| 用了4年都不舍得换,终于把小贵的价格也磨下来了

P社《群星》将上线太空游牧民全新文明!颠覆传统玩法

家居要闻

菁英人居 全能豪宅

艺术要闻

震撼!Rico Reinhold带你领略欧美复古艺术写真!

公开课

李玫瑾:为什么性格比能力更重要?

无障碍浏览 进入关怀版