网易首页 > 网易号 > 正文 申请入驻

语言模型“再想想”指令下表现不佳原因揭秘

0
分享至


在人工智能飞速发展的今天,一个看似简单却令人困惑的问题浮出水面:当我们对AI说"请再仔细想想,改进一下你的回答"时,它们真的能做到吗?这项由韩国科学技术院、卡内基梅隆大学等多所顶尖学府联合开展的研究,首次系统性地揭开了语言模型自我改进能力的神秘面纱。该研究于2025年11月发表在计算语言学顶级会议上,编号为arXiv:2511.22173v1,为我们理解AI的"反思能力"提供了前所未有的洞察。

研究团队构建了一个名为RefineBench的全新测试平台,这就像为语言模型设计了一个"改进能力考试"。这个考试包含1000道横跨11个不同领域的高难度题目,从数学、物理到法律、人文社科应有尽有。更巧妙的是,每道题目都配有详细的评分清单,就像老师批改作文时的评分标准一样具体明确。通过这种方式,研究者们能够精确测量AI在接受反馈后的改进程度。

一、当前AI的自我改进表现令人失望

测试结果让人大跌眼镜。即使是目前最强大的AI模型,在自我改进方面的表现也相当糟糕。以谷歌最新的Gemini 2.5 Pro为例,它在没有任何指导的情况下尝试自我改进时,最终得分仅为31.3%。更令人沮丧的是,经过多轮"再想想"的尝试后,大多数模型非但没有改进,反而出现了倒退现象。

这种现象就像一个学生在考试中,明知道自己某些答案可能有问题,但重新思考后却改得更错了。比如备受瞩目的DeepSeek-R1模型,它被宣传为具备自我验证和改进能力,但在测试中表现却下降了0.1%。而其他推理模型的改进幅度也微乎其微,从负0.8%到正2.6%不等,远低于人们的期望。

研究团队发现了一个有趣的现象:那些号称具备"推理能力"的AI模型,在自我改进方面确实比普通的指令调优模型表现稍好,但差距并不显著。这就像两个水平相近的学生,一个稍微认真一点,但最终成绩提升都很有限。

二、有指导的改进效果截然不同

然而,当研究者们为AI提供明确的改进方向时,情况发生了戏剧性的变化。这就像给迷路的人一张详细地图,效果立竿见影。当AI模型知道具体哪些地方需要修正时,它们的表现突飞猛进。

在有指导的改进测试中,大部分大型AI模型都能在五轮改进后达到90%以上的优秀表现。最令人印象深刻的是Claude-Opus-4.1,它在第五轮时达到了98.4%的惊人得分,相比初始表现提升了79.7%。这种提升就像一个原本只考60分的学生,在老师详细指出错误后,最终考到了98分。

这种巨大的对比揭示了一个关键问题:目前的AI模型并非完全缺乏改进能力,而是缺乏准确识别问题所在的能力。它们就像一个修车师傅,修车技术很好,但找不出汽车到底哪里出了故障。

三、问题识别是最大的瓶颈

为了深入理解AI自我改进困难的根本原因,研究团队进行了细致的分解分析。他们发现,AI模型在自我改进过程中面临的最大挑战不是"怎么改",而是"改什么"。

通过一系列巧妙设计的实验,研究者们发现当明确告诉AI哪些评分标准没有达到时,模型的表现会显著提升。这就像告诉一个烹饪新手"你的菜太咸了"和"你需要改进口味"的区别一样明显。前者给出了具体的问题指向,后者则过于模糊。

在部分指导的实验中,研究团队只提供一半的反馈信息,结果发现AI能够很好地处理有明确指导的部分,但对于没有指导的部分依然束手无策。这进一步证实了AI模型在问题诊断方面的局限性。

四、不同领域的表现差异显著

研究还揭示了一个有趣的现象:AI的自我改进能力在不同领域存在显著差异。在法律领域,某些顶尖模型展现出了相对较强的自我改进能力。比如Claude-Opus-4.1在法律问题上的改进幅度达到了7.8%,而Gemini-2.5-Pro也达到了5.0%的提升。

这种差异可能源于不同领域知识的结构化程度不同。法律领域的逻辑推理相对规范化,更容易让AI识别出推理链条中的薄弱环节。相比之下,在数学和统计学等需要严格逻辑的领域,AI的自我改进表现就相当有限,提升幅度大多在负1.2%到正2.5%之间徘徊。

五、深度剖析:为什么DeepSeek表现不佳

研究团队特别关注了DeepSeek系列模型的表现,因为这些模型被广泛宣传为具备强大的自我改进能力。通过详细的行为分析,研究者们发现了一个令人意外的现象:这些模型在自我改进过程中出现了"重复修正"的问题。

具体来说,DeepSeek模型在第一轮回答时会进行大量的自我检查和验证,使用的推理词汇(reasoning tokens)非常丰富。但在后续的改进轮次中,这种自我检查行为急剧减少,推理深度下降了69.7%。这就像一个学生在第一次答题时非常仔细,但在重新检查时却变得敷衍了事。

更糟糕的是,这些模型倾向于反复修正同样的问题,而忽视了其他可能存在的错误。这种"偏执型"的改进模式导致了整体表现的下降,就像一个人过分纠结于一个小错误,反而忽视了更重要的问题。

六、提前终止:AI的"放弃"倾向

研究还发现了另一个值得关注的现象:大多数AI模型都倾向于过早结束自我改进过程。即使它们的表现远未达到理想状态,也会选择停止继续尝试。专有的推理模型在这方面表现得尤为明显,它们比开源的推理模型更容易"放弃"。

统计显示,大部分模型在3到4轮改进后就会停止尝试,尽管此时它们的最佳得分还不到32%。更有趣的是,研究发现那些坚持尝试更多轮次的模型,最终表现反而可能更差。这种负相关关系暗示,盲目的坚持改进可能适得其反。

这种现象类似于一个考生在考试中,明知道答案可能不对,但因为担心改错而选择不动。AI模型似乎也存在类似的"保守"倾向,宁愿维持现状也不愿冒险改进。

七、令人鼓舞的发现:指导的力量

尽管自我改进的表现令人失望,但有指导的改进结果却给人带来了希望。研究显示,当提供恰当的反馈时,即使是相对较小的模型也能实现显著改进。这种改进不仅体现在最终得分上,还体现在改进的稳定性和可预测性上。

70B参数以上的开源模型和几乎所有的专有模型,在有指导的情况下都能达到90%以上的优秀表现。这说明当前的AI技术已经具备了强大的学习和调整能力,关键在于如何正确引导这种能力。

研究团队还发现,反馈的质量和具体程度直接影响改进效果。越是具体、有针对性的反馈,AI的改进效果就越好。这为未来AI系统的设计和应用提供了重要启示。

八、对未来的启示

这项研究的意义远超学术范围,它为我们理解AI的局限性和潜力提供了宝贵见解。首先,它提醒我们不要过高估计当前AI的自我改进能力。虽然这些模型在许多任务上表现出色,但在自主发现和纠正错误方面还有很大提升空间。

同时,研究也展示了人机协作的巨大潜力。当人类提供适当指导时,AI的表现可以大幅提升。这意味着在可预见的未来,最佳的AI应用模式可能不是完全自主的智能系统,而是能够与人类有效协作的伙伴系统。

研究团队建议,未来的AI研发应该重点关注提升模型的问题诊断能力,而不仅仅是问题解决能力。这就像培养一个好医生,不仅要会治病,更重要的是要会诊断病情。

九、方法论的创新价值

RefineBench的设计本身也具有重要的方法论价值。传统的AI评测往往只关注最终结果,而这项研究创新性地引入了过程评估的概念。通过详细的评分清单和多轮测试,研究者们能够精确追踪AI的改进过程,识别具体的能力短板。

这种方法不仅适用于自我改进能力的评估,也为其他AI能力的测试提供了借鉴。未来的AI评测可能会更加注重过程分析,而不仅仅是结果导向的评估。

十、技术局限与展望

虽然这项研究提供了宝贵洞察,但研究团队也坦承其局限性。测试平台虽然覆盖了多个领域,但可能无法完全代表真实世界的复杂性。此外,不同的提示策略和推理配置可能会影响结果,这需要在未来的研究中进一步探索。

研究团队特别指出,他们主要采用了基于关键词的分析方法来研究推理行为,这种方法虽然直观,但可能无法捕捉到更细微的认知模式变化。未来的研究需要更精细的分析工具来深入理解AI的思维过程。

说到底,这项研究告诉我们,当前的AI虽然在很多方面都很聪明,但在"知错能改"这个看似简单的能力上还差得很远。就像一个技艺高超但缺乏自省能力的工匠,它们需要外界的指点才能发挥出最佳水平。不过,好消息是一旦给予恰当的指导,这些AI模型展现出的改进能力是令人惊艳的。这项研究不仅为我们理解AI的能力边界提供了科学依据,也为设计更好的人机协作系统指明了方向。对于那些想要深入了解这项研究细节的读者,可以通过论文编号arXiv:2511.22173v1查询完整的研究报告。

Q&A

Q1:RefineBench是什么?

A:RefineBench是研究团队专门设计的AI自我改进能力测试平台,包含1000道跨11个领域的高难度题目,每道题都配有详细的评分清单,用来精确测量AI接受反馈后的改进程度。

Q2:为什么AI的自我改进能力这么差?

A:研究发现AI最大的问题不是不会改进,而是不知道该改什么。它们缺乏准确识别问题的能力,就像一个修车师傅技术很好但找不出汽车哪里出了故障。

Q3:有指导的AI改进效果如何?

A:效果非常显著。当提供明确的改进方向时,大部分大型AI模型都能在五轮改进后达到90%以上的表现,比如Claude-Opus-4.1达到了98.4%的惊人得分。

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
全网唱衰的下嫁!嫁普通人5年,前任是法拉利总裁,终究还是输了

全网唱衰的下嫁!嫁普通人5年,前任是法拉利总裁,终究还是输了

橙星文娱
2026-04-18 16:42:58
霸总“好辣”!从叱咤短剧到回家种地,他开启双轨人生

霸总“好辣”!从叱咤短剧到回家种地,他开启双轨人生

封面新闻
2026-04-23 19:40:10
4-0!意甲再生变!那不勒斯升第二,距榜首9分,国米夺冠条件曝光

4-0!意甲再生变!那不勒斯升第二,距榜首9分,国米夺冠条件曝光

呀古铜
2026-04-25 04:52:02
私人账户收款要小心,2026监管新规,普通人必看

私人账户收款要小心,2026监管新规,普通人必看

芳姐侃社会
2026-04-24 22:40:35
赖清德被摁住后,不到24小时,29国公开为台撑腰,大陆送出3句话

赖清德被摁住后,不到24小时,29国公开为台撑腰,大陆送出3句话

天气观察站
2026-04-24 20:59:28
国家电网第二批录了10500人,清华才7个,一所你没听过的学校进了444人

国家电网第二批录了10500人,清华才7个,一所你没听过的学校进了444人

老满说高考
2026-04-24 20:13:49
一碰就枯萎!河南发现300多株罕见“冥界之花”,每年仅40多天露出地表,是武侠小说中可“起死回生”的仙草

一碰就枯萎!河南发现300多株罕见“冥界之花”,每年仅40多天露出地表,是武侠小说中可“起死回生”的仙草

大象新闻
2026-04-24 21:49:28
中方对两家航运下达逐客令后,巴拿马开始报复,故意扣留中国公民

中方对两家航运下达逐客令后,巴拿马开始报复,故意扣留中国公民

有范又有料
2026-04-24 11:08:24
美伊谈判前景不明:美称“看到进展”,伊称暂无会谈安排

美伊谈判前景不明:美称“看到进展”,伊称暂无会谈安排

上观新闻
2026-04-25 06:56:16
加拿大女歌手北京演唱会取消:因抢不到五一高铁票,艺人不喜欢过多飞行

加拿大女歌手北京演唱会取消:因抢不到五一高铁票,艺人不喜欢过多飞行

观察者网
2026-04-24 11:45:37
5月19日,赖清德面临弹劾投票

5月19日,赖清德面临弹劾投票

枢密院十号
2026-04-24 20:15:04
“只顾自己纹眉,不管女儿死活?”14岁女孩生日照,脸上全是槽点

“只顾自己纹眉,不管女儿死活?”14岁女孩生日照,脸上全是槽点

泽泽先生
2026-04-18 22:17:16
詹姆斯吼他“滚蛋”,他却送老詹红酒写长文感恩,两件震惊篮球圈

詹姆斯吼他“滚蛋”,他却送老詹红酒写长文感恩,两件震惊篮球圈

翰飞观事
2026-04-23 22:17:28
当你见过的婚姻越多,就会发现:一个家庭,如果爸爸挣不了大钱,只要妈妈不和爸爸闹,爸爸不偷不赌不懒,对家庭和孩子负责,日子就不会差

当你见过的婚姻越多,就会发现:一个家庭,如果爸爸挣不了大钱,只要妈妈不和爸爸闹,爸爸不偷不赌不懒,对家庭和孩子负责,日子就不会差

大爱三湘
2026-04-24 20:49:17
别着急买车!燃油车价格全面崩塌,今年行情太反常

别着急买车!燃油车价格全面崩塌,今年行情太反常

生活魔术专家
2026-04-25 02:42:53
广东91-93不敌福建 球员评价:4人优秀,8人低迷

广东91-93不敌福建 球员评价:4人优秀,8人低迷

篮球资讯达人
2026-04-24 21:36:08
贝莱林:皇马是一支实力极强的队伍,能拿到1分我们还算满意

贝莱林:皇马是一支实力极强的队伍,能拿到1分我们还算满意

懂球帝
2026-04-25 07:41:07
女优排行榜揭晓,河北彩花位列第一,你认得几位女演员?

女优排行榜揭晓,河北彩花位列第一,你认得几位女演员?

孤独的独角兽影视
2026-04-24 10:30:09
孟子曰:“男女授受不亲”,其实后半句才是真相,老祖宗可不保守

孟子曰:“男女授受不亲”,其实后半句才是真相,老祖宗可不保守

鹤羽说个事
2026-04-23 22:16:52
无视中美俄伊,49国作出决定:霍尔木兹海峡以后归我们管

无视中美俄伊,49国作出决定:霍尔木兹海峡以后归我们管

午夜搭车a
2026-04-25 05:54:10
2026-04-25 08:03:00
科技行者 incentive-icons
科技行者
科技正在如何变革商业世界
8130文章数 563关注度
往期回顾 全部

科技要闻

DeepSeek V4牵手华为,价格依然"屠夫级"

头条要闻

两届奥运冠军、中国羽协主席张军"失联" 知情人士发声

头条要闻

两届奥运冠军、中国羽协主席张军"失联" 知情人士发声

体育要闻

上海男篮23连胜+主场全胜 姚明之后最强一季

娱乐要闻

停工16个月!赵露思证实接拍新剧

财经要闻

LG财阀内斗:百亿美元商业帝国争夺战

汽车要闻

零跑Lafa5 Ultra北京车展上市:11.88-12.48万

态度原创

家居
游戏
本地
公开课
军事航空

家居要闻

自然肌理 温润美学

Steam新一代手柄要来了!突发上架或暗示快要开卖

本地新闻

云游中国|逛世界风筝都 留学生探秘中国传统文化

公开课

李玫瑾:为什么性格比能力更重要?

军事要闻

美防长:战事不会“没完没了”

无障碍浏览 进入关怀版