语言模型“再想想”指令下表现不佳原因揭秘|推理|实验|局限性|复杂性|方法论

语言模型“再想想”指令下表现不佳原因揭秘

2025-12-02 17:33:04　来源: 科技行者

北京举报

分享至

在人工智能飞速发展的今天，一个看似简单却令人困惑的问题浮出水面：当我们对AI说"请再仔细想想，改进一下你的回答"时，它们真的能做到吗？这项由韩国科学技术院、卡内基梅隆大学等多所顶尖学府联合开展的研究，首次系统性地揭开了语言模型自我改进能力的神秘面纱。该研究于2025年11月发表在计算语言学顶级会议上，编号为arXiv:2511.22173v1，为我们理解AI的"反思能力"提供了前所未有的洞察。

研究团队构建了一个名为RefineBench的全新测试平台，这就像为语言模型设计了一个"改进能力考试"。这个考试包含1000道横跨11个不同领域的高难度题目，从数学、物理到法律、人文社科应有尽有。更巧妙的是，每道题目都配有详细的评分清单，就像老师批改作文时的评分标准一样具体明确。通过这种方式，研究者们能够精确测量AI在接受反馈后的改进程度。

一、当前AI的自我改进表现令人失望

测试结果让人大跌眼镜。即使是目前最强大的AI模型，在自我改进方面的表现也相当糟糕。以谷歌最新的Gemini 2.5 Pro为例，它在没有任何指导的情况下尝试自我改进时，最终得分仅为31.3%。更令人沮丧的是，经过多轮"再想想"的尝试后，大多数模型非但没有改进，反而出现了倒退现象。

这种现象就像一个学生在考试中，明知道自己某些答案可能有问题，但重新思考后却改得更错了。比如备受瞩目的DeepSeek-R1模型，它被宣传为具备自我验证和改进能力，但在测试中表现却下降了0.1%。而其他推理模型的改进幅度也微乎其微，从负0.8%到正2.6%不等，远低于人们的期望。

研究团队发现了一个有趣的现象：那些号称具备"推理能力"的AI模型，在自我改进方面确实比普通的指令调优模型表现稍好，但差距并不显著。这就像两个水平相近的学生，一个稍微认真一点，但最终成绩提升都很有限。

二、有指导的改进效果截然不同

然而，当研究者们为AI提供明确的改进方向时，情况发生了戏剧性的变化。这就像给迷路的人一张详细地图，效果立竿见影。当AI模型知道具体哪些地方需要修正时，它们的表现突飞猛进。

在有指导的改进测试中，大部分大型AI模型都能在五轮改进后达到90%以上的优秀表现。最令人印象深刻的是Claude-Opus-4.1，它在第五轮时达到了98.4%的惊人得分，相比初始表现提升了79.7%。这种提升就像一个原本只考60分的学生，在老师详细指出错误后，最终考到了98分。

这种巨大的对比揭示了一个关键问题：目前的AI模型并非完全缺乏改进能力，而是缺乏准确识别问题所在的能力。它们就像一个修车师傅，修车技术很好，但找不出汽车到底哪里出了故障。

三、问题识别是最大的瓶颈

为了深入理解AI自我改进困难的根本原因，研究团队进行了细致的分解分析。他们发现，AI模型在自我改进过程中面临的最大挑战不是"怎么改"，而是"改什么"。

通过一系列巧妙设计的实验，研究者们发现当明确告诉AI哪些评分标准没有达到时，模型的表现会显著提升。这就像告诉一个烹饪新手"你的菜太咸了"和"你需要改进口味"的区别一样明显。前者给出了具体的问题指向，后者则过于模糊。

在部分指导的实验中，研究团队只提供一半的反馈信息，结果发现AI能够很好地处理有明确指导的部分，但对于没有指导的部分依然束手无策。这进一步证实了AI模型在问题诊断方面的局限性。

四、不同领域的表现差异显著

研究还揭示了一个有趣的现象：AI的自我改进能力在不同领域存在显著差异。在法律领域，某些顶尖模型展现出了相对较强的自我改进能力。比如Claude-Opus-4.1在法律问题上的改进幅度达到了7.8%，而Gemini-2.5-Pro也达到了5.0%的提升。

这种差异可能源于不同领域知识的结构化程度不同。法律领域的逻辑推理相对规范化，更容易让AI识别出推理链条中的薄弱环节。相比之下，在数学和统计学等需要严格逻辑的领域，AI的自我改进表现就相当有限，提升幅度大多在负1.2%到正2.5%之间徘徊。

五、深度剖析：为什么DeepSeek表现不佳

研究团队特别关注了DeepSeek系列模型的表现，因为这些模型被广泛宣传为具备强大的自我改进能力。通过详细的行为分析，研究者们发现了一个令人意外的现象：这些模型在自我改进过程中出现了"重复修正"的问题。

具体来说，DeepSeek模型在第一轮回答时会进行大量的自我检查和验证，使用的推理词汇(reasoning tokens)非常丰富。但在后续的改进轮次中，这种自我检查行为急剧减少，推理深度下降了69.7%。这就像一个学生在第一次答题时非常仔细，但在重新检查时却变得敷衍了事。

更糟糕的是，这些模型倾向于反复修正同样的问题，而忽视了其他可能存在的错误。这种"偏执型"的改进模式导致了整体表现的下降，就像一个人过分纠结于一个小错误，反而忽视了更重要的问题。

六、提前终止：AI的"放弃"倾向

研究还发现了另一个值得关注的现象：大多数AI模型都倾向于过早结束自我改进过程。即使它们的表现远未达到理想状态，也会选择停止继续尝试。专有的推理模型在这方面表现得尤为明显，它们比开源的推理模型更容易"放弃"。

统计显示，大部分模型在3到4轮改进后就会停止尝试，尽管此时它们的最佳得分还不到32%。更有趣的是，研究发现那些坚持尝试更多轮次的模型，最终表现反而可能更差。这种负相关关系暗示，盲目的坚持改进可能适得其反。

这种现象类似于一个考生在考试中，明知道答案可能不对，但因为担心改错而选择不动。AI模型似乎也存在类似的"保守"倾向，宁愿维持现状也不愿冒险改进。

七、令人鼓舞的发现：指导的力量

尽管自我改进的表现令人失望，但有指导的改进结果却给人带来了希望。研究显示，当提供恰当的反馈时，即使是相对较小的模型也能实现显著改进。这种改进不仅体现在最终得分上，还体现在改进的稳定性和可预测性上。

70B参数以上的开源模型和几乎所有的专有模型，在有指导的情况下都能达到90%以上的优秀表现。这说明当前的AI技术已经具备了强大的学习和调整能力，关键在于如何正确引导这种能力。

研究团队还发现，反馈的质量和具体程度直接影响改进效果。越是具体、有针对性的反馈，AI的改进效果就越好。这为未来AI系统的设计和应用提供了重要启示。

八、对未来的启示

这项研究的意义远超学术范围，它为我们理解AI的局限性和潜力提供了宝贵见解。首先，它提醒我们不要过高估计当前AI的自我改进能力。虽然这些模型在许多任务上表现出色，但在自主发现和纠正错误方面还有很大提升空间。

同时，研究也展示了人机协作的巨大潜力。当人类提供适当指导时，AI的表现可以大幅提升。这意味着在可预见的未来，最佳的AI应用模式可能不是完全自主的智能系统，而是能够与人类有效协作的伙伴系统。

研究团队建议，未来的AI研发应该重点关注提升模型的问题诊断能力，而不仅仅是问题解决能力。这就像培养一个好医生，不仅要会治病，更重要的是要会诊断病情。

九、方法论的创新价值

RefineBench的设计本身也具有重要的方法论价值。传统的AI评测往往只关注最终结果，而这项研究创新性地引入了过程评估的概念。通过详细的评分清单和多轮测试，研究者们能够精确追踪AI的改进过程，识别具体的能力短板。

这种方法不仅适用于自我改进能力的评估，也为其他AI能力的测试提供了借鉴。未来的AI评测可能会更加注重过程分析，而不仅仅是结果导向的评估。

十、技术局限与展望

虽然这项研究提供了宝贵洞察，但研究团队也坦承其局限性。测试平台虽然覆盖了多个领域，但可能无法完全代表真实世界的复杂性。此外，不同的提示策略和推理配置可能会影响结果，这需要在未来的研究中进一步探索。

研究团队特别指出，他们主要采用了基于关键词的分析方法来研究推理行为，这种方法虽然直观，但可能无法捕捉到更细微的认知模式变化。未来的研究需要更精细的分析工具来深入理解AI的思维过程。

说到底，这项研究告诉我们，当前的AI虽然在很多方面都很聪明，但在"知错能改"这个看似简单的能力上还差得很远。就像一个技艺高超但缺乏自省能力的工匠，它们需要外界的指点才能发挥出最佳水平。不过，好消息是一旦给予恰当的指导，这些AI模型展现出的改进能力是令人惊艳的。这项研究不仅为我们理解AI的能力边界提供了科学依据，也为设计更好的人机协作系统指明了方向。对于那些想要深入了解这项研究细节的读者，可以通过论文编号arXiv:2511.22173v1查询完整的研究报告。

Q&A

Q1：RefineBench是什么？

A：RefineBench是研究团队专门设计的AI自我改进能力测试平台，包含1000道跨11个领域的高难度题目，每道题都配有详细的评分清单，用来精确测量AI接受反馈后的改进程度。

Q2：为什么AI的自我改进能力这么差？

A：研究发现AI最大的问题不是不会改进，而是不知道该改什么。它们缺乏准确识别问题的能力，就像一个修车师傅技术很好但找不出汽车哪里出了故障。

Q3：有指导的AI改进效果如何？

A：效果非常显著。当提供明确的改进方向时，大部分大型AI模型都能在五轮改进后达到90%以上的表现，比如Claude-Opus-4.1达到了98.4%的惊人得分。

特别声明：以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布，本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.