清华等联手破解AI"自我催眠"难题：让智能体学会从错误中吸取教训|调用|翻译|共享库|记忆库

分享至

这项由清华大学深圳国际研究生院、浙江大学、西北工业大学、中国科学技术大学、上海交通大学等多所机构联合完成的研究，以预印本形式发布于2026年6月，论文编号为arXiv:2606.24428。感兴趣的读者可以通过该编号在arXiv学术平台上查阅完整原文。

一、一个让AI越学越错的隐秘陷阱

有没有想过，一个学生如果每次考完试都由自己批改自己的试卷，会发生什么？答案很可能是：他会在不知不觉中把自己的错误答案当成正确答案，然后下次继续错下去，甚至越来越自信地错下去。这个听起来有点荒唐的场景，其实正是当今主流AI智能体（可以理解为能够完成复杂任务的AI助手）在"学习经验"时普遍面临的困境。

研究团队将这个问题起了一个非常形象的名字——"自我确认陷阱"（Self-Confirmation Trap）。具体来说，现有的绝大多数AI智能体在执行任务时，都遵循一套"单打独斗"的学习模式：同一个AI完成任务、评估自己做得好不好、把总结写进记忆库，然后下次遇到类似任务时再调出这段记忆来参考。整个过程完全由同一个AI独立完成，没有任何外部核查。

问题就出在这里。当一个AI在某个任务上犯了错误，但这个错误在它自己看来是"合理的"，它就会把这段错误的经历当成宝贵经验存入记忆，下次遇到类似情况时还会主动调用这段"经验"，结果一错再错。更糟糕的是，随着这类错误经验越积越多，AI的表现反而会越来越差——不是因为它不努力学习，而恰恰是因为它太"努力"地学习了那些本该抛弃的错误教训。

研究团队为了说明这个问题有多严重，专门做了一个对照实验：他们故意在一个AI的记忆库里注入10%的错误经验（比如一些听起来合理但实际上违反规则的"支付方法"），结果这个AI的任务成功率从82.5%直接跌到了77.2%。这5个多百分点的差距，仅仅来自于一成的记忆被"污染"，可以直观感受到错误经验的破坏力有多强。

为了解决这个问题，研究团队设计了一套名为EDV的全新框架，中文可以理解为"执行-提炼-验证"三步法。这套方法的核心思想，正是打破AI独自学习的闭环，引入多个不同的AI角色分别负责任务执行、经验总结和质量把关，就像一家公司里的业务员、分析师和审计员各司其职，互相制衡，共同保证写入档案的内容是真实可靠的。

二、AI记忆系统是怎么工作的，又是怎么坏掉的

在深入了解EDV如何解决问题之前，有必要先弄清楚AI的"经验学习"机制到底是怎么运作的。

现代AI智能体的一个重要特性，是能够把过去执行任务时积累的知识保存下来，供未来决策时参考。这个机制和人类记忆有几分相似：你第一次去某个城市，可能走了很多弯路；但下一次再去，你就会记得哪条路更快、哪家餐馆好吃。AI的记忆库做的是同样的事——把"踩过的坑"和"成功的经验"整理成可复用的知识，帮助自己在未来做出更好的判断。

这套机制在理论上非常美好，然而当AI需要独自完成"写经验总结"这件事时，麻烦就来了。研究团队用了一个数学符号来描述这个问题：假设一个AI完成了某个任务，产生了一段行动记录，这段记录客观上是否正确用c(τ)来表示（1代表正确，0代表错误）；这个AI自己评判这段记录是否值得写入记忆则用v(τ)来表示（1代表"写进去"，0代表"不要"）。

在单一AI独自负责执行和评判的情况下，一个本质上错误的行动记录（c=0）被这个AI误判为正确并写入记忆（v=1）的概率，会远高于理想情况。原因在于，AI执行任务时产生的思维偏差，和它评判任务时的思维偏差是同一套偏差——用一把有偏斜的尺子量出来的东西，再用同一把尺子验证，结果当然会觉得没问题。

研究团队还举了一个非常具体的例子来说明这种情况有多难以察觉。在一个模拟航空公司客服的任务场景里，AI助手需要帮助用户修改机票。但有一条隐藏规则是：旅行证书（travel certificate）不能用来修改已有的订单，只能用来全新购票。一个单一AI助手可能会不断尝试用旅行证书来完成修改操作，每次失败后仍然觉得"方向是对的，只是操作细节有问题"，然后把这段反复尝试的过程当成"宝贵探索经验"写入记忆。结果下次遇到类似任务，它还是会优先想到用旅行证书——错误的习惯就这样被反复强化了。

三、EDV三步法：让多个AI互相把关

EDV框架的设计，可以用一家新闻媒体的运作方式来理解。在一个优质的媒体机构里，记者负责采访和写稿（执行），编辑负责从多篇稿件中提炼出最有价值的角度（提炼），审核部门负责在发布前核实所有信息的真实性（验证）。没有哪个职能由同一个人独立完成，这种分工不是信任危机，而是保证质量的必要机制。

EDV的第一步叫做"执行"（Execute）。在这个阶段，系统会从一个由多个不同AI模型组成的"模型池"里随机抽取若干个AI，让它们各自独立地去完成同一个任务，产生各自的行动记录。之所以要用多个不同的AI，而不是让同一个AI多次尝试，是因为不同的AI模型有不同的"思维方式"和"行为偏好"——一个AI可能习惯于先查询信息再行动，另一个可能倾向于直接推理。这些差异会让行动记录呈现出真正的多样性，有的成功、有的失败、有的走了弯路、有的找到了捷径，为后续分析提供更丰富的素材。

研究团队在实际实验中使用了三个不同的大型语言模型：来自小米的Mimo-V2-Flash、来自智谱AI的GLM-4.7-FP8，以及来自MiniMax的MiniMax-M2.1。每次执行任务时，系统会随机从这三个模型中选两个组成"执行小组"，确保多样性的同时避免固定搭配产生新的偏见。

第二步叫做"提炼"（Distill）。执行阶段结束后，系统会从模型池中再随机挑选一个AI，但这次它的角色不是执行者，而是"第三方分析师"。这位分析师的任务是横向对比所有执行AI产生的行动记录，找出它们之间的差异：谁成功了、谁失败了、成功的关键步骤在哪里、失败的共同原因是什么。然后，这位分析师把这些跨越多条记录的对比洞察，浓缩提炼成若干条"候选经验"。

这个设计的关键在于"第三方"三个字。提炼经验的AI没有参与任务执行，它不会因为某条行动记录是自己产生的而对它有偏袒，也不会因为自己在某个地方失败了就不愿意承认那是错误。它只负责冷静分析别人的记录，这天然地减少了执行者视角带来的自我确认偏误。

第三步叫做"验证"（Verify）。候选经验产生后，还不能直接写入记忆库。系统会把这些候选经验交还给当初执行任务的那些AI，请它们各自基于自己的执行体验，对每一条候选经验进行独立评判：这条经验是否准确、是否有用、是否值得保留？

这里有一个重要的规则设计：EDV采用"默认拒绝"策略。只有当所有执行AI都对一条经验投了赞成票，这条经验才能进入"共享记忆库"，供所有AI以后调用。如果只有部分AI认可，这条经验就只进入那些赞成AI的"私人记忆库"。如果没有通过足够多的认可，就直接丢弃。这种严苛的准入标准，相当于给记忆库安装了一道高标准的质量过滤网，确保写进去的每一条经验都是经过多方认可的可靠知识。

四、不只是学习，还要学会"用"经验

EDV不仅解决了"怎么学"的问题，还设计了一套完整的"怎么用"机制，让积累下来的优质经验能够在合适的时候、被合适的AI调用出来。

在记忆存储端，EDV维护着两种类型的记忆库。共享记忆库里存放的是那些获得全体认可的经验，代表普遍适用的规律，所有AI都可以调用。私人记忆库则是每个AI独有的，里面存的是只有部分AI认可的经验——这些经验可能并不普遍适用，但对某些特定类型的AI或某些特定类型的任务有参考价值。

在模型选择端，EDV还维护着一个叫做"能力矩阵"（Ability Matrix）的东西，可以理解为一张每个AI的"擅长科目表"。通过在提炼阶段对每个AI表现的持续跟踪，系统会逐渐记录下哪类任务哪个AI表现最好。当一个新任务进来时，系统就会先查这张表，把任务优先交给最擅长处理它的AI来完成。

当某个AI接手新任务时，系统会先去共享记忆库里检索与该任务最相关的历史经验。如果共享库里找不到足够好的匹配，再去查那个AI自己的私人记忆库。检索到的相关经验会被附加到任务描述旁边，供AI在思考和决策时参考——这就像一个厨师在接到一个新食谱前，先翻翻自己的笔记本，看看上次做类似菜肴时有什么成功经验或失败教训。

在技术实现上，这套检索系统使用了一个叫做Qwen3-Embedding-4B的语义嵌入模型，能把文字内容转化成高维向量，通过计算向量间的相似度来判断哪些历史经验与当前任务最相关。共享记忆库的检索门槛设为0.80，私人记忆库的门槛稍高为0.85，确保调出来的参考经验真的是高度相关的，而不是牵强附会的。

五、三个战场上的全面检验

研究团队在三个完全不同类型的AI测试基准上验证了EDV的效果，每个基准考察的能力侧重点都不相同，覆盖了智能体在现实场景中可能遇到的主要挑战。

第一个测试场景叫做τ?-bench（tau-squared bench），是一个模拟真实客户服务的测试平台，涵盖了航空、零售、电信三个行业。在这里，AI需要扮演客服人员，处理各种复杂的用户请求，比如改签机票、处理退款、解释套餐政策。这类任务的难点在于规则复杂、限制条件多，而且用户的要求往往有多种满足方式，需要在符合规定的前提下找到最优解。

在这个测试中，研究团队将EDV与多种基准方案进行了对比。完全不使用记忆机制的单模型AI，成功率大约在76%到79%之间。使用了单一AI自我学习记忆机制的ReasoningBank方案，成功率提升到了79%到82%左右。另外两种利用了多模型集成但没有EDV核心机制的方案（Judge和Router），成功率分别在81.5%和83.5%。而EDV的综合成功率达到了86.6%，其中在电信领域的成功率更是高达99.1%。

第二个测试场景叫做Mind2Web，考察的是AI在真实网页上自动执行操作的能力。AI需要理解用户的自然语言指令，然后在网页上找到正确的按钮或链接点击，完成购物、搜索、填写表单等任务。这个测试分三种难度：在见过的网站上做新任务（跨任务泛化）、在没见过的同类网站上做任务（跨网站泛化）、在完全不同类型的网站上做任务（跨领域泛化）。

EDV在三种设置下都表现出了稳定的优势。以最能说明整体能力的"步骤成功率"（Step Success Rate，即每一步操作都做对的比例）为例，在跨任务测试中，EDV达到了43.17%，比最强基准（ReasoningBank使用Mimo-V2-Flash模型）的42.01%有明显提升；在跨网站测试中，EDV达到36.56%，优于最强基准的35.83%；在跨领域测试中，EDV达到39.57%，高于最强基准的38.74%。

第三个测试场景叫做MMTB（Multi-Mission Tool Bench，多任务工具测试基准），考察的是AI在需要调用各种外部工具（如翻译接口、数据查询API、加密货币行情等）时的表现。这类任务的难点在于工具调用格式严格，一个参数写错了整个调用就会失败，而且有些任务需要同时调用多个工具并协调它们的输出。EDV在这个测试中的综合成功率达到了58.10%，高于最强基准Router的55.96%。

六、拆解每个环节：谁贡献了多少

研究团队对EDV的每一个设计环节都做了细致的拆解实验，以弄清楚究竟是哪些设计真正发挥了作用，而不是笼统地说"整体方案有效"。这些实验都在τ?-bench的零售场景下进行，以成功率作为衡量指标。

研究团队设计了一系列"逐步递进"的对照组，像剥洋葱一样，从最简单的单AI自学出发，每次只加一个新设计，观察每步改变带来的效果。结论非常有说服力。

从只有单个AI自己执行任务、自己写总结、不做任何验证开始（成功率83.3%），到加入AI对自己的验证（成功率83.2%，甚至轻微下降），这个结果充分印证了研究团队的核心判断：自我验证不仅没有效果，还可能因为AI倾向于为自己的决策辩护而带来额外干扰。接着，引入一个外部独立验证者（成功率84.5%），效果有所改善，但提升幅度有限，因为单个AI的行动记录提供的对比信息太少，外部验证者也很难发现深层错误。

真正的跃升发生在引入多个AI协作执行的阶段（成功率85.9%）。多样化的行动记录让对比分析成为可能，不同AI的成功路径和失败方式形成了鲜明参照。进一步引入第三方提炼机制后（成功率87.1%），经验的质量又上了一个台阶，因为不带执行者视角的分析师能更客观地从多条记录中提取通用规律。最终完整版EDV加上共识验证（成功率88.6%），在第三方提炼的基础上再过滤掉那些分析师自身认知局限可能带来的误判，形成了完整的质量保障链。

关于记忆库的层次设计（共享库+私人库）和能力矩阵的作用，研究团队同样做了专门验证。去掉能力矩阵、改用固定的最佳单一模型处理所有任务，成功率降至86.6%，下降了2个百分点。去掉私人记忆库、把所有经验都存入共享库，成功率降至85.7%，下降了近3个百分点。去掉共享记忆库、把所有经验只存入私人库，成功率降至85.9%，同样有近3个百分点的下降。这说明两类记忆库各有其不可替代的价值——共享库提供普遍规律，私人库覆盖特殊案例，二者缺一不可。

七、经验质量的真实提升：人工审核怎么说

数字上的成功率提升是一回事，记忆库里存的经验质量究竟提高了多少，才是衡量EDV是否真正解决了核心问题的关键。为此，研究团队对EDV和ReasoningBank存入记忆库的内容进行了人工审核对比，评分采用5分制。

结果显示，EDV在所有积极指标上都高于ReasoningBank，在所有消极指标上都低于ReasoningBank。经验的"正确性与真实可信度"从3.72分提升到4.41分；"可操作性"（即这条经验能否直接指导AI下次做出更好的行动）从3.58分提升到4.32分；"具体性"（即这条经验是否有清晰的适用场景而非泛泛而谈）从3.64分提升到4.27分。与此同时，"噪音与幻觉程度"（即经验内容中有多少是没有实际依据的臆想内容）从1.21分下降到0.63分；"误导风险"（即如果AI按这条经验行事会不会反而做错）从1.08分下降到0.51分。

这组数字之所以有价值，在于它把抽象的"记忆质量提升"变成了可量化、可观察的对比，证明EDV不只是在最终成绩单上表现更好，它从源头就生产出了更纯净、更可靠的知识原料。

八、经验的三种升华：EDV改变了AI记忆的样貌

研究团队还对EDV产出的经验内容进行了深入的质量分析，发现相比单AI自学产出的经验，EDV的经验呈现出三种明显不同的特征，可以看作是AI从"死记硬背"向"真正理解"的跨越。

第一种升华可以称为"打破惯性，动态适应"。单AI学习产出的经验，往往是对某个操作步骤的固定描述，例如"完成筛选需要依次点击类别选项和地区选项"。这种经验相当于死记了一个操作流程，但没有理解这个流程在什么情况下才有必要执行。EDV产出的对应经验则更进一步："在执行筛选操作之前，先检查当前显示的结果是否已经满足目标条件，如果已经满足就直接跳过筛选步骤。"这背后体现的是一种对环境状态的感知能力，而不是机械执行固定程序。

第二种升华可以称为"跳出局部，全局优化"。单AI容易陷入"完成了一个子目标就满足了"的局限思维，比如为一个要求"展示来自巴西的TikTok系列播放列表"的任务，AI只选择了"巴西"这个地区选项就停下来了，认为任务完成，忘记了还需要同时指定"TikTok Series"这个内容类型。EDV产出的对应经验则会明确指出：当任务有多个并列条件时，所有条件都必须被满足，不能完成其中一个就停止。这种经验帮助AI建立起对任务整体结构的把握，而非只盯着眼前这一步。

第三种升华可以称为"深挖根因，精准纠错"。单AI在遇到失败时往往只记录表面现象（"不要用通用语言名称调用翻译工具"），而EDV在多个AI共同分析失败案例后，能够挖出更本质的原因（"调用翻译工具时必须使用ISO 639-1标准的双字母代码，如'en'代表英语、'ru'代表俄语，而非自然语言描述"）。这类经验不只告诉AI"什么不对"，还告诉它"为什么不对"和"正确的方式是什么"，具有更强的泛化能力。

九、效率不降反升：聪明地花时间

研究团队还专门分析了EDV在计算资源消耗上的表现，因为引入多个AI协作自然会让人担心成本大幅增加。

在经验构建阶段，EDV确实需要多个AI协同工作，但这个过程是离线进行的——AI不是在等待用户的时候实时做这件事，而是像工厂在夜间备货一样，在闲置时间批量处理。多个AI的工作可以并行进行，时间成本并不会随AI数量线性增加，也不会影响用户体验到的响应速度。

在实际使用阶段，EDV反而比对照组更节省资源。由于记忆库里存的都是高质量、高针对性的经验，AI调出相关记忆后能更快速地找到正确答案，不需要在错误路径上反复摸索。具体数字是：在零售场景的测试中，EDV的平均推理令牌消耗（可以理解为AI思考和生成回答所用的计算量）比ReasoningBank减少了24.5%，同时成功率还更高。这相当于一个经验丰富的专家，不仅回答质量更好，思考时间还比一个经验不足的人更短——因为优质的历史经验帮它直接跳过了大量无谓的试错过程。

EDV的设计思路，实质上是把解决问题的成本从"反复在线摸索"转移到了"一次性高质量离线备知"，这种时间结构上的重新分配，使得它在实际部署中具备良好的可行性。

说到底，这项研究想告诉我们的核心道理，其实比它的技术细节更值得细细品味。AI智能体的进步，不仅仅是"见过更多事"，更重要的是"记住对的事"。一个只会大量积累、不加筛选的记忆系统，就像一个什么都记笔记但从不整理笔记本的学生——笔记越来越多，真正有用的信息却越来越难找，甚至被错误的笔记越积越多地掩盖。

EDV提供的解法，是把记忆的"进货质检"这件事认真做好，在经验进入长期记忆之前，通过多角度审查把错误的内容拦截在外。数据表明，这种做法带来的不仅是成绩单上数字的提升，还有真实可测量的记忆内容质量改善。

当然，这套方案并非没有局限性。研究团队在论文中坦诚指出了几个值得关注的潜在问题：如果多个不同的AI恰好都存在同一种类型的认知盲区，那么"共识验证"机制可能反而会把这种共同的错误稳固下来，形成新的"多数人偏见"。此外，当团队里某个AI模型的能力明显弱于其他成员时，它的参与可能会干扰整体决策，拉低经验质量。另外，由于任务执行和经验评审分散在多个AI之间，一旦出现问题，追溯到底是哪个环节出了差错，会比单AI系统复杂得多。

未来的研究方向，研究团队提出了两个有意思的探索：一是如何动态管理不断增长的记忆库，让陈旧的经验自动退场、相近的经验合并整理，保持记忆库的整洁和高效；二是如何让AI团队的规模随任务难度动态调整，简单任务用一两个AI就够了，复杂任务则自动扩大团队，探索随着AI数量增加性能如何变化的规律。

对于关注AI技术发展的普通读者来说，这项研究揭示了一个很有实际意义的方向：当AI开始在更复杂的现实场景中持续工作时，如何设计它的"成长机制"，会直接决定它能走多远。有兴趣深入了解技术细节的读者，可以通过arXiv:2606.24428查阅完整论文，代码也已开放在GitHub上供研究者参考。

Q&A

Q1：什么是"自我确认陷阱"，为什么AI会掉入这个陷阱？

A：自我确认陷阱是指AI智能体独自完成任务、自己评估结果、自己写入记忆的闭环模式下，容易把错误但"看起来合理"的经验当成正确经验存入记忆库。因为执行任务时产生的认知偏差和评判任务时的偏差来自同一套思维系统，相当于用有问题的尺子量东西再用同一把尺子验证，自然发现不了问题。

Q2：EDV框架和传统单AI学习方案相比，具体提升了多少性能？

A：在模拟客服场景的τ?-bench测试中，不使用记忆的单模型方案成功率约为76%到79%，使用传统单AI自学记忆方案的成功率约为79%到82%，而EDV的综合成功率达到了86.6%，其中电信场景高达99.1%。此外，EDV在网页操作和工具调用两类测试中同样全面超过了所有对比方案，同时推理计算消耗还比传统方案降低了约24.5%。

Q3：EDV框架为什么需要多个不同的AI模型，用同一个模型多次运行不行吗？

A：关键在于"多样性"。同一个AI模型重复运行，会在相似的地方犯相似的错误，行动记录之间缺乏真正有价值的差异。而不同模型有不同的设计偏好和推理方式，一个可能在某步骤上失败，另一个恰好在同一步骤上成功，这种对比才能让提炼环节的第三方分析师发现真正的关键差异，提取出有实质参考价值的经验。研究的消融实验数据也印证了这一点，多模型执行是整体性能提升的重要基础。

特别声明：以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布，本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.