UCL团队教AI自己培养技能：让机器学习像人类学徒一样成长|算法

分享至

来自伦敦大学学院（University College London）的研究团队在2026年3月发表了一项突破性研究，该研究于arXiv平台发布，编号为arXiv:2603.18743v1，专门探讨如何让AI智能体像人类学徒一样，通过实际经验自主学习和积累技能。这项名为"Memento-Skills"的研究为我们展示了一个全新的AI学习范式：不再需要重新训练大型语言模型，而是让AI通过外部技能库不断进化。

想象一下传统工匠培养学徒的过程：师傅不会每次都重新塑造学徒的大脑，而是让学徒通过一次次实践，在工具箱中积累越来越多的技能。每当遇到新任务时，学徒会从自己的经验库中选择最合适的技能来应对。如果失败了，学徒会反思问题所在，改进技能或学习新技能。UCL的研究团队正是受到这种学习方式的启发，开发了一套让AI智能体自主成长的系统。

这项研究的核心创新在于将技能本身作为AI的"外部记忆"。与传统方法需要消耗大量计算资源重新训练模型不同，Memento-Skills系统让AI保持"冻结"状态，所有的学习和进化都发生在外部技能库中。就像一个手艺人的工具箱会随着经验增长而变得更加丰富和精细，AI的技能库也会在每次任务执行后得到更新和优化。

研究团队设计了一个"读写反思学习"机制，这个过程可以比作一位经验丰富的图书管理员的工作流程。当有读者来咨询问题时，图书管理员首先从庞大的藏书中找出最相关的资料（读取阶段），然后根据这些资料为读者提供答案。如果答案不够准确，图书管理员会反思原因，可能是选错了参考书，也可能是某本书的内容需要更新。于是，图书管理员会重新整理相关资料，甚至添加新的藏书（写入阶段），确保下次遇到类似问题时能提供更好的服务。

整个系统从五个基础技能开始，就像新手工匠的基本工具包，包括网页搜索和终端操作等基本功能。随着处理任务的增多，系统会自动生成新技能或改进现有技能。研究团队在两个重要基准测试上验证了这套方法的有效性：通用AI助手基准（GAIA）和人类最后考试基准（HLE）。

在GAIA测试中，这套系统的表现令人印象深刻。该基准包含165个需要多步推理、多媒体处理、网页浏览和工具使用的现实问题。研究团队将这些问题分为100个训练样本和65个测试样本。经过三轮反思学习，系统在训练集上的成功率从最初的65.1%提升到91.6%。更重要的是，在从未见过的测试集上，完整的Memento-Skills系统达到了66.0%的准确率，相比于不具备技能优化功能的简化版本，提升了13.7个百分点。

HLE基准测试更是展现了系统跨领域学习的强大能力。这个基准涵盖数学、人文、自然科学等八个学术领域的2500个专家级问题。研究团队从中抽取了788个训练样本和342个测试样本。经过四轮学习，系统的整体成功率从30.8%稳步提升到54.5%。其中，生物学和人文学科的提升最为显著，分别达到60.7%和66.7%的准确率。在测试集上，该系统达到38.7%的准确率，相比基础版本几乎翻了一番，提升幅度超过20个百分点。

这种学习方式的一个重要特点是技能的可复用性。在HLE测试中，系统学会了针对不同学科的专门技能，比如处理化学问题的技能可能包含分子结构分析的特殊步骤，而数学技能则专注于公式推导和计算验证。当系统遇到新的化学问题时，它能够识别并调用之前优化过的化学技能，而不是从头开始。这种技能迁移在结构化的学科分类中表现得特别明显，这也解释了为什么HLE基准上的跨任务迁移效果比GAIA更好。

系统的技能路由机制是另一个技术亮点。传统的相似度匹配方法往往只关注表面的语义相似性，就像仅凭书名来选择参考书一样不够准确。研究团队开发了一种"行为对齐"的技能选择机制，这种方法不仅考虑问题和技能在描述上的相似性，更重要的是预测执行特定技能是否能成功解决当前问题。

为了训练这个智能路由系统，研究团队构建了一个包含约8000个技能的数据库，并合成了大量模拟用户查询。他们使用一种叫作InfoNCE的对比学习方法，这种方法的基本思想是让系统学会区分"好的配对"和"坏的配对"。好的配对是指问题和能够成功解决它的技能之间的组合，坏的配对则是看似相关但实际无用的组合。通过大量这样的训练，路由系统学会了更准确的技能选择策略。

实验结果显示，这种行为对齐的路由方法在离线评估中显著优于传统方法。在合成查询测试中，新方法的召回率在不同排名位置都有显著提升，特别是在最重要的首位推荐上，准确率从传统方法的32%（BM25）和54%（语义嵌入）提升到60%。更重要的是，在真实任务执行中，新路由方法将任务成功率从79%提升到80%，同时显著提高了技能选择的准确性。

系统的技能进化过程展现了有机成长的特征。研究团队通过可视化技能库的嵌入空间发现了一个有趣现象：学习后的技能会自然聚集成语义相关的群组。在GAIA学习后，41个技能形成了相对紧凑的分布，而在HLE学习后，235个技能扩散到更广阔的空间，形成了诸如"搜索网络"、"量子物理"、"数学化学"、"代码文本"等专业化技能群组。这种自组织现象表明系统确实在自主发现和构建有用的技能分类体系。

从理论角度来看，这项研究建立在"状态反思决策过程"的数学框架之上。研究团队证明了随着技能库规模的增长，系统的性能会逐渐收敛到理论最优值。这种收敛行为不是巧合，而是有严格数学保证的。性能提升的边际效应会随着学习轮次增加而递减，这正反映了学习曲线中常见的"先快后慢"现象。当技能库覆盖了大部分任务空间后，继续添加技能的收益会变小，系统达到相对稳定的状态。

理论分析还揭示了影响系统性能的三个独立因素：语言模型的基础能力、训练轮次的数量，以及技能嵌入的质量。这三个因素相互独立，意味着可以通过升级语言模型、增加训练数据或改进嵌入算法来单独提升系统性能，而无需同时优化所有组件。这种模块化特性为实际部署提供了很大的灵活性。

技能写入机制是整个系统最复杂的部分。当任务执行失败时，系统首先进行失败归因分析，识别导致错误的具体技能。然后，一个专门的技能重写器会基于执行轨迹和评判反馈，对相关技能进行针对性修改。这些修改可能包括添加安全检查、调整执行步骤或引入替代策略。如果某个技能的成功率持续下降，系统会启动技能发现机制，要么重构现有技能，要么创建全新技能。

为了确保技能修改不会引入新问题，系统设置了自动化单元测试机制。每当技能被修改后，系统会生成合成测试案例来验证修改的有效性。只有通过测试的修改才会被正式采用，否则系统会回滚到之前的版本。这种安全机制保证了技能库的稳定性和可靠性。

整个系统的架构设计体现了工程实践的最佳原则。不同于早期原型中将所有功能集中在单一文件的做法，正式版本采用了清晰的模块化架构。核心代理负责统筹协调，技能系统管理技能的存储和演化，检索引擎处理技能匹配，执行引擎负责任务运行，而反思模块则处理学习和优化。这种分离关注点的设计不仅提高了系统的可维护性，也便于针对特定组件进行性能优化。

从更广阔的视角来看，这项研究代表了人工智能学习范式的重要转变。传统的深度学习方法主要依靠大规模数据和计算资源来训练模型参数，而Memento-Skills展示了另一种可能性：将学习能力外化为可持续演进的知识结构。这种方法不仅在计算效率上更具优势，也更符合人类学习的认知模式。

研究团队在论文中特别强调了这种方法的实用价值。部署后的AI系统无需回收重新训练，就能在实际使用过程中不断改进。每一次用户交互都是学习机会，每一个失败案例都能转化为技能优化的动力。这种"永远在线学习"的特性对于实际应用场景具有重要意义，特别是在需要处理多样化任务的通用AI助手系统中。

系统的性能提升曲线也验证了理论预测的准确性。在两个基准测试中，学习曲线都呈现出典型的"对数增长"模式：初期提升显著，后期趋于平缓。这种模式反映了技能空间逐渐饱和的过程。早期轮次中，系统发现和填补了大量技能空白，因此性能快速提升。随着技能库日趋完善，新增技能的边际价值递减，性能提升趋向稳定。

实验数据还显示了跨域技能迁移的重要性。在GAIA测试中，由于问题类型高度多样化且缺乏明确的领域边界，训练期间优化的技能很少在测试中被重复使用，因此跨任务迁移效果有限。相比之下，HLE基准的结构化学科分类为技能复用提供了天然框架，生物学技能可以在不同生物问题间迁移，数学技能也能在各类数学题目中发挥作用。这一对比揭示了技能学习系统的一个重要特征：领域结构的清晰程度直接影响知识迁移的效果。

从技术实现的角度，研究团队公开了完整的代码库和数据集，为后续研究提供了坚实基础。系统的模块化设计使得研究者可以轻松替换或改进特定组件，比如尝试不同的语言模型、修改技能表示方法或优化路由算法。这种开放性为该领域的持续发展创造了良好条件。

技能库的增长模式也体现了有机学习系统的特征。从初始的5个基础技能开始，GAIA学习产生了41个技能，而HLE学习最终形成了235个技能的庞大库存。这些技能不是随机分布的，而是根据任务需求自然聚集成专业化群组。搜索和网络操作技能群组包含48个相关技能，量子物理群组有47个，数学化学群组44个，代码处理群组38个。这种自组织结构表明系统确实在发现和利用任务空间的内在规律。

研究的理论基础建立在马尔可夫决策过程的扩展框架上。通过将系统状态定义为当前任务和技能库的组合，研究团队证明了扩展后的系统仍然满足马尔可夫性质，从而保证了学习算法的理论有效性。这种严谨的数学处理为实际系统的可靠性提供了理论保障。

值得注意的是，系统的学习过程完全是无监督的，不需要人工标注或专家指导。系统通过任务执行的成功与否来判断技能的有效性，通过执行轨迹来识别改进方向。这种自主学习能力使得系统能够适应各种未预见的使用场景和任务类型。

从实际部署的角度来看，Memento-Skills系统展现了良好的可扩展性和鲁棒性。系统启动时只需要少量基础技能，随着使用时间的增长，技能库会自动扩充和优化。这种渐进式成长模式特别适合实际应用环境，用户可以立即开始使用基础功能，而高级功能会在系统学习过程中逐步涌现。

研究团队还特别关注了系统的安全性和稳定性。每次技能修改都经过自动化测试验证，确保新版本不会破坏已有功能。当技能优化失败时，系统会自动回滚到稳定版本，避免因单次失败而影响整体性能。这种保守的更新策略虽然可能减缓学习速度，但显著提高了系统在生产环境中的可靠性。

综合来看，这项研究为人工智能的持续学习问题提供了一个创新且实用的解决方案。通过将技能外化为可演进的知识结构，系统能够在不修改核心模型的前提下实现持续改进。这种方法不仅在技术上可行，也在经济上更加高效，为构建真正智能的AI助手系统开辟了新的道路。研究成果的开源发布进一步推动了该领域的发展，为未来更多创新应用奠定了基础。

Q&A

Q1：Memento-Skills系统如何实现AI的自主学习？

A：Memento-Skills通过"读写反思学习"机制让AI自主成长。系统从外部技能库中读取相关技能来执行任务，如果任务失败，就会反思原因并优化技能或创造新技能。整个过程就像工匠学徒通过实践不断完善工具箱一样，AI的技能库会随着经验积累而变得更加丰富和精准。

Q2：为什么这种方法比传统的AI训练更有优势？

A：传统方法需要消耗大量计算资源重新训练整个模型，而Memento-Skills系统保持AI模型"冻结"状态，所有学习都发生在外部技能库中。这样不仅节省了计算成本，还能让AI在实际使用过程中持续改进，每次用户交互都能转化为学习机会，实现真正的"在线学习"。

Q3：Memento-Skills在实际测试中表现如何？

A：在两个重要基准测试中，系统表现出色。在GAIA测试中，准确率从65.1%提升到66.0%，比基础版本高出13.7个百分点。在HLE测试中，成功率从30.8%稳步提升到54.5%，最终测试准确率达到38.7%，相比基础版本几乎翻了一番。特别是在有明确学科分类的任务中，技能迁移效果更加显著。

特别声明：以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布，本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.