谷歌Learn-by-interact：AI实现自我进化学习|程序员|智能体|知名企业|learn|命令提示符

谷歌Learn-by-interact：AI实现自我进化学习

2025-09-13 13:58:17　来源: 科技行者

北京举报

分享至

这项由香港大学苏泓锦、谷歌等多位研究者共同完成的研究发表于2025年1月，提出了一个名为Learn-by-interact的全新数据合成框架。有兴趣深入了解的读者可以通过arXiv:2501.10893v1访问完整论文。研究团队包括来自谷歌和香港大学的顶尖专家，其中苏泓锦在谷歌云AI研究部门完成了这项工作。

当我们看到ChatGPT这样的AI助手时，可能会觉得它们已经足够聪明了。但实际上，这些AI在处理真实世界的复杂任务时，往往表现得像刚学会说话却不会走路的孩子——它们能够回答问题，却很难在复杂的数字环境中独立完成实际工作。比如说，让AI帮你修复一个软件bug、在网页上完成购物，或者操作桌面软件处理文档，它们的表现往往令人失望。

这就像是一个聪明的学生，在考试中能够回答理论问题，但到了实验室却不知道如何操作仪器设备。问题出在哪里呢？研究团队发现，根本原因在于这些AI缺乏足够的"实战经验"——它们没有接受过足够多关于如何在真实环境中与各种软件、网页、工具互动的训练。

传统的解决方案就像给学生请昂贵的私人教练——让人类专家手把手地教AI如何操作，标记每一个步骤。这种方法不仅成本高昂，而且当面对新的环境或软件时，又需要重新花费大量人力物力进行标注。就好比每次换了新的实验室设备，都要重新请专家来培训，这显然不是长久之计。

谷歌和香港大学的研究团队提出了一个革命性的解决方案：Let-by-interact框架。这个方法的核心思想就像让孩子通过不断尝试和犯错来学会新技能。当一个孩子学骑自行车时，他们不需要别人详细描述每一个动作，而是通过反复练习，在跌倒中学会保持平衡。Learn-by-interact让AI也采用类似的学习方式。

这套系统的工作原理可以比作一位勤奋的学徒工匠的成长过程。首先，学徒会从师傅的手册和说明书中学习各种工作任务，这就相当于AI从软件文档和教程中生成各种任务指令。然后，学徒开始动手实践这些任务，在实际操作中难免会犯错——比如本想做A却做成了B。传统方法会认为这种错误的操作记录毫无价值，但Learn-by-interact的巧妙之处在于"废物利用"：既然你做成了B，那我们就重新定义任务目标，让它符合实际完成的操作B。这就像原本想做红烧肉却意外做成了糖醋肉，那就把菜谱改成糖醋肉的做法，这样这次操作记录就变成了有价值的学习材料。

研究团队将这个关键步骤称为"逆向构建"。这个过程就像一个聪明的老师，看到学生的作业结果后，反推出一个合适的题目来匹配这个答案。比如，AI本来想要"上传谷歌云盘的CSV文件到BigQuery"，但在操作过程中选错了数据源，实际完成的是"链接谷歌云存储的CSV文件到BigQuery"。传统方法会认为这个操作序列是失败的，但逆向构建会重新生成一个与实际操作匹配的任务描述，让这个操作序列变成有价值的训练数据。

除了逆向构建这个核心创新，Learn-by-interact还设计了一套智能的数据检索系统。这个系统就像一个经验丰富的师傅，当学徒遇到问题时，能够迅速找到最相关的经验和案例来指导。这个检索系统包含两个互补的部分：一个是基于理解任务意图的智能匹配，另一个是基于当前操作界面的直观匹配。

基于意图的匹配就像一个善解人意的助手，能够理解你当前想要完成的任务类型，然后从大量的经验库中找出最相关的操作案例。而基于界面的匹配则更加直接——当AI看到某个特定的界面或窗口时，系统会立即调出所有在类似界面下的成功操作记录，就像老司机看到特定的路况就知道应该怎么驾驶一样。

为了验证这个方法的有效性，研究团队在四个极具挑战性的真实环境中进行了广泛测试。这些测试环境涵盖了软件工程、网页操作、桌面应用和专业数据科学工具，就像是为AI设计的"全能挑战赛"。

在软件工程领域，他们使用了SWE-bench基准测试，这相当于让AI解决GitHub上的真实编程问题。想象一下，这就像让AI成为一个程序员，需要阅读bug报告，理解代码，然后编写补丁来修复问题。在这个极具挑战性的任务中，Learn-by-interact让Claude-3.5的性能从基线的51.2%提升到60.0%，相当于让AI程序员的"修bug成功率"提高了近9个百分点。

在网页操作方面，研究团队使用了WebArena基准，这个测试环境模拟了真实的电子商务、论坛讨论等网站操作。就好比让AI学会像人类用户一样浏览网页、点击按钮、填写表单、完成购物等复杂任务。在这个测试中，Learn-by-interact的效果更加显著，Claude-3.5的性能从35.8%跃升到48.0%，提升幅度超过12个百分点。这意味着AI现在能够更好地理解网页界面，更准确地执行用户想要的操作。

桌面应用操作测试使用了OSWorld基准，这是一个模拟完整桌面环境的挑战，包括各种软件如Chrome浏览器、GIMP图像编辑器、LibreOffice办公套件等。在这个最接近日常工作环境的测试中，Learn-by-interact展现出了惊人的效果，Claude-3.5的成功率从12.4%飙升到22.5%，几乎翻了一番。这就像是让AI从一个只会纸上谈兵的新手，变成了能够熟练操作各种软件工具的老练用户。

在专业数据科学工具测试中，研究团队使用了Spider2-V基准，这涉及BigQuery、Airbyte、Superset等企业级数据处理工具。这些工具的操作复杂度相当高，即使对人类用户也具有一定挑战性。Learn-by-interact让Claude-3.5在这个领域的性能从8.4%提升到16.6%，几乎实现了翻倍的改进。

更令人印象深刻的是训练效果。当研究团队使用合成数据对较小的AI模型进行训练时，效果更加显著。例如，Codestral-22B模型在WebArena上的表现从4.7%跳跃到24.2%，这相当于从一个几乎不会操作网页的新手，变成了具有实用价值的网页操作助手。这种巨大的性能提升表明，Learn-by-interact不仅能够改善现有大型模型的表现，还能显著增强较小模型的实用性。

研究团队进行了深入的分析来理解为什么Learn-by-interact如此有效。他们发现逆向构建这个核心机制贡献了高达14%的性能提升。这证实了"变废为宝"的理念确实有效——通过重新定义任务目标来匹配实际完成的操作，大大增加了可用训练数据的数量和质量。

另一个重要发现是关于数据粒度的影响。研究团队将合成数据按照操作步骤的长短分为短序列（少于5步）、中等序列（5-10步）和长序列（10步以上）三类。分析结果显示，短序列数据最为有价值，因为它们相当于基本的操作技能，可以灵活组合应用到各种不同的任务中。这就像学习武术时，基本动作比复杂套路更加重要，掌握了基本功就能够灵活应对各种情况。

在效率方面，Learn-by-interact也表现出色。相比于其他需要大量计算资源的方法（如Reflexion和LATS），Learn-by-interact在提供更好性能的同时，消耗的计算资源更少，响应速度更快。这使得该方法特别适合实际部署应用，就像一辆既省油又动力强劲的汽车，兼具实用性和经济性。

研究团队还验证了方法的跨环境泛化能力。他们专门测试了在一个环境中训练的AI能否在类似但不完全相同的环境中保持良好表现。结果显示，即使没有专门针对新环境进行训练，Learn-by-interact仍然能够提供显著的性能提升，这表明该方法学到的是通用的操作技能，而不仅仅是对特定环境的记忆。

从技术实现角度来看，Learn-by-interact的整个流程高度自动化。系统首先从软件文档、教程、FAQ等常见资源中自动生成多样化的任务指令，这确保了任务的覆盖面和实用性。然后AI开始尝试执行这些任务，系统会记录完整的操作序列。对于那些没有完美完成原始任务的操作序列，逆向构建机制会分析实际的操作轨迹，生成与之匹配的新任务描述。

为了确保数据质量，系统还设计了多层次的过滤机制。首先，会自动移除重复或无效的操作步骤。然后，使用多个AI模型组成的"委员会"来评估每个指令-操作对的质量，只有当所有AI都认为操作序列合理、自然且与指令匹配时，才会保留这个训练样本。

在实际应用时，Learn-by-interact的检索系统会根据当前的任务指令、操作历史和界面状态，智能地从合成数据库中选择最相关的示例作为参考。这个过程就像一个经验丰富的师傅，总是能在关键时刻提供最有价值的指导。

这项研究的意义远不止技术层面的突破。它为AI智能体的发展开辟了一条全新的道路——从依赖昂贵的人工标注，转向自主学习和经验积累。这种转变就像从传统的师傅带徒弟模式，转向现代的自学成才模式，大大降低了AI智能体适应新环境的成本和时间。

更重要的是，Learn-by-interact展现了AI系统的自我改进能力。随着AI在各种环境中的操作经验不断积累，它们的表现会持续改善，形成一个正向循环。这就像一个勤奋的学生，通过不断练习和反思，逐步提高自己的技能水平。

说到底，这项研究解决了AI智能体发展中的一个关键瓶颈——如何让AI像人类一样通过实践学习。人类之所以能够快速适应新环境，正是因为我们能够从每一次尝试中学习，即使是失败的尝试也能提供有价值的经验。Learn-by-interact让AI获得了类似的能力，这为构建真正实用的AI助手铺平了道路。

展望未来，这种方法可能会让AI智能体在更多领域发挥作用。无论是帮助老年人操作复杂的智能设备，协助企业员工处理繁琐的数据分析任务，还是为程序员提供智能的代码调试支持，Learn-by-interact都提供了一个可行的技术路径。随着这项技术的进一步发展和普及，我们可能会看到AI助手变得更加智能和实用，真正成为人类工作和生活中不可或缺的伙伴。

当然，这项研究也面临一些挑战。生成和过滤大量合成数据需要相当的计算资源，而且在某些专业领域，可能缺乏足够详细的文档资源来指导任务生成。不过，随着计算能力的不断提升和更多高质量文档资源的积累，这些限制会逐步得到缓解。

总的来说，Learn-by-interact代表了AI智能体发展的一个重要里程碑，它不仅提供了一个实用的技术方案，更重要的是展现了一种全新的AI学习范式。这种让AI通过与环境互动来自主学习的方法，可能会成为未来AI系统发展的主流方向，推动AI技术向更加智能和自主的方向发展。

Q&A

Q1：Learn-by-interact和传统AI训练方法有什么不同？

A：传统方法需要人工专家手动标注每个操作步骤，成本高昂且适应性差。Learn-by-interact让AI自己与环境互动学习，即使操作失败也能通过"逆向构建"转化为有价值的训练数据，就像变废为宝一样，大大降低了训练成本。

Q2：逆向构建机制具体是怎么工作的？

A：当AI执行任务时可能会偏离原定目标，比如想做红烧肉却做成了糖醋肉。逆向构建会根据实际完成的操作重新生成匹配的任务描述，把"做糖醋肉"作为新的训练目标，这样原本"失败"的操作就变成了有用的学习材料。

Q3：Learn-by-interact在哪些实际应用中表现最好？

A：在四大测试环境中都有显著提升，其中桌面应用操作效果最突出，Claude-3.5成功率从12.4%跃升到22.5%，几乎翻倍。在网页操作、软件编程和数据科学工具使用方面也有大幅改善，特别适合需要复杂人机交互的场景。

特别声明：以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布，本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.