网易首页 > 网易号 > 正文 申请入驻

谷歌Learn-by-interact:AI实现自我进化学习

0
分享至


这项由香港大学苏泓锦、谷歌等多位研究者共同完成的研究发表于2025年1月,提出了一个名为Learn-by-interact的全新数据合成框架。有兴趣深入了解的读者可以通过arXiv:2501.10893v1访问完整论文。研究团队包括来自谷歌和香港大学的顶尖专家,其中苏泓锦在谷歌云AI研究部门完成了这项工作。

当我们看到ChatGPT这样的AI助手时,可能会觉得它们已经足够聪明了。但实际上,这些AI在处理真实世界的复杂任务时,往往表现得像刚学会说话却不会走路的孩子——它们能够回答问题,却很难在复杂的数字环境中独立完成实际工作。比如说,让AI帮你修复一个软件bug、在网页上完成购物,或者操作桌面软件处理文档,它们的表现往往令人失望。

这就像是一个聪明的学生,在考试中能够回答理论问题,但到了实验室却不知道如何操作仪器设备。问题出在哪里呢?研究团队发现,根本原因在于这些AI缺乏足够的"实战经验"——它们没有接受过足够多关于如何在真实环境中与各种软件、网页、工具互动的训练。

传统的解决方案就像给学生请昂贵的私人教练——让人类专家手把手地教AI如何操作,标记每一个步骤。这种方法不仅成本高昂,而且当面对新的环境或软件时,又需要重新花费大量人力物力进行标注。就好比每次换了新的实验室设备,都要重新请专家来培训,这显然不是长久之计。

谷歌和香港大学的研究团队提出了一个革命性的解决方案:Let-by-interact框架。这个方法的核心思想就像让孩子通过不断尝试和犯错来学会新技能。当一个孩子学骑自行车时,他们不需要别人详细描述每一个动作,而是通过反复练习,在跌倒中学会保持平衡。Learn-by-interact让AI也采用类似的学习方式。

这套系统的工作原理可以比作一位勤奋的学徒工匠的成长过程。首先,学徒会从师傅的手册和说明书中学习各种工作任务,这就相当于AI从软件文档和教程中生成各种任务指令。然后,学徒开始动手实践这些任务,在实际操作中难免会犯错——比如本想做A却做成了B。传统方法会认为这种错误的操作记录毫无价值,但Learn-by-interact的巧妙之处在于"废物利用":既然你做成了B,那我们就重新定义任务目标,让它符合实际完成的操作B。这就像原本想做红烧肉却意外做成了糖醋肉,那就把菜谱改成糖醋肉的做法,这样这次操作记录就变成了有价值的学习材料。

研究团队将这个关键步骤称为"逆向构建"。这个过程就像一个聪明的老师,看到学生的作业结果后,反推出一个合适的题目来匹配这个答案。比如,AI本来想要"上传谷歌云盘的CSV文件到BigQuery",但在操作过程中选错了数据源,实际完成的是"链接谷歌云存储的CSV文件到BigQuery"。传统方法会认为这个操作序列是失败的,但逆向构建会重新生成一个与实际操作匹配的任务描述,让这个操作序列变成有价值的训练数据。

除了逆向构建这个核心创新,Learn-by-interact还设计了一套智能的数据检索系统。这个系统就像一个经验丰富的师傅,当学徒遇到问题时,能够迅速找到最相关的经验和案例来指导。这个检索系统包含两个互补的部分:一个是基于理解任务意图的智能匹配,另一个是基于当前操作界面的直观匹配。

基于意图的匹配就像一个善解人意的助手,能够理解你当前想要完成的任务类型,然后从大量的经验库中找出最相关的操作案例。而基于界面的匹配则更加直接——当AI看到某个特定的界面或窗口时,系统会立即调出所有在类似界面下的成功操作记录,就像老司机看到特定的路况就知道应该怎么驾驶一样。

为了验证这个方法的有效性,研究团队在四个极具挑战性的真实环境中进行了广泛测试。这些测试环境涵盖了软件工程、网页操作、桌面应用和专业数据科学工具,就像是为AI设计的"全能挑战赛"。

在软件工程领域,他们使用了SWE-bench基准测试,这相当于让AI解决GitHub上的真实编程问题。想象一下,这就像让AI成为一个程序员,需要阅读bug报告,理解代码,然后编写补丁来修复问题。在这个极具挑战性的任务中,Learn-by-interact让Claude-3.5的性能从基线的51.2%提升到60.0%,相当于让AI程序员的"修bug成功率"提高了近9个百分点。

在网页操作方面,研究团队使用了WebArena基准,这个测试环境模拟了真实的电子商务、论坛讨论等网站操作。就好比让AI学会像人类用户一样浏览网页、点击按钮、填写表单、完成购物等复杂任务。在这个测试中,Learn-by-interact的效果更加显著,Claude-3.5的性能从35.8%跃升到48.0%,提升幅度超过12个百分点。这意味着AI现在能够更好地理解网页界面,更准确地执行用户想要的操作。

桌面应用操作测试使用了OSWorld基准,这是一个模拟完整桌面环境的挑战,包括各种软件如Chrome浏览器、GIMP图像编辑器、LibreOffice办公套件等。在这个最接近日常工作环境的测试中,Learn-by-interact展现出了惊人的效果,Claude-3.5的成功率从12.4%飙升到22.5%,几乎翻了一番。这就像是让AI从一个只会纸上谈兵的新手,变成了能够熟练操作各种软件工具的老练用户。

在专业数据科学工具测试中,研究团队使用了Spider2-V基准,这涉及BigQuery、Airbyte、Superset等企业级数据处理工具。这些工具的操作复杂度相当高,即使对人类用户也具有一定挑战性。Learn-by-interact让Claude-3.5在这个领域的性能从8.4%提升到16.6%,几乎实现了翻倍的改进。

更令人印象深刻的是训练效果。当研究团队使用合成数据对较小的AI模型进行训练时,效果更加显著。例如,Codestral-22B模型在WebArena上的表现从4.7%跳跃到24.2%,这相当于从一个几乎不会操作网页的新手,变成了具有实用价值的网页操作助手。这种巨大的性能提升表明,Learn-by-interact不仅能够改善现有大型模型的表现,还能显著增强较小模型的实用性。

研究团队进行了深入的分析来理解为什么Learn-by-interact如此有效。他们发现逆向构建这个核心机制贡献了高达14%的性能提升。这证实了"变废为宝"的理念确实有效——通过重新定义任务目标来匹配实际完成的操作,大大增加了可用训练数据的数量和质量。

另一个重要发现是关于数据粒度的影响。研究团队将合成数据按照操作步骤的长短分为短序列(少于5步)、中等序列(5-10步)和长序列(10步以上)三类。分析结果显示,短序列数据最为有价值,因为它们相当于基本的操作技能,可以灵活组合应用到各种不同的任务中。这就像学习武术时,基本动作比复杂套路更加重要,掌握了基本功就能够灵活应对各种情况。

在效率方面,Learn-by-interact也表现出色。相比于其他需要大量计算资源的方法(如Reflexion和LATS),Learn-by-interact在提供更好性能的同时,消耗的计算资源更少,响应速度更快。这使得该方法特别适合实际部署应用,就像一辆既省油又动力强劲的汽车,兼具实用性和经济性。

研究团队还验证了方法的跨环境泛化能力。他们专门测试了在一个环境中训练的AI能否在类似但不完全相同的环境中保持良好表现。结果显示,即使没有专门针对新环境进行训练,Learn-by-interact仍然能够提供显著的性能提升,这表明该方法学到的是通用的操作技能,而不仅仅是对特定环境的记忆。

从技术实现角度来看,Learn-by-interact的整个流程高度自动化。系统首先从软件文档、教程、FAQ等常见资源中自动生成多样化的任务指令,这确保了任务的覆盖面和实用性。然后AI开始尝试执行这些任务,系统会记录完整的操作序列。对于那些没有完美完成原始任务的操作序列,逆向构建机制会分析实际的操作轨迹,生成与之匹配的新任务描述。

为了确保数据质量,系统还设计了多层次的过滤机制。首先,会自动移除重复或无效的操作步骤。然后,使用多个AI模型组成的"委员会"来评估每个指令-操作对的质量,只有当所有AI都认为操作序列合理、自然且与指令匹配时,才会保留这个训练样本。

在实际应用时,Learn-by-interact的检索系统会根据当前的任务指令、操作历史和界面状态,智能地从合成数据库中选择最相关的示例作为参考。这个过程就像一个经验丰富的师傅,总是能在关键时刻提供最有价值的指导。

这项研究的意义远不止技术层面的突破。它为AI智能体的发展开辟了一条全新的道路——从依赖昂贵的人工标注,转向自主学习和经验积累。这种转变就像从传统的师傅带徒弟模式,转向现代的自学成才模式,大大降低了AI智能体适应新环境的成本和时间。

更重要的是,Learn-by-interact展现了AI系统的自我改进能力。随着AI在各种环境中的操作经验不断积累,它们的表现会持续改善,形成一个正向循环。这就像一个勤奋的学生,通过不断练习和反思,逐步提高自己的技能水平。

说到底,这项研究解决了AI智能体发展中的一个关键瓶颈——如何让AI像人类一样通过实践学习。人类之所以能够快速适应新环境,正是因为我们能够从每一次尝试中学习,即使是失败的尝试也能提供有价值的经验。Learn-by-interact让AI获得了类似的能力,这为构建真正实用的AI助手铺平了道路。

展望未来,这种方法可能会让AI智能体在更多领域发挥作用。无论是帮助老年人操作复杂的智能设备,协助企业员工处理繁琐的数据分析任务,还是为程序员提供智能的代码调试支持,Learn-by-interact都提供了一个可行的技术路径。随着这项技术的进一步发展和普及,我们可能会看到AI助手变得更加智能和实用,真正成为人类工作和生活中不可或缺的伙伴。

当然,这项研究也面临一些挑战。生成和过滤大量合成数据需要相当的计算资源,而且在某些专业领域,可能缺乏足够详细的文档资源来指导任务生成。不过,随着计算能力的不断提升和更多高质量文档资源的积累,这些限制会逐步得到缓解。

总的来说,Learn-by-interact代表了AI智能体发展的一个重要里程碑,它不仅提供了一个实用的技术方案,更重要的是展现了一种全新的AI学习范式。这种让AI通过与环境互动来自主学习的方法,可能会成为未来AI系统发展的主流方向,推动AI技术向更加智能和自主的方向发展。

Q&A

Q1:Learn-by-interact和传统AI训练方法有什么不同?

A:传统方法需要人工专家手动标注每个操作步骤,成本高昂且适应性差。Learn-by-interact让AI自己与环境互动学习,即使操作失败也能通过"逆向构建"转化为有价值的训练数据,就像变废为宝一样,大大降低了训练成本。

Q2:逆向构建机制具体是怎么工作的?

A:当AI执行任务时可能会偏离原定目标,比如想做红烧肉却做成了糖醋肉。逆向构建会根据实际完成的操作重新生成匹配的任务描述,把"做糖醋肉"作为新的训练目标,这样原本"失败"的操作就变成了有用的学习材料。

Q3:Learn-by-interact在哪些实际应用中表现最好?

A:在四大测试环境中都有显著提升,其中桌面应用操作效果最突出,Claude-3.5成功率从12.4%跃升到22.5%,几乎翻倍。在网页操作、软件编程和数据科学工具使用方面也有大幅改善,特别适合需要复杂人机交互的场景。

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
预制菜最大的问题,不只是防腐剂!

预制菜最大的问题,不只是防腐剂!

晨露说事
2025-09-15 14:10:07
西贝,被骗6000万!

西贝,被骗6000万!

钧言堂
2025-09-15 16:34:08
曹德旺赌对了!何超琼现身福耀科技大,才明白各取所需打得好算盘

曹德旺赌对了!何超琼现身福耀科技大,才明白各取所需打得好算盘

白面书誏
2025-09-15 16:03:53
中欧班列是中国和欧洲的黄金大动脉,现在却被波兰关闭,无法运行

中欧班列是中国和欧洲的黄金大动脉,现在却被波兰关闭,无法运行

大道无形我有型
2025-09-15 18:33:17
菲律宾离挨揍还有多远,我舰“抵近”菲7海里

菲律宾离挨揍还有多远,我舰“抵近”菲7海里

世家宝
2025-09-15 13:20:31
人民日报、新华社接连发文,只字不提罗永浩,却句句暗指罗永浩

人民日报、新华社接连发文,只字不提罗永浩,却句句暗指罗永浩

小兰聊历史
2025-09-15 17:48:40
涉毒艺人苏永康将在温州办演唱会,有网友投诉,官方:报批资料合规,暂无不举办的通知

涉毒艺人苏永康将在温州办演唱会,有网友投诉,官方:报批资料合规,暂无不举办的通知

极目新闻
2025-09-15 17:38:42
小泉进次郎支持率飙升,麻生太郎态度反转!

小泉进次郎支持率飙升,麻生太郎态度反转!

天真无牙
2025-09-15 15:53:22
全线大涨!中国资产爆发!

全线大涨!中国资产爆发!

证券时报
2025-09-16 00:16:04
热搜爆了!西贝道歉,10月1日前全国门店调整!于东来:希望不要毁了西贝

热搜爆了!西贝道歉,10月1日前全国门店调整!于东来:希望不要毁了西贝

中国基金报
2025-09-15 14:05:40
东京世锦赛奖牌榜:美国断档领先,日本仅1枚排第13,中国才意外

东京世锦赛奖牌榜:美国断档领先,日本仅1枚排第13,中国才意外

法老不说教
2025-09-15 22:58:46
游民星空被严惩,这可是一代人的回忆啊!

游民星空被严惩,这可是一代人的回忆啊!

街机时代
2025-09-15 15:00:03
“现代机床加工的?”游客质疑上海博物馆“良渚大石凿”,专家:5000年前的良渚已达到这个技术高度

“现代机床加工的?”游客质疑上海博物馆“良渚大石凿”,专家:5000年前的良渚已达到这个技术高度

都市快报橙柿互动
2025-09-15 20:42:13
西贝道歉信激怒大众?私下聊天记录曝光,西贝曾"滑跪"递话求饶

西贝道歉信激怒大众?私下聊天记录曝光,西贝曾"滑跪"递话求饶

乌娱子酱
2025-09-15 16:51:05
俄军飞手投弹炸倒乌军,发现是女兵后放弃“补刀”,女兵随即起身脱掉装具狂奔撤离

俄军飞手投弹炸倒乌军,发现是女兵后放弃“补刀”,女兵随即起身脱掉装具狂奔撤离

鲁中晨报
2025-09-15 13:31:06
罗永浩公开担心自己可能失踪,继续闹下去可能性很大

罗永浩公开担心自己可能失踪,继续闹下去可能性很大

深度财线
2025-09-15 22:18:55
亚洲最穷国,落后中国30年,女性却惊人开放,很多土豪都想去定居

亚洲最穷国,落后中国30年,女性却惊人开放,很多土豪都想去定居

法老不说教
2025-09-15 23:16:03
一夜之间,成千上万的小餐饮老板,仿佛约好了一样,集体“醒”了

一夜之间,成千上万的小餐饮老板,仿佛约好了一样,集体“醒”了

阿伧说事
2025-09-15 15:25:30
警惕!退休金外的这几笔钱,无人通知,不主动领就亏大了!

警惕!退休金外的这几笔钱,无人通知,不主动领就亏大了!

慧眼看世界哈哈
2025-09-15 10:43:20
皇马1.7亿欧巨星暴怒:4轮0次踢满全场 龙哥命他每场至少跑1万步

皇马1.7亿欧巨星暴怒:4轮0次踢满全场 龙哥命他每场至少跑1万步

风过乡
2025-09-15 21:10:25
2025-09-16 07:43:00
科技行者 incentive-icons
科技行者
科技正在如何变革商业世界
5621文章数 532关注度
往期回顾 全部

科技要闻

中国将依法依规开展TikTok技术出口审批

头条要闻

7分钟上齐3道菜 太二酸菜鱼"活鱼现做"遭质疑

头条要闻

7分钟上齐3道菜 太二酸菜鱼"活鱼现做"遭质疑

体育要闻

诺维茨基退役十年后,德国篮球走向巅峰

娱乐要闻

60岁张曼玉定居法国:瘦成皮包骨?

财经要闻

华与华秒怂 罗永浩称已接到对方道歉

汽车要闻

后轮转向和5C 2026款梦想家把想到的都给了

态度原创

旅游
房产
数码
教育
公开课

旅游要闻

热闻|清明假期将至,热门目的地有哪些?

房产要闻

当海口书包房卷向「未来」,这里的孩子和房价,都在高速超车!

数码要闻

苹果 watchOS 26 正式版推送

教育要闻

学霸的尴尬:中国科大开学考的“下马威”,物理20分还是高分

公开课

李玫瑾:为什么性格比能力更重要?

无障碍浏览 进入关怀版