网易首页 > 网易号 > 正文 申请入驻

谷歌Learn-by-interact:AI实现自我进化学习

0
分享至

这项由香港大学苏泓锦、谷歌等多位研究者共同完成的研究发表于2025年1月,提出了一个名为Learn-by-interact的全新数据合成框架。有兴趣深入了解的读者可以通过arXiv:2501.10893v1访问完整论文。研究团队包括来自谷歌和香港大学的顶尖专家,其中苏泓锦在谷歌云AI研究部门完成了这项工作。

当我们看到ChatGPT这样的AI助手时,可能会觉得它们已经足够聪明了。但实际上,这些AI在处理真实世界的复杂任务时,往往表现得像刚学会说话却不会走路的孩子——它们能够回答问题,却很难在复杂的数字环境中独立完成实际工作。比如说,让AI帮你修复一个软件bug、在网页上完成购物,或者操作桌面软件处理文档,它们的表现往往令人失望。

这就像是一个聪明的学生,在考试中能够回答理论问题,但到了实验室却不知道如何操作仪器设备。问题出在哪里呢?研究团队发现,根本原因在于这些AI缺乏足够的"实战经验"——它们没有接受过足够多关于如何在真实环境中与各种软件、网页、工具互动的训练。

传统的解决方案就像给学生请昂贵的私人教练——让人类专家手把手地教AI如何操作,标记每一个步骤。这种方法不仅成本高昂,而且当面对新的环境或软件时,又需要重新花费大量人力物力进行标注。就好比每次换了新的实验室设备,都要重新请专家来培训,这显然不是长久之计。

谷歌和香港大学的研究团队提出了一个革命性的解决方案:Let-by-interact框架。这个方法的核心思想就像让孩子通过不断尝试和犯错来学会新技能。当一个孩子学骑自行车时,他们不需要别人详细描述每一个动作,而是通过反复练习,在跌倒中学会保持平衡。Learn-by-interact让AI也采用类似的学习方式。

这套系统的工作原理可以比作一位勤奋的学徒工匠的成长过程。首先,学徒会从师傅的手册和说明书中学习各种工作任务,这就相当于AI从软件文档和教程中生成各种任务指令。然后,学徒开始动手实践这些任务,在实际操作中难免会犯错——比如本想做A却做成了B。传统方法会认为这种错误的操作记录毫无价值,但Learn-by-interact的巧妙之处在于"废物利用":既然你做成了B,那我们就重新定义任务目标,让它符合实际完成的操作B。这就像原本想做红烧肉却意外做成了糖醋肉,那就把菜谱改成糖醋肉的做法,这样这次操作记录就变成了有价值的学习材料。

研究团队将这个关键步骤称为"逆向构建"。这个过程就像一个聪明的老师,看到学生的作业结果后,反推出一个合适的题目来匹配这个答案。比如,AI本来想要"上传谷歌云盘的CSV文件到BigQuery",但在操作过程中选错了数据源,实际完成的是"链接谷歌云存储的CSV文件到BigQuery"。传统方法会认为这个操作序列是失败的,但逆向构建会重新生成一个与实际操作匹配的任务描述,让这个操作序列变成有价值的训练数据。

除了逆向构建这个核心创新,Learn-by-interact还设计了一套智能的数据检索系统。这个系统就像一个经验丰富的师傅,当学徒遇到问题时,能够迅速找到最相关的经验和案例来指导。这个检索系统包含两个互补的部分:一个是基于理解任务意图的智能匹配,另一个是基于当前操作界面的直观匹配。

基于意图的匹配就像一个善解人意的助手,能够理解你当前想要完成的任务类型,然后从大量的经验库中找出最相关的操作案例。而基于界面的匹配则更加直接——当AI看到某个特定的界面或窗口时,系统会立即调出所有在类似界面下的成功操作记录,就像老司机看到特定的路况就知道应该怎么驾驶一样。

为了验证这个方法的有效性,研究团队在四个极具挑战性的真实环境中进行了广泛测试。这些测试环境涵盖了软件工程、网页操作、桌面应用和专业数据科学工具,就像是为AI设计的"全能挑战赛"。

在软件工程领域,他们使用了SWE-bench基准测试,这相当于让AI解决GitHub上的真实编程问题。想象一下,这就像让AI成为一个程序员,需要阅读bug报告,理解代码,然后编写补丁来修复问题。在这个极具挑战性的任务中,Learn-by-interact让Claude-3.5的性能从基线的51.2%提升到60.0%,相当于让AI程序员的"修bug成功率"提高了近9个百分点。

在网页操作方面,研究团队使用了WebArena基准,这个测试环境模拟了真实的电子商务、论坛讨论等网站操作。就好比让AI学会像人类用户一样浏览网页、点击按钮、填写表单、完成购物等复杂任务。在这个测试中,Learn-by-interact的效果更加显著,Claude-3.5的性能从35.8%跃升到48.0%,提升幅度超过12个百分点。这意味着AI现在能够更好地理解网页界面,更准确地执行用户想要的操作。

桌面应用操作测试使用了OSWorld基准,这是一个模拟完整桌面环境的挑战,包括各种软件如Chrome浏览器、GIMP图像编辑器、LibreOffice办公套件等。在这个最接近日常工作环境的测试中,Learn-by-interact展现出了惊人的效果,Claude-3.5的成功率从12.4%飙升到22.5%,几乎翻了一番。这就像是让AI从一个只会纸上谈兵的新手,变成了能够熟练操作各种软件工具的老练用户。

在专业数据科学工具测试中,研究团队使用了Spider2-V基准,这涉及BigQuery、Airbyte、Superset等企业级数据处理工具。这些工具的操作复杂度相当高,即使对人类用户也具有一定挑战性。Learn-by-interact让Claude-3.5在这个领域的性能从8.4%提升到16.6%,几乎实现了翻倍的改进。

更令人印象深刻的是训练效果。当研究团队使用合成数据对较小的AI模型进行训练时,效果更加显著。例如,Codestral-22B模型在WebArena上的表现从4.7%跳跃到24.2%,这相当于从一个几乎不会操作网页的新手,变成了具有实用价值的网页操作助手。这种巨大的性能提升表明,Learn-by-interact不仅能够改善现有大型模型的表现,还能显著增强较小模型的实用性。

研究团队进行了深入的分析来理解为什么Learn-by-interact如此有效。他们发现逆向构建这个核心机制贡献了高达14%的性能提升。这证实了"变废为宝"的理念确实有效——通过重新定义任务目标来匹配实际完成的操作,大大增加了可用训练数据的数量和质量。

另一个重要发现是关于数据粒度的影响。研究团队将合成数据按照操作步骤的长短分为短序列(少于5步)、中等序列(5-10步)和长序列(10步以上)三类。分析结果显示,短序列数据最为有价值,因为它们相当于基本的操作技能,可以灵活组合应用到各种不同的任务中。这就像学习武术时,基本动作比复杂套路更加重要,掌握了基本功就能够灵活应对各种情况。

在效率方面,Learn-by-interact也表现出色。相比于其他需要大量计算资源的方法(如Reflexion和LATS),Learn-by-interact在提供更好性能的同时,消耗的计算资源更少,响应速度更快。这使得该方法特别适合实际部署应用,就像一辆既省油又动力强劲的汽车,兼具实用性和经济性。

研究团队还验证了方法的跨环境泛化能力。他们专门测试了在一个环境中训练的AI能否在类似但不完全相同的环境中保持良好表现。结果显示,即使没有专门针对新环境进行训练,Learn-by-interact仍然能够提供显著的性能提升,这表明该方法学到的是通用的操作技能,而不仅仅是对特定环境的记忆。

从技术实现角度来看,Learn-by-interact的整个流程高度自动化。系统首先从软件文档、教程、FAQ等常见资源中自动生成多样化的任务指令,这确保了任务的覆盖面和实用性。然后AI开始尝试执行这些任务,系统会记录完整的操作序列。对于那些没有完美完成原始任务的操作序列,逆向构建机制会分析实际的操作轨迹,生成与之匹配的新任务描述。

为了确保数据质量,系统还设计了多层次的过滤机制。首先,会自动移除重复或无效的操作步骤。然后,使用多个AI模型组成的"委员会"来评估每个指令-操作对的质量,只有当所有AI都认为操作序列合理、自然且与指令匹配时,才会保留这个训练样本。

在实际应用时,Learn-by-interact的检索系统会根据当前的任务指令、操作历史和界面状态,智能地从合成数据库中选择最相关的示例作为参考。这个过程就像一个经验丰富的师傅,总是能在关键时刻提供最有价值的指导。

这项研究的意义远不止技术层面的突破。它为AI智能体的发展开辟了一条全新的道路——从依赖昂贵的人工标注,转向自主学习和经验积累。这种转变就像从传统的师傅带徒弟模式,转向现代的自学成才模式,大大降低了AI智能体适应新环境的成本和时间。

更重要的是,Learn-by-interact展现了AI系统的自我改进能力。随着AI在各种环境中的操作经验不断积累,它们的表现会持续改善,形成一个正向循环。这就像一个勤奋的学生,通过不断练习和反思,逐步提高自己的技能水平。

说到底,这项研究解决了AI智能体发展中的一个关键瓶颈——如何让AI像人类一样通过实践学习。人类之所以能够快速适应新环境,正是因为我们能够从每一次尝试中学习,即使是失败的尝试也能提供有价值的经验。Learn-by-interact让AI获得了类似的能力,这为构建真正实用的AI助手铺平了道路。

展望未来,这种方法可能会让AI智能体在更多领域发挥作用。无论是帮助老年人操作复杂的智能设备,协助企业员工处理繁琐的数据分析任务,还是为程序员提供智能的代码调试支持,Learn-by-interact都提供了一个可行的技术路径。随着这项技术的进一步发展和普及,我们可能会看到AI助手变得更加智能和实用,真正成为人类工作和生活中不可或缺的伙伴。

当然,这项研究也面临一些挑战。生成和过滤大量合成数据需要相当的计算资源,而且在某些专业领域,可能缺乏足够详细的文档资源来指导任务生成。不过,随着计算能力的不断提升和更多高质量文档资源的积累,这些限制会逐步得到缓解。

总的来说,Learn-by-interact代表了AI智能体发展的一个重要里程碑,它不仅提供了一个实用的技术方案,更重要的是展现了一种全新的AI学习范式。这种让AI通过与环境互动来自主学习的方法,可能会成为未来AI系统发展的主流方向,推动AI技术向更加智能和自主的方向发展。

Q&A

Q1:Learn-by-interact和传统AI训练方法有什么不同?

A:传统方法需要人工专家手动标注每个操作步骤,成本高昂且适应性差。Learn-by-interact让AI自己与环境互动学习,即使操作失败也能通过"逆向构建"转化为有价值的训练数据,就像变废为宝一样,大大降低了训练成本。

Q2:逆向构建机制具体是怎么工作的?

A:当AI执行任务时可能会偏离原定目标,比如想做红烧肉却做成了糖醋肉。逆向构建会根据实际完成的操作重新生成匹配的任务描述,把"做糖醋肉"作为新的训练目标,这样原本"失败"的操作就变成了有用的学习材料。

Q3:Learn-by-interact在哪些实际应用中表现最好?

A:在四大测试环境中都有显著提升,其中桌面应用操作效果最突出,Claude-3.5成功率从12.4%跃升到22.5%,几乎翻倍。在网页操作、软件编程和数据科学工具使用方面也有大幅改善,特别适合需要复杂人机交互的场景。

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
张雪峰猝死全过程曝光!知情人发声,本来可以活,3次机会没抓住

张雪峰猝死全过程曝光!知情人发声,本来可以活,3次机会没抓住

智慧生活笔记
2026-03-25 18:23:01
湖人结束客场之旅两喜一忧,詹姆斯开启季后赛模式,实力榜进前五

湖人结束客场之旅两喜一忧,詹姆斯开启季后赛模式,实力榜进前五

谢说篮球
2026-03-26 16:45:05
第81轮反击来了!飞弹直击以军集结地

第81轮反击来了!飞弹直击以军集结地

星火聊天下
2026-03-26 07:27:33
张雪峰追悼会周六将在苏州殡仪馆举行

张雪峰追悼会周六将在苏州殡仪馆举行

界面新闻
2026-03-26 07:04:27
邓超孙俪正式解绑:16年婚姻,各自安好

邓超孙俪正式解绑:16年婚姻,各自安好

LULU生活家
2026-03-26 14:50:15
流量退去之后|南京“10元手冲咖啡”阿姨:火过,就很满足

流量退去之后|南京“10元手冲咖啡”阿姨:火过,就很满足

澎湃新闻
2026-03-26 07:06:31
东契奇43分7助攻湖人战胜步行者,勒布朗23分9板9助里夫斯25分

东契奇43分7助攻湖人战胜步行者,勒布朗23分9板9助里夫斯25分

湖人崛起
2026-03-26 09:32:48
张雪峰生前日常:1份饭6个菜,日均睡眠不足4小时,最后露面疲惫

张雪峰生前日常:1份饭6个菜,日均睡眠不足4小时,最后露面疲惫

洲洲影视娱评
2026-03-25 13:16:24
中东大战,真正让特朗普害怕的是:中国的已读不回!

中东大战,真正让特朗普害怕的是:中国的已读不回!

似水流年忘我
2026-03-26 02:13:59
张雪峰去世后续!公司现状曝光,门上对联被拆下,葬礼低调举行

张雪峰去世后续!公司现状曝光,门上对联被拆下,葬礼低调举行

180视角
2026-03-25 10:17:11
从广东到东北!刘强东游艇版图扩容,150亿元项目进驻大连

从广东到东北!刘强东游艇版图扩容,150亿元项目进驻大连

南方都市报
2026-03-26 14:42:13
姐弟恋、吃软饭,把关之琳收入囊中的香港首席男模,如今怎样了?

姐弟恋、吃软饭,把关之琳收入囊中的香港首席男模,如今怎样了?

小樾说历史
2026-03-26 11:30:53
心眼坏的人,最爱问这3件事,别傻乎乎全说!

心眼坏的人,最爱问这3件事,别傻乎乎全说!

唯晨说
2026-03-25 13:12:14
传张雪峰二婚妻子清纯甜美:去年已生子,11岁女儿遗传继承恐生变

传张雪峰二婚妻子清纯甜美:去年已生子,11岁女儿遗传继承恐生变

博士观察
2026-03-25 21:33:04
溥仪晚年见老宫女乞讨,问她为何不嫁人?宫女:我们这些人怎么嫁

溥仪晚年见老宫女乞讨,问她为何不嫁人?宫女:我们这些人怎么嫁

千秋文化
2026-01-29 21:22:16
4000吨稀土被转运美国?大陆停供台湾稀土!台学者:不如直接统一

4000吨稀土被转运美国?大陆停供台湾稀土!台学者:不如直接统一

小舟谈历史
2026-03-19 17:27:44
血管狭窄超90%,重油重腻且生活不规律,假如第一时间被抢救,张雪峰能活吗?

血管狭窄超90%,重油重腻且生活不规律,假如第一时间被抢救,张雪峰能活吗?

消化石医生
2026-03-26 12:52:28
2026年身份证就是老年证!爸妈满60岁别办证,这4件事千万不能忘

2026年身份证就是老年证!爸妈满60岁别办证,这4件事千万不能忘

复转这些年
2026-03-26 09:26:17
昨天杭州有医院门诊突然多了不少“跑友”,主动要求检查心脏功能!医生:长期跑步不等于心肺功能没问题

昨天杭州有医院门诊突然多了不少“跑友”,主动要求检查心脏功能!医生:长期跑步不等于心肺功能没问题

都市快报橙柿互动
2026-03-26 08:00:05
张雪峰对苏州的综合贡献曝光!5年纳税8.5亿,间接经济拉动28亿

张雪峰对苏州的综合贡献曝光!5年纳税8.5亿,间接经济拉动28亿

谈史论天地
2026-03-26 07:45:53
2026-03-26 16:59:00
科技行者 incentive-icons
科技行者
科技正在如何变革商业世界
7746文章数 556关注度
往期回顾 全部

科技要闻

Meta高管狂分百亿期权,700名员工却下岗

头条要闻

国防部:日本侵略过所有周边国家 至今都没有真正反省

头条要闻

国防部:日本侵略过所有周边国家 至今都没有真正反省

体育要闻

申京努力了,然而杜兰特啊

娱乐要闻

张雪峰家人首发声 不设追思会丧事从简

财经要闻

长护险谁能享受?享受多少?解答来了

汽车要闻

一汽奥迪A6L e-tron开启预售 CLTC最大续航815km

态度原创

房产
时尚
数码
游戏
教育

房产要闻

质价比标杆!三亚首创浮岛全景舱亮相,还得是万科!

皮衣+裙,高级到炸

数码要闻

1599~2499元,英特尔酷睿Ultra 200S Plus处理器发售

商业互吹or真心话?制作人玩《红色沙漠》忘记工作

教育要闻

2026湖北高职单招工作启动

无障碍浏览 进入关怀版