网易首页 > 网易号 > 正文 申请入驻

大镖客里骑马,星露谷里种地,天际线里盖房,还能修图剪视频,Cradle 操控一切软件!

0
分享至

智能体又双叒叕进化了!这次什么游戏都能玩,什么软件都能操控了。

Agent不仅能在《荒野大镖客2》里完成长达40分钟主线剧情还能在开放世界自由探索。

在《星露谷物语》里清理农场,种地,去商店购物。

在《城市天际线》中建造出千人小镇。

在《当铺人生2》中 和客户讨价还价,最高达到87%的周收益率!

浏览网页,发推,下载paper不在话下。

撰写、回复、查找邮件样样精通。

美图秀秀里修图。

剪映里剪视频。

飞书里日常办公。

1

Cradle:真正的全能AI Agent

近日,昆仑万维携手北京智源人工智能研究院、新加坡南洋理工大学、北京大学等顶尖名校机构,提出通用计算机控制框架Cradle,使AI Agent无需训练便能像人一样直接控制键盘鼠标,不依赖任何内部API,实现任意开闭源软件交互。

Cradle不仅能够在游戏《荒野大镖客2》中完成长达40分钟的主线任务,在《星露谷物语》中清理农场、种地、购物,在《城市天际线》中建造出千人小镇,在《当铺人生2》中和客户讨价还价,最高获得87%的周收益率;还能够用Chrome浏览网页、用Outlook发送邮件、用飞书办公;甚至能用美图秀秀修图,用剪映剪辑视频,成为真正的全能AI Agent!

Cradle是迄今为止第一个既能玩多种商业游戏又能操作各种软件应用的AI框架,其论文、项目、代码均已开源。

论文标题:Cradle: Empowering Foundation Agents Towards General Computer Control

论文链接:https://arxiv.org/abs/2403.03186

项目主页:https://baai-agents.github.io/Cradle

代码链接:https://github.com/BAAI-Agents/Cradle

2

GCC:通用计算机控制

随着大模型的发展,越来越多的智能体(AI Agents)研究关注计算机控制,包括浏览网页、操作智能手机、玩游戏等。然而,已有研究依赖软件内部API获取输入,并输出预先定义好的动作,无法真正像人类一样通过眼、脑、手的配合操控计算机。

要构建能完成计算机上一切任务的通用智能体,必须使用最通用和最标准的输入输出与计算机进行交互。因此,通用计算机控制使用统一的输入和输出,从而让智能体的通用性变为可能。

但通用性带来了操作上的难度:

  1. 使用计算机屏幕作为输入对智能体的视频理解能力提出了更高的要求,例如由于没有内部API,需要通过视觉信息判断动作是否执行成功;

  2. 使用键盘和鼠标操作作为输出使得智能体需要更高的时空操作精度,比如键盘按键和鼠标点击通常额外涉及时间维度;

  3. 许多计算机上的复杂任务往往需要连续执行成百上千次的正确操作才能完成,是智能体的长程规划决策和历史信息维护处理能力的一大挑战;

  4. 虚拟世界中多如繁星的环境和任务是对智能体高效探索并自我提升实现通用性的一大考验。

这些难题成为了构建通用计算机控制智能体(GCC Agents)的挑战。

3

六大模块,三大环节

Cradle一共由6个模块组成:信息收集、自我反思、任务推断、技能管理、行动规划,以及记忆模块。

Cradle高度的通用性来源于其对和电脑交互过程中的原始输入输出的合理封装和抽象,以从屏幕中显示的视频图像作为输入,提取其中的文本和视觉信息进行决策,并且输出最底层的操作系统中控制键盘和鼠标的信号去和电脑交互,使得其可以不依赖于任何假设和任何内部API进行交互。

同时,Cradle强大的决策推理模块让其得以自发和软件进行交互并且完成任务,这个过程可以被简单地总结为:反思过去,总结现在,规划未来

反思过去:Cradle使用执行过往动作过程的视频作为输入,分别提取出其中关键的文本和视觉信息,通过反思来判断上一步动作是否执行成功任务是否完成以及如何改进。

总结现在:反思完之后,Cradle需要总结当前情况,并且以此为根据来决定是否更换任务目标或是修改任务内容。

规划未来:最后Cradle会根据当前任务以及现状生成或者更新自身的技能,并且从已经学会的技能中检索一部分和当前任务相关的技能作为备选,然后从中选取合适的技能实例化为动作去执行。

在决策推理的同时,Cradle还会周期性地总结和维护储存在情境记忆中的历史信息以及储存在周期性记忆中的技能。在此过程中,Cradle为其添加了记忆,总结和反思的功能,进一步提升了其对于决策过程中的观察和行为的理解。

Cradle能直接根据游戏内的提示和教程或是自我探索的方式生成对应的操作键鼠的可执行代码作为技能,一步步丰富自己的技能库,并在之后的游戏中重复使用这些技能。

4

游戏办公全精通

为了验证Cradle的通用性,研究者们选择了4款风格迥异,操作各不相同的经典游戏进行测试,从第三视角的3D角色扮演类游戏《荒野大镖客2》到2D固定视角的模拟经营类游戏《星露谷物语》到俯视角的城市规划类游戏《城市天际线》再到侧重交易策略的模拟经营类游戏《当铺人生2》,并分别设计了不同的任务。

在通用软件方面,Cradle团队也同样选择了5款常用软件进行测试,包括Chrome、Outlook、CapCut(剪映)、Meitu(美图秀秀)和Feishu(飞书)。

Cradle在《荒野大镖客2》的主线剧情任务以及开放世界任务中均有出色表现,能够连续完成长达40分钟的2个完整主线任务,骑马、战斗、购物样样在行。

Cradle在其他游戏任务中均能胜任。在《城市天际线》中修路、保障水电供应,合理划分居民、商业和工业区,建立起千人小镇;在《星露谷物语》中清理农场杂物、种地收获作物、购买种子;在《当铺人生2》中在和客户讨价还价近2轮后以93.6%的交易成功率达成了平均39.6%的周收益率。

表1:Cradle在各游戏中的表现,所有任务均测试5次,4/5表示5次测试中成功4次。

Cradle在日常软件应用的各项任务执行上表现不俗,如论文下载、发邮件、修图、剪视频、发送飞书文件等。

同时,Cradle在非常有挑战性的benchmark OSWorld上也同样击败了使用真值作为标签的基线方法。

表2:Cradle在OSWorld各类任务上的成功率(%)以及和基线方法的对比。

最后,Cradle也同样击败了众多常见基线方法,证明了框架各个模块的合理性和必要性。

表3:Cradle和各种基线的对比的消融实验,所有任务均测试5次,括号前数字表示完成任务的平均步数,括号中数字表示5次测试中成功的次数,N/A表示5次全部失败。

5

通往AGI之路

此前,大量关于AI智能体的研究都依赖于计算机内部API的信息获取,无法让AI真正“像人类一样”通过眼、脑、手的配合与计算机进行互动,其环境、行为、动作都相对固定,难以实现跨软件、跨平台的通用智能。

Cradle极大程度地扩展了智能体可以交互的范围,并且证明了将一切软件转化为测试智能体不同能力的testbed的可能性,其所提出的通用计算机控制的设定统一了输入输出的接口,促进了统一粒度数据的搜集,为未来Agent在各个环境中交互并且自我提升打下了坚实的基础。

面向数字世界的通用人工智能,正在加速到来。

更多内容,点击下方关注:

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
外电:俄油气收入降至2020年来最低

外电:俄油气收入降至2020年来最低

参考消息
2026-01-18 16:57:03
美国人意识到,贸易战之后,不会再有中国外的大规模工业化国家了

美国人意识到,贸易战之后,不会再有中国外的大规模工业化国家了

快看张同学
2026-01-18 16:11:40
余则成赴台前,在翠平衣服袖口内缝一铜扣,19年后翠平拆开看崩溃

余则成赴台前,在翠平衣服袖口内缝一铜扣,19年后翠平拆开看崩溃

星宇共鸣
2026-01-12 10:41:58
董路:U23国足就是弱队!别整活 把越南当日本踢 就能赢球进决赛

董路:U23国足就是弱队!别整活 把越南当日本踢 就能赢球进决赛

念洲
2026-01-18 16:12:02
河南的暴雪还下吗?最新预报:今晚抵达,2026年首场暴雪已发货,西部、南部先下,骤降20℃+积雪18厘米+冻雨

河南的暴雪还下吗?最新预报:今晚抵达,2026年首场暴雪已发货,西部、南部先下,骤降20℃+积雪18厘米+冻雨

鲁中晨报
2026-01-18 07:23:03
爆冷!纽卡突袭意甲豪门“世界级前锋”  尤文恐遭重创!

爆冷!纽卡突袭意甲豪门“世界级前锋” 尤文恐遭重创!

奶盖熊本熊
2026-01-18 02:21:53
被杨瀚森一己之力打贬值,G联赛到底是菜鸡互啄,还是破产版NBA

被杨瀚森一己之力打贬值,G联赛到底是菜鸡互啄,还是破产版NBA

麦子的篮球故事
2026-01-18 18:16:16
13连板大牛股,明起复牌

13连板大牛股,明起复牌

21世纪经济报道
2026-01-18 18:35:56
特斯拉中国推出新年限定新品,这次有点意思!

特斯拉中国推出新年限定新品,这次有点意思!

XCiOS俱乐部
2026-01-17 11:05:47
章子怡富豪前男友Vivi现状:光头白胡子像80岁,分手15年依然潇洒

章子怡富豪前男友Vivi现状:光头白胡子像80岁,分手15年依然潇洒

一娱三分地
2026-01-12 19:44:01
69岁老人晚上猝死,一定要叮嘱家里老年人,晚上要牢记3避免

69岁老人晚上猝死,一定要叮嘱家里老年人,晚上要牢记3避免

今日养生之道
2026-01-18 15:44:46
13胜3负!主场全联盟最少,火箭终于熬出头了,伊森也有好消息

13胜3负!主场全联盟最少,火箭终于熬出头了,伊森也有好消息

巴叔GO聊体育
2026-01-18 11:30:17
她不愿意被潜规则,演了近百部戏观众却叫不出她名字,42岁仍单身

她不愿意被潜规则,演了近百部戏观众却叫不出她名字,42岁仍单身

丁丁鲤史纪
2025-12-27 16:10:28
75年毛主席主持最后一次政治局会议,伸出小拇指,对苏振华作嘱托

75年毛主席主持最后一次政治局会议,伸出小拇指,对苏振华作嘱托

兴趣知识
2026-01-18 18:11:53
年轻人已经没什么可失去的了!

年轻人已经没什么可失去的了!

黯泉
2026-01-16 23:27:23
地区经济早该崩了,为啥还在硬撑?

地区经济早该崩了,为啥还在硬撑?

玉辞心
2026-01-18 16:38:56
男生考上北大被父亲暴打,走投无路报警,才知父亲真实身份

男生考上北大被父亲暴打,走投无路报警,才知父亲真实身份

纸鸢奇谭
2024-10-02 19:26:12
蒋万安说“我是台湾人”后,陈玉珍直接打脸蒋万安,民进党气极了

蒋万安说“我是台湾人”后,陈玉珍直接打脸蒋万安,民进党气极了

沧海旅行家
2026-01-17 16:13:29
亚洲第一个倒下的国家即将出现,曾比肩中国,如今在走日本的老路

亚洲第一个倒下的国家即将出现,曾比肩中国,如今在走日本的老路

快看张同学
2026-01-18 11:38:30
只剩5年?诺奖得主Hassabis放出AGI时间表:还差一两个技术突破

只剩5年?诺奖得主Hassabis放出AGI时间表:还差一两个技术突破

新智元
2026-01-18 17:13:42
2026-01-18 19:11:00
AI科技评论 incentive-icons
AI科技评论
点评学术,服务AI
7046文章数 20725关注度
往期回顾 全部

科技要闻

AI大事!马斯克:索赔9300亿元

头条要闻

马杜罗之子回忆美军突袭:父亲看到我的来电 直接挂断

头条要闻

马杜罗之子回忆美军突袭:父亲看到我的来电 直接挂断

体育要闻

21年后,中国男足重返亚洲四强

娱乐要闻

香港武打演员梁小龙去世:享年77

财经要闻

BBA,势败如山倒

汽车要闻

林肯贾鸣镝:稳中求进,将精细化运营进行到底

态度原创

手机
数码
时尚
艺术
房产

手机要闻

小米17 Pro Max手机3.0.36.0版本截屏体验问题修复

数码要闻

DDR3内存+老平台挑战3A大作:实测60帧畅玩《赛博朋克2077》

伊姐周六热推:电视剧《寻雪迷踪》;电视剧《秋雪漫过的冬天》......

艺术要闻

400米!恒基出手,打造香港中环最长的地标!

房产要闻

真四代来了!这次,海口楼市将彻底颠覆!

无障碍浏览 进入关怀版