网易首页 > 网易号 > 正文 申请入驻

月之暗面又开源了!杨植麟合著提出新Agent框架,旗舰模型得分超GPT-4o

0
分享至

智东西8月14日消息,本周二,一篇来自香港大学XLANG Lab 、月之暗面等多家机构联合署名的论文在arXiv发表,提出了一个用于构建和扩展的CUA(计算机使用Agent)开源框架OpenCUA,这一框架开源意味着用户可以高效、低门槛开发自主操作电脑的Agent。

香港大学计算机科学助理教授Tao Yu(余涛)为项目负责人,月之暗面、斯坦福大学、滑铁卢大学、卡内基梅隆大学的研究人员参与,月之暗面创始人、CEO杨植麟在作者名单之列

研究人员开源OpenCUA的原因是,目前CUA系统的关键细节仍然处于闭源状态,为了扩展其辅助用户执行相应决策的应用能力,研究人员需要访问开源CUA框架来研究其能力、局限性和风险。

在此基础上,研究人员提出了这一用于扩展CUA数据和基础模型的综合开源框架

该框架包括:无缝捕获人类计算机使用演示的注释基础设施第一个跨越3个操作系统以及超200个应用程序和网站的大规模计算机使用任务数据集AgentNet一个可扩展的、能将演示转换为具有反思性长思维链推理“状态-动作”对的工作流程

该模型是基于Kimi-VL-A3B、Qwen2-VL-7B、Qwen2.5-VL-7B和Qwen2.5-VL-32B进行监督微调(SFT),获得了OpenCUA模型变体:OpenCUA-A3B、OpenCUA-Qwen2-7B、OpenCUA-7B和OpenCUA-2.5-32B。

其中旗舰模型OpenCUA-32B在CUA基准测试OSWorld-Verified上的平均成功率达到34.8%,达到开源模型新的SOTA,甚至超越了OpenAI CUA(GPT-4o)

论文地址:https://arxiv.org/pdf/2508.09123

OpenCUA主页(工具、模型、数据集):https://opencua.xlang.ai

一、查天气、做PPT任务轨迹清晰明了,表现超OpenAI、Kimi、Qwen多个模型

研究人员在项目主页展示了OpenCUA使用计算机执行的任务轨迹。

在VScode中安装扩展的任务轨迹:

查询英国曼彻斯特天气预报的任务轨迹:

制作PPT的任务轨迹:

在基础测试验证上,CUA基准测试OSWorld-Verify中,OpenCUA-32B的表现优于Qwen、Kimi、OpenAI、Claude等开源及闭源模型,在部分任务表现上,获得的分数低于Claude 3.7 Sonnet、Claude 4 Sonnet。

在离线部署方面,研究人员构建了计算机离线使用的Agent评估基准AgentNetBench,由从AgentNet数据集中选出的100个代表性任务组成,涵盖Windows和macOS平台以及不同的领域。

其中每项任务都经过研究人员手动审查,以细化目标并删除多余作,且由于计算机使用任务中有效作固有的多样性,研究人员在每个步骤中都手动提供了多个有效操作选项。

OpenCUA-7B、OpenCUA-32B的平均分数均优于OpenAI、Qwen等模型。

GUI定位能力也就是模型面对图形化界面(GUI),去识别按钮、菜单、输入框等视觉元素的能力。其中研究人员采用了OSWorld-G、Screenspot-V2、Screenspot-Pro三个基准,OpenCUA-2.5-72B的每个测试表现都远超其他模型。

二、简化数据收集流程,发布22.5K计算机使用任务数据集

对于该框架的具体实现方面,包含了如何收集高质量计算机使用Agent数据、形成数据集、高效扩展等。

首先,高效、准确的注释对于收集高质量的计算机使用Agent数据至关重要,但现有的工具不支持非技术用户自然、跨平台的任务记录,因此研究人员开发了用户友好的注释工具AgentNet Tool,该工具可以简化计算机使用演示的收集和验证,在注释者的个人计算机上运行并在后台记录演示。

AgentNet Tool可捕获跨Windows、macOS和Ubuntu三大操作系统的用户交互,能记录屏幕视频、鼠标、键盘事件和元数据,从而扩展收集真实世界的计算机使用演示。

其次,AgentNet Method可以将原始的用户演示处理成干净的、可学习的状态-动作轨迹,由此产生的轨迹包括内心独白式的思想和行动历史,使其适合视觉语言模型训练。

这些处理后的数据被整理到AgentNet数据集和AgentNetBench中。该数据集涵盖了100多个应用程序和200多个网站的各种开放领域任务。该基准测试提供任务指令、步骤历史记录和每个步骤的多个黄金标准作,以实现高效离线评估。

该数据集包含22.5K人工标注的计算机使用任务,包括Windows的12K、macOS的5K和Ubuntu系统的5K。这些任务涵盖140多个应用程序和190个网站,通常涉及多应用程序工作流程、专业工具和不常见的功能。

其研究论文提到,与以往的GUI数据集相比,AgentNet是第一个真实、复杂、多样、多模态的桌面轨迹级数据集。

▲OpenCUA的基本框架

最后,OpenCUA能使用反思性思维链推理、多图像历史和混合域数据在数据集上进行训练,它们可以在跨作系统的真实桌面环境中执行,以执行计算机使用任务。

值得一提的是,高Pass@N性能也表明OpenCUA-7B具有强大的测试时间扩展潜力。Pass@N是评估生成式模型在代码生成、程序合成、推理任务中性能的重要指标,用于衡量模型在多次尝试内生成正确结果的概率。

▲OpenCUA的Pass@N性能

结语:OpenCUA为计算机使用Agent规模化铺路

计算机使用Agent是一种能够通过与计算机图形用户界面(GUI)交互来自动执行数字任务的智能体,但由于数据稀缺、人工采集成高、难以私有化部署等痛点,使得其走向规模化应用落地有诸多瓶颈。

此次,OpenCUA在开源模型基础上进行监督微调获得模型变体,降低了计算机使用Agent的数据获取成本,并形成了跨三个操作系统、上百个应用和网页的数据集,对于其进一步调用多种工具、理解用户需求、高效任务执行等方面将提供助力。

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
故事:韩国女星李恩珠,被财阀虐待8小时,连上台领奖时都不放过

故事:韩国女星李恩珠,被财阀虐待8小时,连上台领奖时都不放过

飞云如水
2025-02-12 16:17:42
陈毅让算命先生看手相,事后对警卫员说:此人必须重用

陈毅让算命先生看手相,事后对警卫员说:此人必须重用

小莜读史
2026-05-14 13:08:53
有没有人敢爆自己的瓜?网友:确定玩这么大吗?

有没有人敢爆自己的瓜?网友:确定玩这么大吗?

夜深爱杂谈
2026-02-18 20:55:58
日本睡不着了

日本睡不着了

阿振观点
2026-05-15 10:41:46
方媛回应住单人间风波,称女生要有配得感,评论区大翻车连忙删除

方媛回应住单人间风波,称女生要有配得感,评论区大翻车连忙删除

萌神木木
2026-05-15 10:14:30
敲诈中国10亿美元、拒绝中国飞机借道,如今这个国家又找上中国!

敲诈中国10亿美元、拒绝中国飞机借道,如今这个国家又找上中国!

春序娱乐
2026-04-20 04:52:53
广东男篮最新消息:北控张口就要徐杰?这离谱报价把广东看懵!张14离队,焦泊乔表态

广东男篮最新消息:北控张口就要徐杰?这离谱报价把广东看懵!张14离队,焦泊乔表态

梦忆之浅
2026-05-15 00:11:33
7年败光2亿!邹市明冉莹颖共同发文:二人最终还是迈出了这一步!

7年败光2亿!邹市明冉莹颖共同发文:二人最终还是迈出了这一步!

拳击时空
2026-04-16 06:04:48
埃梅里:我每天都对埃利奥特心怀歉意,这件事让各方都很尴尬

埃梅里:我每天都对埃利奥特心怀歉意,这件事让各方都很尴尬

懂球帝
2026-05-15 07:36:57
国民党前副主席夏立言:美国不可恃,台湾应好好思考两岸统一模式

国民党前副主席夏立言:美国不可恃,台湾应好好思考两岸统一模式

烽火三月佳人三千
2026-05-15 10:21:48
23年职业生涯,詹姆斯狂赚6亿美元,湖人冤大头,热火最具性价比

23年职业生涯,詹姆斯狂赚6亿美元,湖人冤大头,热火最具性价比

萌兰聊个球
2026-05-15 10:52:44
C罗放弃戴帽成全兄弟!本泽马曝C罗让点内幕,揭秘总裁更衣室地位

C罗放弃戴帽成全兄弟!本泽马曝C罗让点内幕,揭秘总裁更衣室地位

仰卧撑FTUer
2026-05-14 08:28:47
审判台已备好,赖清德被列12宗罪,岛内风向大变,为统一留后路

审判台已备好,赖清德被列12宗罪,岛内风向大变,为统一留后路

起喜电影
2026-05-15 01:30:43
大S年轻时房间曝光,太过诡异引人不适,难怪有人曾说活不过50岁

大S年轻时房间曝光,太过诡异引人不适,难怪有人曾说活不过50岁

草莓解说体育
2026-05-11 20:49:33
苏超争冠大戏:凯尔特人读秒点球绝杀,将与哈茨上演末轮生死战

苏超争冠大戏:凯尔特人读秒点球绝杀,将与哈茨上演末轮生死战

星耀国际足坛
2026-05-14 15:37:44
网传焦泊乔提出离队申请,下家或上海广州3选1,朱芳雨遭遇挑战

网传焦泊乔提出离队申请,下家或上海广州3选1,朱芳雨遭遇挑战

二哥聊球
2026-05-15 11:22:39
打脸!杜锋:没遗憾;广东队官方:有遗憾!这么不给杜指导面子?

打脸!杜锋:没遗憾;广东队官方:有遗憾!这么不给杜指导面子?

弄月公子
2026-05-15 08:39:51
场上绝杀场下失意!阿森纳功臣特罗萨德官宣离婚,结束5年婚姻

场上绝杀场下失意!阿森纳功臣特罗萨德官宣离婚,结束5年婚姻

星耀国际足坛
2026-05-14 16:10:48
艾丽莎-莱曼社媒晒火辣比基尼照,小麦色肌肤搭配迷人晒痕

艾丽莎-莱曼社媒晒火辣比基尼照,小麦色肌肤搭配迷人晒痕

懂球帝
2026-05-14 20:46:18
上海中环一段道路因车速109码被记6分!司机哭诉防不胜防,引热议

上海中环一段道路因车速109码被记6分!司机哭诉防不胜防,引热议

火山詩话
2026-05-14 06:11:38
2026-05-15 11:44:49
智东西 incentive-icons
智东西
智东西,AI产业新媒体,专注报道人工智能的前沿技术发展,和技术应用带来的千行百业产业变革。
11830文章数 117077关注度
往期回顾 全部

科技要闻

两年联姻一地鸡毛,传苹果OpenAI濒临决裂

头条要闻

103岁和86岁老人认识3个月"闪婚":孤独感消失了

头条要闻

103岁和86岁老人认识3个月"闪婚":孤独感消失了

体育要闻

德约科维奇买的球队,从第6级联赛升入法甲

娱乐要闻

方媛回应住男生单人间:女孩的配得感

财经要闻

特朗普的北京时刻

汽车要闻

双零重力座椅/AI智能体/调光天幕 启境GT7内饰发布

态度原创

亲子
家居
房产
健康
数码

亲子要闻

带纳糖一起去日本公园玩,兄妹俩年纪相差大,但是玩的很开心

家居要闻

精神奢享 对话塔尖需求

房产要闻

海南楼市新政要出!拟调公积金贷款额度,最高可贷168万!

专家揭秘干细胞回输的安全风险

数码要闻

读写破14GB/s!三星9100 PRO助力PRAGMATA瞬秒月球战场

无障碍浏览 进入关怀版