网易首页 > 网易号 > 正文 申请入驻

港大联手月之暗面等开源OpenCUA:人人可造专属电脑智能体

0
分享至

机器之心报道

编辑:冷猫、Panda

刚刚,一篇来自香港大学 XLANG Lab 和月之暗面等多家机构的论文上线了 arXiv,其中提出了一个用于构建和扩展 CUA(使用计算机的智能体)的完全开源的框架。具体来说,该框架包括:

  • 一个用于捕获人类使用计算机的演示的注释工具
  • AgentNet,首个涵盖 3 个操作系统和 200 多个应用程序/网站的大规模数据集
  • 一个将演示转化为具有长思维链推理的「状态-动作」对的工作流程

使用该框架,他们还构建了一个旗舰模型OpenCUA-32B,其在 OSWorld-Verified 上达到了 34.8% 的成功率,创下了新的开源 SOTA,甚至在这个基准测试中超越了 GPT-4o。

更妙的是,他们完全公开了相关代码、数据和模型!

  • 论文标题:OpenCUA: Open Foundations for Computer-Use Agents
  • 论文地址:https://arxiv.org/abs/2508.09123
  • 项目页面:https://opencua.xlang.ai/ (包含工具、模型、数据集)

值得注意的是,这项研究共有 6 位共一作者。项目负责人是香港大学计算机科学助理教授Tao Yu(余涛)。另外,月之暗面创始人和 CEO 杨植麟以及斯坦福大学计算机科学系助理教授杨笛一也在作者名单中。

下面我们就来详细看看这项研究。

OpenCUA 框架

下图展示了OpenCUA 框架概览。

具体来说,OpenCUA 框架包含以下内容:AgentNet Tool,如左上角所示,可通过屏幕视频与操作流程捕捉跨操作系统的用户交互。右上角则展示了原始演示被处理成包含推理与历史的「状态–动作」轨迹。右下角展示了 AgentNet 数据集与基准,其中涵盖多样化的任务,并提供含黄金标准动作的离线评估。最后,左下角则是 OpenCUA 模型经过训练后,可在真实环境中执行计算机操作任务。

AgentNet 数据收集

OpenCUA 的目标是将使用桌面计算机的数据扩展到不同的计算机环境和用户场景。很自然地,该团队首先要做的是收集符合自然用户行为的演示,并尽量减少对用户与计算机交互方式的额外限制,以提高数据收集的可扩展性。

为此,他们开发了 AgentNet Tool 并收集了 AgentNet 数据集,这也是首个大规模桌面智能体任务数据集。

AgentNet Tool

AgentNet Tool 是一个跨平台的标注应用,可记录用户在 Windows、macOS 和 Ubuntu 上的交互。它可捕捉屏幕视频、鼠标/键盘操作以及相关元数据,从而实现对真实计算机使用演示的采集,而且这个方法是可以大规模扩展的。

AgentNet Tool 标注和验证

该团队对原始用户演示进行了处理,得到了干净、可用于训练的「状态–动作」轨迹。生成的轨迹中包含「内心独白式」的思考与操作历史,适用于视觉-语言模型的训练。

原始演示包含高频的屏幕录制与细粒度交互信号(如鼠标移动、点击、滚动、按键等)。一个典型任务可能产生成千上万条底层动作记录,密度过高,训练效率低下。为解决这一问题,该团队提出两种技术方案:

1、 动作约简(Action Reduction)

这是该团队开发的一种基于规则的方法,可将密集动作信号约简为更少但更有意义的操作,同时保留必要信息。

  • 将原子操作压缩为高阶操作;
  • 鼠标移动被视为点击/拖拽的前置条件,仅保留起止位置;
  • 滚动事件按方向合并,并累计滚轮数量;
  • 连续按键合并为文本输入字符串,快捷键组合(如 CTRL+C)抽象为「热键动作」;
  • 常见的多步手势(如拖拽、双击)也被整合为单一动作。

约简后的动作序列与 pyautogui 动作空间对齐(详见表 1)。

表1:人类操作与对应智能体动作函数

2、状态–动作匹配(State-Action Matching)

为了将每个动作 a_i 配对至代表性状态 s_i,该团队从屏幕录制中提取关键帧,捕捉动作发生前的系统状态。但如果关键帧直接与鼠标点击时间戳对齐,可能泄露未来信息(例如:鼠标已悬停在按钮上,预测将变得过于容易)。

为避免该问题,他们的做法是在处理鼠标点击时,回溯至鼠标开始移动前的阶段,并向前搜索最后一个视觉上有明显变化的帧,作为该动作的起始状态。任务结束后,再附加一个终止帧及对应的「结束动作」。

AgentNet 数据集与测试基准

最终,他们得到了 AgentNet 数据集和 AgentNetBench 基准测试集。

数据集涵盖了来自 140 多款应用和 190 多个网站的多样化开放领域任务,任务涉及多应用协作流程、专业工具操作以及非通用功能的使用。基准提供任务指令、步骤历史及每一步的多个黄金标准动作,便于高效的离线评估。

图 4:AgentNet 数据集中任务的领域分布

该数据集共包含 22,625 条人工标注的计算机使用任务,其中约 12,000 条来自 Windows,5,000 条来自 macOS,5,000 条来自 Ubuntu,支持的屏幕分辨率范围从 720p 到 4K。每条轨迹的平均步骤为 18.6 步,体现了任务本身的复杂性。

下面展示了一个示例:

视频链接:https://mp.weixin.qq.com/s/DrVO8xp3z-OWIESP7q-Vjg

如表 2 所示,与现有的 GUI 数据集相比,AgentNet 是首个具备真实性、复杂性、多样性与多模态特征的桌面端轨迹级数据集。

表2:AgentNet 数据集与现有GUI数据集对比

为实现稳定、快速且无需依赖环境配置的评估,他们还构建了AgentNetBench——一个离线的计算机使用智能体评估基准。

该基准是从 AgentNet 数据集中精选出 100 个具有代表性的任务构成的,涵盖 Windows 与 macOS 平台,任务内容横跨多个应用领域。

该团队表示,每个任务均经过人工审查,明确任务目标并剔除冗余操作。值得注意的是,考虑到计算机操作任务中天然存在多种合理操作路径,他们还在每个步骤上手动提供了多个有效动作选项,以提升评估的灵活性与真实性。

OpenCUA 模型

基于上述数据集,该团队打造了 OpenCUA 智能体模型,其结合了反思式思维链推理、多图像历史以及跨领域数据。模型能够在多个操作系统的真实桌面环境中执行计算机操作任务。

值得注意的是,他们还设计了一条新颖的处理流程,用于为每个任务步骤增强反思式长思维链(reflective long CoT):「生成器」(generator)与「反思器」(reflector)会以迭代方式生成并验证推理过程中,在观察信息与真实动作(ground-truth actions)之间的各个组件。

实验结果与分析

实验基于多个开源的视觉-语言模型进行,包括:KimiVL-A3B 、Qwen2-VL-7B-Instruct、Qwen2.5-VL-7B-Instruct 和 Qwen2.5-VL-32B-Instruct。

其中,KimiVL-A3B 采用了混合专家(MoE)架构,拥有总计 16B 参数,在训练与推理时激活参数为 3B,具备一定的计算机操作能力,如对象定位与任务规划。

Qwen2-VL 与 Qwen2.5-VL 是通用型视觉-语言模型(VLM),其中 Qwen2.5-VL 在数字智能体任务中表现更强,特别擅长高分辨率场景的理解。

该团队对上述模型进行了监督微调,得到多个 OpenCUA 模型变体:OpenCUA-A3B、OpenCUA-Qwen2-7B、OpenCUA-7B 和 OpenCUA-32B。

然后,他们在以下多个基准上对这些模型进行了评估,包括在线评估基准、离线智能体评估基准以及GUI 定位能力评估基准。

在线智能体评估

  1. OSWorld-Verified:OSWorld 最初收集整理了 369 个人工构建的任务,涵盖大量应用程序,并配有对应的环境配置与评估脚本。OSWorld 团队近期对这些任务进行了验证,修复了因依赖过期、评估错误或指令不清导致无法测试的项目,并将改进后的基准发布为 OSWorld-Verified 。评估结果通过 OSWorld 团队部署在 AWS 基础设施上的公开评估平台获得,结果列于表 3。
  2. WindowsAgentArena (WAA) :该基准包含 154 个以 Windows 为中心的任务,涵盖原生 Windows 应用以及若干出现在 OSWorld 中的开源程序,能有效反映智能体在 Windows 系统上的在线性能。

表 3:OSWorld-Verified 评估结果

从结果上看,OpenCUA-32B 在所有开源模型中取得了最佳表现,平均成功率达 34.8%,大幅领先于此前的各类基线模型。同时,它显著缩小了与闭源智能体的性能差距,甚至超越了 OpenAI CUA。这一结果充分证明了OpenCUA 训练流程在可扩展性与性能上的优势。

离线智能体评估

离线评估使用了 AgentNetBench,这是该团队创建的 CUA 离线评估基准,其中包含 100 个具有代表性任务,覆盖 Windows 与 macOS 上的多个领域。结果如下表所示。

表 4:AgentNetBench 上,各个 CUA 的性能表现

可以看到,OpenCUA-32B 的整体表现最佳,但 OpenAI CUA 在Function action成功率上的表现有明显优势。

GUI 定位能力评估

该团队也评估了模型在图形用户界面(GUI)中将自然语言指令映射到具体操作的能力,这里使用了三个基准:OSWorld-G、Screenspot-V2、Screenspot-Pro

其中,OSWorld-G 包含 564 个样本,系统性地覆盖了文本匹配、界面元素识别、布局理解以及细粒度操作控制等任务,并提供了解决每个任务所需的界面元素类型注释。Screenspot-V2 包含来自 移动端、桌面端与网页端的截图,旨在评估跨平台场景下的 GUI 理解能力。Screenspot-Pro 则聚焦于高分辨率桌面环境,尤其强调在专业应用场景中的表现能力。

OpenCUA 模型在三个基准测试上的 GUI 定位性能,并与 Qwen2.5-VL 模型和 UI-TARS 进行了对比。

可以看到,新提出的方法能够随着训练数据规模的扩大而有效提升模型性能。

较高的 Pass@N 表现表明,OpenCUA-7B 在测试阶段具备良好的扩展潜力(test-time scaling),即在允许更多尝试次数或更长推理路径的情况下,其性能仍可进一步显著提升。

OpenCUA-Qwen2-7B 在 OSWorld 基准上的 Pass@N 性能曲线(temperature = 0.1)

OpenCUA-Qwen2-7B 在 OSWorld 基准上的 Pass@N 性能曲线(temperature = 0)

总结

OpenCUA是一个面向计算机使用智能体(CUA)开发的全面开源框架,填补了该领域的关键空白。通过提供标注基础设施、数据处理流水线、多样化数据集、高效训练策略和系统评估基准,为 CUA 研究奠定了基础性支撑。

其得到的模型在多个基准任务中表现优异,同时呈现出明确的数据 Scaling Law与跨领域泛化能力。通过完整开源工具链(包括工具、数据集、代码与模型),该团队表示希望加速透明、可验证的 CUA 研究,使社区能够系统性地探索此类智能体的能力、局限性与风险。

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
第一季那么神,第二季为何仆街?

第一季那么神,第二季为何仆街?

虹膜
2026-04-22 20:35:00
短暂兑现天赋!新疆混血后卫轰15分封锁郭昊文 创赛季最佳一战

短暂兑现天赋!新疆混血后卫轰15分封锁郭昊文 创赛季最佳一战

大嘴爵爷侃球
2026-04-23 14:46:12
光通信还会有新高!下一个爆点机会在这里!

光通信还会有新高!下一个爆点机会在这里!

普陀动物世界
2026-04-23 21:00:23
亚航回应重庆起飞航班上女乘客闹事被要求下机:其未遵守指令

亚航回应重庆起飞航班上女乘客闹事被要求下机:其未遵守指令

南方都市报
2026-04-23 11:44:20
1983年,庄则栋给万里副总理写信提出两点要求,万里很快作出批示

1983年,庄则栋给万里副总理写信提出两点要求,万里很快作出批示

翠羽
2026-04-23 07:25:11
阿斯麦傻眼,最大的客户说:太贵了,旧的先用着…

阿斯麦傻眼,最大的客户说:太贵了,旧的先用着…

观察者网
2026-04-23 19:42:03
炫富网红蓝战非不装了,疯狂带货捞金

炫富网红蓝战非不装了,疯狂带货捞金

电商派Pro
2026-04-23 10:09:20
扮猪吃虎?忍耐四个月,委代总统撕破伪装,率几十万大军硬刚美国

扮猪吃虎?忍耐四个月,委代总统撕破伪装,率几十万大军硬刚美国

健身狂人
2026-04-23 17:45:54
张学良90岁的一句大实话:杨虎城全家被杀,是因为他才是事变主角

张学良90岁的一句大实话:杨虎城全家被杀,是因为他才是事变主角

触摸史迹
2026-04-21 19:53:04
女子破庙避雨,见两黑蛇缠绵不休,她一把扯掉自己红肚兜

女子破庙避雨,见两黑蛇缠绵不休,她一把扯掉自己红肚兜

梦飞故事会
2024-08-03 21:13:29
你家最讨人厌的亲戚有多恶心?我买一辆新车,亲妹妹气出了抑郁症

你家最讨人厌的亲戚有多恶心?我买一辆新车,亲妹妹气出了抑郁症

游戏收藏指南
2026-04-22 20:39:57
南昌婴儿遭亲妈虐打:嘴巴红肿,知情人:奶瓶里的奶水全倒入口鼻

南昌婴儿遭亲妈虐打:嘴巴红肿,知情人:奶瓶里的奶水全倒入口鼻

魔都姐姐杂谈
2026-04-22 12:57:14
表态不满,赵继伟交易离队?正式确认,谁注意杨鸣的表态

表态不满,赵继伟交易离队?正式确认,谁注意杨鸣的表态

林子说事
2026-04-23 17:50:01
4S要求13万换电池包,保司坚持维修或全损:只有车主主导“维修权”,垄断才能破?

4S要求13万换电池包,保司坚持维修或全损:只有车主主导“维修权”,垄断才能破?

AC汽车
2026-04-23 14:26:04
1. 同居11年遗憾散场,马苏孔令辉终身不婚,内情远比想象复杂

1. 同居11年遗憾散场,马苏孔令辉终身不婚,内情远比想象复杂

生性洒脱
2026-04-23 21:25:09
周总理只是让他去经商,为党赚取经费,他却给组织赚回个商业帝国

周总理只是让他去经商,为党赚取经费,他却给组织赚回个商业帝国

鹤羽说个事
2026-04-02 23:00:01
黑尾酱,彻底消失了?

黑尾酱,彻底消失了?

生如稗草
2026-03-15 08:48:11
八宝山有一座无名墓,高层一直保密,40多年后才公开身份

八宝山有一座无名墓,高层一直保密,40多年后才公开身份

谈古论今历史有道
2026-04-23 17:15:03
即将冲上28℃!升温后这几天还有雨雨雨→

即将冲上28℃!升温后这几天还有雨雨雨→

上观新闻
2026-04-23 18:49:10
新低密度脂蛋白标准已更新,安全值或不再是3.1,为健康,要了解

新低密度脂蛋白标准已更新,安全值或不再是3.1,为健康,要了解

牛锅巴小钒
2026-04-23 21:25:37
2026-04-23 22:43:00
机器之心Pro incentive-icons
机器之心Pro
专业的人工智能媒体
12839文章数 142634关注度
往期回顾 全部

科技要闻

马斯克喊出"史上最大产品",但量产难预测

头条要闻

媒体:莫氏鸡煲陷入怪圈 在流量裹挟下真实反馈没人听

头条要闻

媒体:莫氏鸡煲陷入怪圈 在流量裹挟下真实反馈没人听

体育要闻

给文班剃头的马刺DJ,成为NBA最佳第六人

娱乐要闻

王大陆因涉黑讨债被判 女友也一同获刑

财经要闻

关于AI算力链"瓶颈" 这是高盛的最新看法

汽车要闻

令人惊艳的奇瑞车 风云A9可不只是样子货

态度原创

艺术
时尚
数码
本地
公开课

艺术要闻

快看!世界新第一高楼,已盖到100层!

李昀锐:林深见木

数码要闻

铠侠发布主流级PCIe Gen5 cSSD产品BG8,顺序读取达10300MB/s

本地新闻

SAGA GIRLS 2026女团选秀

公开课

李玫瑾:为什么性格比能力更重要?

无障碍浏览 进入关怀版