计算机操作的AI智能体：基于指令的计算机控制、图形界面自动化与操作员助手综述|算法|信号|编程|ai智能体

分享至

AI Agents for Computer Use: A Review of Instruction-based Computer Control, GUI Automation, and Operator Assistants

计算机操作的AI智能体：基于指令的计算机控制、图形界面自动化与操作员助手综述

摘要

基于指令的计算机控制智能体（Computer Control Agents, CCAs）通过与人类用户相同的图形用户界面，在个人电脑或移动设备上执行复杂的动作序列，以完成以自然语言给出的任务指令。本文综述了这一新兴领域——基于指令的计算机控制，全面考察了现有智能体的分类、发展历程及相关资源，并强调了该领域从人工设计的专用智能体向利用基础模型（如大语言模型 LLMs 和视觉-语言模型 VLMs）的范式转变。

我们对问题进行了形式化定义，并建立了该领域的分类体系，从三个视角分析智能体：(a)环境视角：分析计算机环境；(b)交互视角：描述观察空间（如屏幕截图、HTML）和动作空间（如鼠标键盘操作、可执行代码）；(c)智能体视角：聚焦于智能体如何行动以及如何学习行动的核心原理。

我们的框架同时涵盖专用智能体和基础模型智能体，便于进行对比分析，并揭示专用智能体中的既有解决方案（例如环境学习步骤）如何指导更强大基础智能体的开发。此外，我们回顾了当前 CCA 领域的数据集和评估方法，并概述了将此类智能体部署到实际生产环境所面临的挑战。本文共综述并分类了 86 个 CCA 智能体和 33 个相关数据集。通过突出当前趋势、局限性及未来研究方向，本工作为全面理解该领域并推动其未来发展提供了坚实基础。

关键词：AI 智能体、计算机使用、移动控制、GUI 自动化、大语言模型（LLM）、视觉-语言模型（VLM）

1 引言
近年来，深度学习（Schmidhuber，2015）已超越单纯提供预测功能的阶段，在多个领域实现了具有实用价值的AI智能体（Wei 等，2022b；Zhuge 等，2023）。与其它深度学习系统（LeCun 等，2015；Stadelmann 等，2019；Simmler 等，2021）不同，AI智能体不再局限于预测，而是能够在特定环境中采取行动（van Otterlo 和 Wiering，2012；Humphreys 等，2022）。其中一类重要环境即为计算机系统（桌面或移动设备）及其上运行的应用程序。试想人类如今借助计算设备完成的大量任务，若AI智能体能通过相同的界面、在同类设备上、仅凭用户以自然语言下达的指令即可执行这些任务，其潜在价值将极为巨大。我们正处在一个关键起点：首批面向计算机使用的AI智能体商业原型已面世（例如 Anthropic，2024；Google DeepMind，2024；David，2025），未来人们将视当下为该领域的早期阶段。本文综述旨在全面梳理支撑此类智能体的研究格局与技术路径。

具体而言，基于指令的计算机控制智能体（Computer Control Agents, CCAs）接收用户指令，并通过图形用户界面（GUI）操作计算机来完成任务。CCAs以类人方式获取屏幕信息（例如视觉形式），并通过相同接口（如键盘、鼠标或触摸屏）执行动作。例如，用户可指示一个智能手机智能体通过电子邮件提议会议日期；该智能体随后将通过模拟触摸操作来完成请求，如图1a所示。与许多其他自主智能体不同，CCAs并不局限于纯仿真环境，而是接触真实世界应用程序的复杂动态，并可通过观察用户在其所安装设备上的操作，获取日益增长的轨迹样本。这使其在科研与商业化应用两方面都成为一种尤为引人关注的AI智能体形式。

早期的CCA研究主要探索强化学习（RL）技术（例如 Branavan 等，2009；Jia 等，2019；Humphreys 等，2022），这些方法在简化场景中（如MiniWoB，Shi 等，2017）取得了一定成功。而在更贴近现实的场景中（例如Mind2Web，Deng 等，2023），相关进展在2023年显著加速。这主要得益于将基础模型（foundation models）整合进决策过程，利用其涌现能力（Wei 等，2022a）来实现计算机控制（Kim 等，2023）。这一趋势极大推动并简化了基于基础模型的CCA研究，导致该领域论文数量迅速增长（见图2）。

本综述对不断增长的CCA研究成果进行系统化整理与分析，提供对该领域的整体概览。为此，我们引入了一种分类体系（图1b为概览，第2.2节为详细说明），以高效结构化CCA研究格局，从而深入理解智能体设计中的以下关键方面：(i) 构成智能手机、个人电脑或Web等计算机领域的基本构件是什么？它们之间存在哪些概念上的共性？例如，各类计算机领域均提供一种替代性的文本化屏幕表示形式，如Web中的HTML或Android中的视图层级（View Hierarchy）；(ii) 这些基本构件如何塑造CCA与计算机之间的交互方式？

例如，一个智能体可能通过屏幕截图观察环境，同时通过模拟鼠标点击执行动作。(iii) 哪些核心组件使CCA能够在其环境中有效感知、推理并采取行动？例如，采用一种决策策略，并能够访问关于过去历史的追踪信息。(iv) CCA通常采用哪些学习框架来获取并精进其技能？例如，一个智能体可能首先进行与环境无关的预训练，随后再经过微调以适应特定环境。

为实现上述目标而构建的分类体系，围绕智能体的基本概念展开，包括：环境的本质（Russell 等，2022，第2.3章）、策略（Sutton 和 Barto，2018，第1.3章）、状态、观测空间与动作空间（Sutton 和 Barto，2018，第17.3章），以及智能体的结构（Russell 等，2022，第2.4章）。这一理论背景为理解CCA提供了基础，突显了有效智能体设计的关键组成部分。将其应用于现有CCA研究，揭示了当前文献中鲜少讨论的关键空白。例如，尽管追踪历史信息至关重要（Sutton 和 Barto，2018，第17.3章），一些智能体却完全忽略这一点（如 Niu 等，2024），而许多其他智能体仅追踪过去的动作，却未记录过去的观测（如 Li 等，2024e）。此外，尽管基于基础模型的智能体通常具备开箱即用的通用能力，但其中许多缺乏自主适应特定计算机环境的机制（如 Zheng 等，2024a），导致它们不断重复相同的错误。本综述旨在帮助识别此类缺陷，从而更高效地推动当前技术前沿的发展。

除依据上述分类体系对智能体设计进行综述外，我们还回顾了现有的CCA数据集与评估方法，并讨论了将CCA部署到实际生产环境中所面临的实践挑战，以全面呈现该领域的现状，为未来的研究与开发提供坚实基础。

1.1 与其他综述的关系

与现有综述不同，本综述从技术中立（technology-agnostic）的视角考察基于指令的计算机控制领域，并引入一个统一框架，以连接不同的领域、方法和技术。这使我们能够汇总更广泛方法的见解，包括不同类型的计算机领域（如个人电脑和Android）、不同类型的技术（如强化学习和基础模型）以及不同模态的输入（如文本和视觉输入）。这种广泛的覆盖范围使我们能够提出一种新颖且统一的基于指令的计算机控制分类体系，该体系适用于多种类型的智能体——而以往的研究由于视野局限，未能实现这一点。

具体而言，现有综述存在以下局限性：

计算机控制领域内的覆盖范围有限：Zhang 等（2024a）和 Wang 等（2024c）仅综述了基于基础模型的计算机控制智能体，未讨论强化学习等其他学习框架作为设计核心原则的可能性。Wu 等（2024a）仅讨论移动设备上的智能体，忽略了其他计算机领域。尽管这些综述在某些方面提供了全面的回顾，但它们聚焦于该领域的特定子集。要建立统一的分类体系并全面探讨未来研究方向，必须将整个领域作为一个整体进行分析。

缺乏对计算机控制领域的针对性：一些综述（如 Arulkumaran 等，2017；Moerland 等，2023）聚焦于通用的、基于强化学习的智能体。另一些综述（如 Wang 等，2024b；Li 等，2024a）则回顾了通用的、基于基础模型的智能体。尽管这些综述对特定技术下的智能体提供了全面概述，但并未专门关注计算机控制领域及其特有的复杂性。

相关但关联性有限的邻近研究领域：另一类综述（如 Yu 等，2023；Li，2023）集中于相关主题，例如图形用户界面（GUI）测试，但未涵盖基于智能体的交互。还有一些综述（如 Syed 等，2020；Chakraborti 等，2020）聚焦于使用软件机器人（即智能体）自动化预定义工作流的机器人流程自动化（RPA）。

相比之下，我们的综述提供了一种技术中立的视角，将这些分散的计算机控制子领域和技术联系起来。这使我们能够凸显不同方法之间的协同效应，并提出一个统一的基于指令的计算机控制分类体系，整合来自强化学习（RL）、大语言模型（LLMs）、视觉-语言模型（VLMs）等多方面的见解。尽管 Gao 等（2024b）提供了一个范围相似的有价值综述，但我们的综述在关键方面更为深入，提供了更全面的分析和新颖的洞见，并最终构建了一个基于现有智能体理论的分类体系。

1.2 综述方法论

CCA 领域目前较为分散，尚未形成统一的术语体系。这一现状使得传统的系统性综述难以实施，因此我们采取了以下替代流程：

初步收集：
利用已有知识并结合关键词搜索，我们筛选出一份初步的候选论文列表。

论文筛选：
在仔细审阅候选论文的标题、摘要或部分内容后，我们依据下文所述的标准目录，判断其是否符合纳入综述的条件。

扩展收集：
我们通过人工分析每篇已入选论文的“相关工作”部分及其参考文献，进一步挖掘潜在候选论文，并对这些新增候选论文采用相同的筛选流程。我们对每一篇入选论文都重复执行了这一扩展阶段。初步收集与扩展收集阶段于 2024 年 10 月结束。

针对智能体与数据集两类文献，我们在收集过程中采用的筛选标准如下：

聚焦深度学习：仅纳入将深度学习技术应用于计算机控制的智能体，排除使用传统控制算法的方案。
聚焦计算机控制：排除那些虽基于指令但通过外部工具访问、而非通过用户界面直接控制计算机的智能体（例如：Yang 等，2023b；Tang 等，2023；Li 等，2024f；Guo 等，2024b；Qin 等，2024）。同样排除那些仅提供工具调用、无需实际计算机交互的纯工具型数据集。
聚焦基于指令的范式：排除特定任务导向、非指令驱动的智能体，例如：玩电子游戏的智能体（如 Baker 等，2022；Zhu 等，2023）、控制服务器设施的智能体（如 Ran 等，2019；Fulpagare 等，2022）、代码生成智能体（如 Ross 等，2023；Qian 等，2024）或软件测试智能体（如 Koroglu 等，2018；Degott 等，2019；Pan 等，2020）。我们仅考虑那些提供自然语言指令、并要求智能体通过计算机交互完成这些指令的数据集。

最终，我们共筛选出 86 篇关于基于指令的计算机控制智能体的论文，以及 33 个计算机控制相关数据集（参见附录 A.1–A.3 中的列表）。

1.3 综述结构

本综述的结构旨在为基于指令的计算机控制领域提供一个统一的入门导引。鉴于该领域尚处于发展阶段，目前尚无个别 CCA 能全面代表整个研究脉络；相反，大多数智能体仅体现了构成完整 CCA 图景的某些方面。因此，本综述后续多数章节以分类体系中的各个要素为核心，而非以个别 CCA 为主线。对于每个要素，我们会引用代表性示例（以“e.g.”开头的引文）或具体智能体（无“e.g.”前缀的引文）作为参考。一个显著例外是第 5.2 节，该节重点呈现个别智能体，因其讨论的是智能体的核心开发范式。此外，按智能体组织的领域概览可参见附录 A 中的表格。

具体而言：

第 2 节对基于指令的计算机控制智能体问题进行形式化定义，并引入相应术语，为后续提出的分类体系各视角奠定基础。
接下来的三章分别深入探讨分类体系的三个视角：
- 第 3 节讨论常用计算机领域的构成（环境视角）；
- 第 4 节分析智能体与环境之间通过观测空间与动作空间进行的交互（交互视角）；
- 第 5 节剖析智能体的组成部分、其行动机制以及学习行动的方式（智能体视角）。
第 6 节汇总用于训练或评估智能体的现有数据集；
第 7 节考察用于评估智能体性能的指标与方法；
第 8 节概述将此类智能体部署到生产环境所面临的主要挑战；
最后，第 9 节总结我们的发现，并为未来研究指明方向。

2 基于指令的计算机控制领域
2.1 定义

人类用户通过一段基于文本的指令 i向计算机控制智能体（CCAs）下达任务，CCA 必须通过与计算机环境交互来完成该指令。这些环境的具体特性将在“环境视角”一章中讨论（见第 3 节）。

2.2 一个综合分类体系

我们为 CCA 引入了一个分类体系，该体系区分了三个视角：环境视角、交互视角和智能体视角。每个视角以不同的侧重点讨论 CCA，并根据图3所示的特征对其进行分类（完整分类体系见图3）。此处我们简要概述每个视角，详细讨论将在后续章节中展开。

环境视角：在此视角下，我们讨论计算机环境的属性，并识别跨不同计算机领域共享的观测类型和动作类型。这对应于第1节中的问题(i)。

交互视角（智能体 ↔ 环境）：考察智能体与环境交互所依赖的观测空间 O和动作空间 A，并讨论观测简化（observation simplification）与动作接地（action grounding）如何简化计算机控制任务。这对应于第1节中的问题(ii)。

智能体视角：我们区分两类智能体——基于基础模型构建的基础智能体（foundation agents）与更多依赖人工设计的专用智能体（specialized agents）。我们还讨论了追踪历史信息的重要性、智能体的学习方式，以及智能体如何利用演示（demonstrations）和规划策略（planning strategies）。这对应于第1节中的问题(iii)和(iv)。

3 环境视角
该视角讨论计算机环境的共性特征以及跨不同计算机领域的共享概念。

3.1 计算机环境的本质

进一步的简化是更为不切实际的假设——环境是平稳的（stationary），即环境行为不随时间变化。但在实际场景中，应用程序和操作系统会持续更新（Humble 和 Farley，2011），从而改变环境的行为。

最后，计算机环境通常被假定具有未知动态（unknown dynamics），即智能体初始时并不了解某个动作会产生何种效果。虽然从技术上讲这是正确的，但一些智能体通过预训练学习了常见交互惯例，从而具备一定的预期性知识（见第5.2.1节）。例如，它们可能已学到点击“提交”按钮通常会提交表单。

3.2 领域

在现有文献中，我们识别出网络（Web）、Android 和个人电脑为最常被使用的三大领域。每个领域都提供了一套独特的可能观测和动作类型，但我们也在这些领域之间建立了共享的观测类型与动作类型。

跨领域共享的观测类型：

图像屏幕表示：通过像素图像形式捕获当前屏幕、屏幕部分或扩展视图的截图（例如，Niu 等，2024；Song 等，2024a；Zhang 等，2024b）。
文本屏幕表示：对屏幕内容的文本化描述，例如 Web 领域中的 HTML（例如，Kim 等，2023；Wen 等，2024a；Zhang 等，2024b）。
间接观测：不直接描述当前屏幕，而是反映计算机状态

st∈S 的信息，例如通过访问存储文件获取（例如，Song 等，2023b；Wu 等，2024c；Guo 等，2024a）。

跨领域共享的动作类型：

鼠标/触摸与键盘操作：基于屏幕坐标的动作，如鼠标点击、触摸点击，以及向先前选定元素输入文本的键盘操作（例如，Humphreys 等，2022；Wang 等，2024a；Rahman 等，2024）。
直接UI访问：基于UI元素标识（ID）执行的操作，例如点击某个特定的HTML元素（例如，Gur 等，2023；Zhang 等，2023；Branavan 等，2009）。
任务定制型动作：针对特定任务或领域设计的动作，可在单个动作中完成一系列步骤（例如，Nakano 等，2022；Bonatti 等，2024；Wang 等，2024d）。
可执行代码：允许智能体生成可执行代码，通过编程接口与环境交互（例如，Sun 等，2023；Gur 等，2024；Deng 等，2024a）。

通过在不同计算机领域间共享观测与动作类型，可以实现方法在各领域间的迁移。表2a概述了网络（Web）、Android 和个人电脑领域中各类观测的具体实现形式，而表2b则描述了这些领域中的动作类型。

图4显示，迄今为止最常被使用的领域是网络和Android，这很可能是因为它们属于开放平台，且该领域的首批基准测试主要聚焦于这些类型的环境（见第6节）。

4 交互视角（智能体 ↔ 环境）
本节讨论智能体与环境之间的交互，所依据的是第3节中确立的观测类型与动作类型。

4.1 观测空间

在上一节中，我们介绍了三种观测类型：图像屏幕表示、文本屏幕表示和间接观测。大多数计算机环境的观测空间 O仅包含其中一种类型的观测。然而，有些环境同时使用图像和文本观测，这种形式被称为双模态屏幕表示（bi-modal screen representation）。

图5展示了在本综述分析的86个智能体中，这些观测空间的分布情况（详见附录表A1，其中列出了每个智能体所使用的具体观测类型）。该分布反映了随着大语言模型（LLM）兴起后，计算机控制智能体（CCAs）受到越来越多关注的趋势（参见图2），而LLM本质上是基于文本的。然而，正如我们接下来将讨论的，每种观测类型都有其独特优势；尽管文本屏幕表示目前使用最广泛，但它们本身并不必然优于其他类型的观测。

文本屏幕表示
处理文本屏幕表示的智能体也已在多个领域成功应用：在 Web 领域使用 HTML（例如 Kim 等，2023），在 Android 领域使用 Android 视图层级（Android Hierarchy View）（例如 Shvo 等，2021），在个人电脑领域则使用 Windows UI 自动化树（Windows UI Automation Tree）（例如 Zhang 等，2024b）。

图像与文本屏幕表示的对比（Image vs. Textual Screen Representation）

如图6所示，文本屏幕表示相较于图像屏幕表示具有某些优势，但也伴随着一些缺点。尽管可能存在其他理论上的优缺点，我们仅讨论在实践中被观察到的优势和劣势，如 He 等（2021）、Wang 等（2023）、Li 等（2023）、Zheng 等（2024a）、Cheng 等（2024）的研究所述。

文本屏幕表示的优势包括：

历史上，文本屏幕表示的优势在流行的 Web 基准测试 MiniWoB++（Shi 等，2017；Liu 等，2018）上对性能至关重要，大多数领先智能体均采用了文本表示（Tao 等，2023；Gur 等，2024；Li 等，2023；Kim 等，2023；Jia 等，2019；Liu 等，2018）或双模态屏幕表示（Furuta 等，2024；Humphreys 等，2022）。Humphreys 等（2022）甚至发现，当其双模态智能体忽略文本屏幕表示时，性能下降了 75%；而仅忽略图像屏幕表示时，性能仅下降 25%。这是因为 MiniWoB++ 中的 HTML 结构干净且统一，极大凸显了文本表示的优势，同时最小化了其缺点（如信息密度降低和结构不一致）。

然而，当将这些基于文本的智能体应用于更贴近现实的网站基准（如 Mind2Web，Deng 等，2023）时，其性能急剧下降，任务成功率降至 10% 以下（Deng 等，2023；Gur 等，2024；Furuta 等，2024）。近期研究（Hong 等，2024；Zheng 等，2024a）利用新型视觉基础模型，仅使用图像屏幕表示就在 Mind2Web 上取得了更优结果。例如，Zheng 等（2024a）发现，仅使用图像屏幕表示并调用 GPT-4 的智能体任务成功率达到 38%，而使用文本屏幕表示的 GPT-4 智能体仅达到 12%。其原因在于，真实网站中的 HTML 通常更为冗长且结构不一致，而符合人类感知的视觉表示则因通用设计原则而具有更强的内在结构。

类似趋势在 Android 领域也日益明显。尽管历史上文本屏幕表示表现最佳（Wen 等，2024a；Wang 等，2023；Shvo 等，2021），但近期仅使用图像屏幕表示的研究已展现出更优性能（Zhang 等，2023；Hong 等，2024）。然而，由于这些研究缺乏统一的基准测试，Android 领域尚难以进行直接比较。

鉴于这一发展趋势，我们推测：文本表示（如语义标识符）的优势在过去较为简洁的环境中提供了一种通用的“捷径”，从而提升了性能；但由于其固有缺点（如结构不一致性），在更贴近现实的场景中已遭遇性能瓶颈。因此，我们认为，在真实任务上达到当前最先进水平的智能体，需要依赖图像屏幕表示（或双模态表示），因为通用设计原则赋予了视觉表示丰富的内在结构。这一观点也得到了图7的支持——该图突出显示，近年来研究正明显趋向于基于视觉的智能体，尤其是在2024年。

4.2行动空间

在第3节中，我们介绍了四种动作类型：鼠标/触摸与键盘操作、直接UI访问动作、任务定制型动作以及可执行代码。计算机环境通常在其动作空间 A中仅提供其中一种类型的动作。图8展示了这些动作空间在所调研的智能体中的分布情况，而表A1则详细列出了每个CCA所使用的具体动作类型。大多数智能体依赖于鼠标/触摸与键盘动作（如click(x, y)）或直接UI访问动作（如click(e)）。为完成任务，这些通用动作会被组合成更复杂的动作序列。

鼠标 / 触摸与键盘操作

鼠标、触摸和键盘操作属于通用型动作，与人类的（交互）行为方式一致，因此易于收集并用作 CCA 的训练数据（Humphreys 等，2022）。鼠标动作（如click(x, y)）和触摸动作（如tap(x, y)）都需要绝对屏幕坐标 (x,y)，从 CCA 的角度来看，两者在概念上是相同的⁶。图 9a 展示了预测屏幕坐标的多种方法。一些方法采用离散预测，例如：在低分辨率坐标网格上预测位置（如 Shi 等，2017；Toyama 等，2021）；分别预测相互依赖的离散 x 和 y 坐标值（如 Humphreys 等，2022）；或通过文本生成模型生成离散的坐标标记（如 Hong 等，2024）。其他方法则使用连续值，即预测两个相互依赖的连续坐标值（如 Toyama 等，2021）。

键盘动作（如type(text)）通常用于向先前选中的 UI 元素输入文本。在大多数情况下，智能体利用语言模型生成所需文本（如 Hong 等，2024）。早期方法则使用预定义的文本片段（如 Humphreys 等，2022），或直接从指令 i中提取文本（如 Gur 等，2019），但这种方法仅在指令中包含所需文本时才有效。除了文本输入，键盘动作也常用于执行特殊命令，例如按方向键（如 Li 等，2023）或使用快捷键（如“全选”、“复制”或“粘贴”）（如 Cho 等，2024）。

直接 UI 访问

直接 UI 访问动作（如click(e)或type(e, text)）涉及与智能体观测到的 UI 元素 e直接交互。要使用此类动作，应用领域必须提供可访问的接口，且智能体必须能够识别可引用的 UI 元素。目前主要有两种引用元素 e的方法。

第一种方法允许智能体通过预测唯一标识符直接引用元素，例如元素的id属性（如 Li 等，2023）。例如，对于观测到的元素，智能体通过预测动作click(id=search)来点击该按钮（见图 9b）。类似地，Kim 等（2023）使用元素的 XPath⁷ 作为唯一标识符，而非id属性。

第二种方法是让智能体对每个元素进行打分，并选择得分最高的元素（如 Jia 等，2019）。这可以包括为每个元素预测一个概率得分（如 Li 等，2024d），从而使智能体能够选择最相关的 UI 元素。

为简化动作空间，可减少可引用元素的集合。一种常见策略是仅关注用户界面树中的叶节点（如 Liu 等，2018）。另一种方法是使用辅助模型预先筛选出潜在候选元素（如 Deng 等，2023）。针对特定任务（如网页导航），Zaheer 等（2022）和 Chen 等（2024b）将可引用元素集限制为仅超链接元素。

一种文本输出动作，记为type(e, text)，用于向 UI 元素 e（例如输入框）填充文本。其文本生成过程与键盘动作中采用的方法类似，包括：生成自由文本（例如 Li 等，2023）、选择预定义的文本片段（例如 Shvo 等，2021），或直接从指令 i中提取文本（例如 Jia 等，2019）。

任务定制型动作（Task-Tailored Actions）

任务定制型动作通常不具备通用性，而是专门为完成特定子任务而设计的。例如，Wang 等（2024d）为日历应用定义了create event动作，为邮件客户端定义了send email动作。相比由一系列通用动作组成的轨迹，任务定制型动作更易于使用和学习，从而为智能体提供了一种“捷径”。然而，这类动作也存在局限性：它们需要额外的工程实现成本，因为环境必须显式支持这些动作，且难以在不同任务之间泛化。

相比之下，也存在一类领域特定但更具通用性的动作。例如，Bonatti 等（2024）定义了open application动作，使智能体能够在 Windows 操作系统中打开并切换应用程序；Nakano 等（2022）则定义了search动作，允许智能体在网页中导航到特定文本位置。这类领域特定动作在通用功能与任务相关性之间取得了良好平衡。

可执行代码（Executable Code）

另一种控制计算机的方式是生成可在环境中执行的代码。虽然像click(x, y)这样的动作本身也可视为可解释的代码，但此处我们将“可执行代码”定义为：能够被通用解释器（如 Python 或 Bash 解释器）执行的程序代码。所生成代码的结构及其应用编程接口（API）所提供的抽象层级各不相同：

顺序代码（Straight-line code）：由一系列无控制流的语句组成（例如 Tao 等，2023），类似于预测单个或多个动作。
含控制流的代码（Control-flow code）：包含条件语句（如

if）、循环（如for）和函数定义等控制结构。复杂的代码可以表示智能体的完整执行计划，例如 Sun 等（2023）的工作中，智能体会根据前置条件检查的失败情况动态调整其计划。

任务定制型 API（Task-tailored API）：一些智能体使用由人工设计的函数组成的 API，这些函数类似于任务定制型动作。例如，Guo 等（2024a）为其 PowerPoint 智能体定义了诸如def insert_rounded_rectangle(...)这样的函数。

图 10 展示了以可执行代码作为动作空间的示例。可执行代码通常由通用基础模型（例如 Guo 等，2024a）或专用模型（例如 Gur 等，2024）生成。基础模型通常已在成熟的 API（如 Selenium WebDriver）上进行了预训练，而人工设计的函数则通常通过上下文提示（contextual prompts）引入；此外，也可借助 API 选择器先检索出相关函数（Song 等，2023b）。

一个尚未解决的问题是：与其他动作类型相比，使用可执行代码究竟有何优势。Chen 等（2023）和 Gao 等（2023）发现，与任务定制型动作相比，使用顺序代码（straight-line code）可减少 GPT-3 中的幻觉现象。然而，Assouel 等（2023）指出，当使用 GPT-4 时，这一优势便消失了，这表明随着模型能力的提升，可执行代码相对于其他动作类型的益处正在减弱。

基于预测的接地（Prediction-based grounding）：接地模型根据未接地的动作预测对应的 UI 元素。例如，Li 等（2020b）根据抽象动作“导航至设置”预测click(e)，其中 e 指向“设置应用”图标。

基于规则的接地（Rule-based grounding）：基于规则的模块将抽象动作 at∗匹配到可操作的 UI 元素。例如，Song 等（2024a）使用文本匹配规则实现这种映射；而 Lee 等（2023b）则先预测包含占位符的抽象模板动作（如click(text="[contact_name]")），再通过基于规则的接地机制，将占位符替换为从用户指令 i中提取的上下文相关值。

接地不仅限于文本模型，也应用于视觉型智能体。这些智能体——特别是那些使用多模态基础模型的智能体——由于当前视觉语言模型（VLMs）尚无法精确预测屏幕坐标，因此仍需依赖接地。Zheng 等（2024a）已探索并讨论了多种视觉模型中的接地策略。其中最成功的一种是“标记集合提示法”（set-of-mark prompting）（Yang 等，2023a），该方法为可操作元素标注边界框和唯一标识符，使智能体能直接通过标识符访问这些元素，而不必依赖坐标预测。识别可操作元素有两种途径：一是结合带有位置数据的额外文本屏幕表示（如 Zheng 等，2024a；Li 等，2024e；Zhang 等，2023）；二是通过专用模型从截图中提取（如 Lu 等，2024）。尽管后一种方法更灵活，但往往不够精确，导致性能次优（Bonatti 等，2024）。

尽管“标记集合提示法”取得了成功，我们认为这一接地步骤可能只是由当前基础模型能力局限所驱动的一种临时性解决方案——因为现有模型尚未被充分训练以直接预测屏幕坐标。然而，近期研究表明，通过坐标预测学习视觉接地是可行且直接的（Dardouri 等，2024；Cheng 等，2024），这最终可能使“标记集合提示法”变得不再必要。

图11展示了在综述文献中领域、观测空间与动作空间之间的关系。观测空间与动作空间之间的联系尤为重要，因为动作空间的结构通常紧密依赖于观测空间的本质。这引出了一条普遍规律：基于视觉的智能体通常依赖鼠标/触摸与键盘动作，而基于文本的智能体则倾向于使用直接UI访问动作。然而，也存在显著例外。例如，一些智能体（如 Song 等，2024a；Wen 等，2024a）首先将截图转换为文本屏幕表示，再据此执行直接UI访问动作。Bishop 等（2024）和 Li 等（2024c）则基于 HTML 观测预测鼠标动作，其中必要的空间信息会自动从网页浏览器 API 中提取并编码为附加属性。此外，Cho 等（2024）结合了鼠标/触摸与键盘动作及直接UI访问动作，尽管他们并未提供对该混合方法的详细分析或解释。

动作空间的选择很大程度上取决于智能体所面向的具体应用和领域。定制化动作虽对特定任务更高效，但通常泛化能力较差。相比之下，通用动作更灵活，但对智能体而言通常更难学会有效组合（即协调使用），因为它们需要复杂的编排才能完成多样化的任务。我们认为，对于大多数现实应用场景，通用动作与领域特定定制化动作（如应用程序切换子程序）的组合，是目前文献中最实用且有效的折衷方案。这种组合既保持了任务效率，又提供了广泛的任务适用性。此外，我们预计未来的模型将更倾向于采用基于坐标的通用动作而非直接UI访问动作，因为未来的基础模型将被训练为直接预测屏幕坐标，而基于坐标的动作天然地与图像屏幕表示相契合。

5 智能体视角

第3节详细描述了计算机环境，第4节阐述了智能体与环境的交互，二者共同刻画了智能体的“外部”。本节将分类体系延伸至计算机控制智能体（CCAs）的“内部”，首先介绍两种最常见的智能体类型：基础智能体（foundation agents，基于基础模型）和专用智能体（specialized agents，基于领域特定设计）。我们将分别分析每种设计要素，同时展示这两类智能体之间以及超越这两类的联系、细微差别与例外情况。

5.1 策略 —— 如何行动

策略是智能体的决策组件（Sutton 和 Barto，2018，第1.3章）。在计算机控制的背景下，我们区分三种类型的策略：无记忆策略、基于历史的策略和基于状态的策略。

无记忆策略（Memoryless Policies）

基于状态的策略（State-based Policies）

计算机控制智能体采用三种类型的策略：无记忆策略、基于历史的策略和基于状态的策略（见公式 (2) 至 (4)）。图 12 展示了本综述所分析的智能体中这些策略的分布情况（关于各策略与具体文献的详细对应关系，请参见附录表 A2）。其中，基于历史的策略占据主导地位，尤其在基础智能体中更为普遍，这反映了基础模型在计算机控制领域的广泛应用。相比之下，无记忆策略和基于状态的策略在专用智能体中更为常见：无记忆策略用于较简单的智能体，而基于状态的策略则用于更高级的智能体。

5.2 学习策略 —— 如何学习行动

每个智能体的学习策略均可概念化为实现以下三个步骤（并非所有 CCA 都使用全部三个步骤）：

通用预训练（General pre-training）：智能体获取广泛、与环境无关的知识。例如，基础模型学习通用能力，或视觉骨干网络学习图像表示。

环境学习（Environment learning）：智能体学习如何适应特定的计算机环境。这包括显式的参数（权重）更新，或隐式方法，如存储环境经验以备后续调用。

情节内改进（Episodic improvement）：智能体通过指令微调或少样本学习等方法，在当前情节内精进其表现（Brown 等，2020）。与前两个步骤不同，情节内改进是临时性的——一旦情节结束，中间结果即被丢弃，不会发生长期学习。

图13 提供了本综述所分析智能体中这些学习步骤分布情况的概览，而表A2 详细列出了各具体文献所采用的学习策略。图14 则阐明了这三个学习步骤的顺序性及其在基础智能体与专用智能体学习策略中的角色。接下来的章节将详细探讨每个学习步骤，重点介绍当前实践并突出例外情况。

5.2.1 利用通用预训练

基础智能体利用具备广泛知识和上下文学习能力的基础模型（Brown 等，2020）。这些能力可以消除对环境特定微调的需求，使智能体仅依靠基础模型的通用知识以及通过提示（prompts）提供的指令，即可在计算机环境中运行并适应特定环境（例如 Kim 等，2023）。

例如，当被提示为 Web 智能体时，GPT-4（OpenAI 等，2024）能够完成填写表单或导航网站链接等任务（Zheng 等，2024a）。相比之下，专用智能体要么从零开始训练（例如 Humphreys 等，2022），要么使用预训练的骨干网络（例如图像编码器）进行初始化，以加速对观测空间的学习（Li 等，2024b）。这类智能体通常需要额外的微调才能适应计算机环境（见第 5.2.2 节）。

基础模型或骨干网络的选择取决于观测空间、动作空间和具体任务需求。例如：

Zheng 等（2024a）使用 GPT-4（OpenAI 等，2024）作为其双模态智能体的多模态基础模型；
Gur 等（2024）采用擅长代码生成的基础模型（Chung 等，2024）来生成可执行代码；
Shaw 等（2023）为其视觉型智能体微调了一个视觉骨干网络；
Iki 和 Aizawa（2022）为其基于文本的智能体微调了一个文本骨干网络；
Song 等（2024a）使用预训练的目标检测和 OCR 模型，将屏幕截图转换为基于文本的观测，以支持直接 UI 访问动作；
Gur 等（2024）则从零开始仅在 HTML 数据上预训练了一个大语言模型（LLM），并结合了针对 HTML 设计的局部与全局注意力机制。

5.2.2环境学习

环境学习（Environment learning）是指通过在相同或相似的计算机环境中积累经验，学习如何在该环境中行动的过程。这一过程通常遵循以下三种主要策略之一：强化学习（Reinforcement Learning）、行为克隆（Behavioral Cloning）或利用长期记忆（Long-term Memory）。

图15展示了这些策略在所调研文献中的分布情况，详细信息见附录表A2。许多基础智能体跳过了环境学习这一步骤，仅依赖其预训练所得的“开箱即用”能力。尽管这些能力可能非常有效（例如 Zheng 等，2024a），但缺乏环境学习机制限制了这些智能体的适应性——它们无法在特定计算机环境中调整或提升自身性能。

强化学习（Reinforcement Learning）

在强化学习中，智能体通过在环境中不断试错，学习如何最大化累积奖励（Sutton 和 Barto，2018）。对于计算机控制任务，这类环境通常是人工构建的仿真环境，称为受控环境（controlled environments），其设计旨在模拟真实世界的计算机场景，同时提供用于引导学习的奖励信号。强化学习已在计算机控制中通过多种算法实现，包括近似策略迭代（Humphreys 等，2022）、策略梯度（Shi 等，2017）以及结合树搜索的自举方法（Shaw 等，2023）。

在较简单的环境中，智能体可能依赖暴力探索（brute-force exploration），直接从随机行为中学习（例如 Toyama 等，2021；Shvo 等，2021）。然而，在大多数计算机环境中，奖励是稀疏的（sparse），通常仅在成功完成用户指令 i时才给予奖励（例如 Shi 等，2017），比如正确填写并提交航班预订表单。由于奖励稀疏，仅靠初始的随机行为往往难以成功学习，因为智能体几乎不可能靠随机尝试生成一长串正确的动作序列（Humphreys 等，2022）。

为缓解奖励稀疏问题，一种常见策略是先在人工标注的演示数据上训练智能体（即行为克隆，见下文），使其具备初步能力，从而能够开始发现并从奖励中学习（例如 Shi 等，2017；Humphreys 等，2022）。类似地，Liu 等（2018）利用人工演示来约束动作空间：通过定义与演示动作相似的有效动作集合，提高智能体发现奖励的可能性。

若无演示数据，也可采用奖励塑形（reward shaping，Ng 等，1999）人为引入中间奖励信号，以降低奖励稀疏性，如 Gur 等（2019）和 Li 与 Riva（2021）所示。另一种方法是自适应调整任务复杂度。例如，Gur 等（2021）构建了一个支持自主课程学习（autonomous curriculum learning，Bengio 等，2009）的受控环境，能自动调节任务难度；Gur 等（2019）则通过逐步将智能体的起始位置远离目标状态来实现课程学习，随着智能体能力提升而增加挑战。

强化学习的核心优势在于其能够自主探索环境，有效遍历所有可能经验构成的动态数据集。然而，其对受控环境的依赖限制了其在广泛计算机控制任务中的应用——因为必须明确定义奖励，且需抑制真实后果（例如实际下单购买）。AndroidEnv（Toyama 等，2021）是一项令人振奋的尝试：它在完整的虚拟 Android 系统之上构建仿真环境，允许通过定义指令和奖励来配置各类任务，从而在可控前提下逼近真实场景。

行为克隆（Behavioral Cloning, BC）

在行为克隆（Pomerleau，1988）中，智能体通过监督学习来模仿所展示的行为。所展示的行为通常是人类为完成某条指令 i而操作计算机时记录下来的观测与动作序列。如前所述，行为克隆常被用作强化学习（RL）的初始化手段：先训练出一个具备初步能力的智能体，再在受控环境中通过 RL 进一步提升性能。通常，RL 能够探索行为数据中缺失的部分，从而进一步增强智能体。例如，Humphreys 等（2022）表明，在使用 240 万个人工标注的动作对智能体进行训练后，RL 将任务成功率从约 30% 提升至 95% 以上。

尽管如此，也有一些智能体完全依赖行为克隆，这对于较简单的任务已足够（例如 Gur 等，2023）。

与强化学习不同，行为克隆不要求智能体在环境中实际执行动作，因此可应用于非受控环境（uncontrolled environments）。例如，Zhang 和 Zhang（2024）在 Rawles 等（2023）提供的 Android 演示数据上对模型进行微调；Hong 等（2024）则将 Rawles 等（2023）的 Android 演示与 Deng 等（2023）的 Web 演示结合起来使用。

行为克隆方法在训练策略和数据收集方式上存在差异。例如：

Gur 等（2023）对整个模型进行训练；
Hong 等（2024）仅更新模型的特定组件；
Li 等（2024c）则采用低秩自适应（Low-Rank Adaptation, LoRA；Hu 等，2021）对基础模型进行微调。

数据集通常由人工标注（例如 Humphreys 等，2022），但也存在自动化的数据收集方法。例如，Furuta 等（2024）在受控环境中利用另一智能体的动作轨迹，通过拒绝采样（rejection sampling）筛选出成功的轨迹，并借助环境奖励进行验证。类似地，Lai 等（2024）通过不断迭代，利用自身性能不断提升的智能体来收集成功的演示数据。

长期记忆（Long-Term Memory）

基础模型展现出强大的少样本学习能力（Brown 等，2020），使基础智能体能够通过将成功的演示直接嵌入上下文来提升动作预测能力（见第 5.2.3 节）。这种范式被称为上下文内学习（in-context learning），它允许智能体通过收集经验以供后续检索，从而自主适应环境。图 16 展示了两类主要的经验形式：

近年来，基础智能体在未使用任何环境学习技术的情况下已取得显著进展（例如 Zheng 等，2024a），并且随着未来基础模型的发展，其性能可能还会进一步提升。然而，缺乏环境学习的智能体容易在相同场景中重复犯错。它们无法自主适应环境，因此无法表现出 Russell 等人（2022，第2.2章）所定义的“理性行为”。因此，理性的智能体需要某种形式的环境学习。

图17 展示了过去五年间环境学习方法的演变历程。几年前，强化学习结合初始行为克隆的方法占据主导地位（例如 Humphreys 等，2022）。在过去两年中，研究重点转向了仅依赖行为克隆（Lù 等，2024）或长期记忆（Zhang 等，2023）的基础智能体。

然而，强化学习仍是一个潜力巨大的范式，可用于微调基础模型以适应特定计算机环境。例如，Fereidouni 和 Siddique（2024）证明，将强化学习应用于一个较小的基础模型（7.8亿参数）时，其表现优于在更大模型（30亿参数）上进行上下文内学习的效果。如何有效适配基础模型，仍然是一个开放的研究挑战。我们在第8节将从更实际的角度对此进行进一步探讨。

5.2.3 情节内改进（Episodic Improvement）

情节内改进指的是智能体在单个情节内“思考”当前情境，从而提升其表现的能力，但不会保留任何知识用于未来的情节。这种方法实质上是以测试时计算资源为代价，在当前情节中换取更好的任务执行效果。

基础智能体通常通过上下文内学习（Brown 等，2020）实现情节内改进，包括指令微调（instruction tuning）——即通过提示向模型提供指导，以及少样本学习（few-shot learning）——即向智能体提供成功轨迹的示例作为演示。相比之下，当前的专用智能体通常不采用情节内改进。不过，其他领域存在类似实践，例如游戏智能体通过搜索预测动作的模拟后果来“提前思考”，正如 Silver 等人（2017）所展示的那样。

通过指令微调实现上下文内学习（In-Context Learning through Instruction Tuning）

基础模型可通过提示工程（prompt engineering）进行优化。表4列举了文献中（较长）提示中的部分片段。通常，这些提示由人工设计，旨在使基础模型适应特定的环境条件（例如 Zheng 等，2024a）。但也有例外情况。例如，Sun 等（2023）使用第二个模型作为规划器，为智能体自动生成提示。这种策略被称为“自提示”（self-prompting），涉及多个基础模型实例，各自扮演不同角色并通过迭代提示相互协作（例如 Song 等，2024b）。

视觉基础模型的兴起推动了视觉提示工程的发展。这包括扩展截图以融入用户指令（Lee 等，2023a）、在可操作的 UI 元素上叠加边界框（例如 Bonatti 等，2024），以及为视觉接地添加唯一标识符（例如 Zhang 等，2024b）。

通过示范进行 n-上下文学习（n-Context Learning through Demonstrations）
图18展示了向智能体收集和提供示范的四种常见技术：

人工编写（Human-crafted）：针对某一类任务，向基础模型提供一组固定的人工编写的示范 {τ₁, τ₂, …}（例如 Kim 等，2023）。

语义搜索（Semantic search）：根据当前指令 i 与以往指令的语义相似性，智能体从数据库中检索人工编写的示范（例如 Cho 等，2024）。

辅助模型（Auxiliary model）：首先使用一个辅助智能体生成大量示范，然后智能体从中检索与当前指令 i 语义相关的那些示范。

智能体自收集（Agent-collected）：智能体通过搜索其过往经验，自主收集自身的示范，这些示范被称为“长期记忆”（参见第5.2.2节）。

鉴于上下文长度的限制，所提供的轨迹 τ = ((o₀, a₀), (o₁, a₁), ...) 通常会被简化为 τ → τ*，类似于历史记录 hₜ 被简化为 hₜ* 的方式（参见第5.1节）。除了轨迹之外，示范还可包含对所采取每一步行动的理由说明（例如，Cho 等，2024）。这些理由受思维链提示（chain-of-thought prompting）启发（Liu 等，2023a），可在智能体做出类似决策时提供帮助。此类推理过程可由人类撰写（例如，Wang 等，2023），或由另一个模型自动生成（例如，Cho 等，2024；Sodhi 等，2023）。

通过规划实现情景式改进（Episodic Improvement through Planning）

具身认知智能体（CCAs）具有目标导向性，这意味着它们必须进行规划以完成非平凡的指令 i（Russell 等，2022，第2.4章）。大多数智能体在其潜在空间中执行隐式规划，Li 等人（2023）将这一过程称为“迭代规划”（iterative planning），其中未来的状态或行动后果并未被显式构建出来。然而，一些基础模型会以文本形式生成显式规划：一种常见方法是“思维链提示”（chain-of-thought prompting）（Liu 等，2023a），该方法引导模型在决定采取行动之前生成中间推理步骤，从而提升性能（例如 Rawles 等，2023；Zhang 等，2024d）。另一种方法是将指令分解为一系列顺序子任务，例如将“预订一张从杭州到北京的经济舱机票”这一任务分解为“打开支付宝应用”和“输入‘杭州’作为出发城市”等步骤（Guan 等，2023）。

生成的规划可以被迭代改进。例如，Kim 等人（2023）通过提示其基础模型对其生成的规划进行批判并递归地优化。尽管这种方法可能带来小幅改进，但 Kambhampati（2024）指出，自我批判（self-critiquing）所带来的收益可能有限。

在初始提示之后，智能体可能严格遵循其初始规划（例如 Kim 等，2023），也可能根据新的观测动态调整规划（例如 Sun 等，2023）。

与上述基于提示的规划策略不同，Koh 等人（2024b）采用了一种形式化的规划方法，涉及搜索算法。他们在受控环境中模拟行动，并搜索潜在的未来状态（观测），以更好地决定下一步行动。该方法展现出显著的性能提升：在搜索深度为5时，任务成功率提高了50%。在此基础上，Chae 等人（2024）对模型进行微调，使其能够预测行动对当前观测的影响，从而在不依赖外部模拟器的情况下实现更优决策。这些思路类似于近期利用智能体工作流（agentic workflows）的测试时计算（test-time compute）技术（Snell 等，2024；Singh 等，2024）。

我们推测，当前的计算机控制基准任务可能并不需要复杂的规划，因为许多任务仅需执行若干独立动作即可完成（例如填写网页表单）。然而，对于具有顺序依赖步骤的更复杂任务（例如查询相互依赖的不同信息），则必须进行规划（Russell 等，2022，第11章）。

5.2.4 讨论

通用预训练侧重于获取与任何特定环境无关的知识，且在很大程度上与智能体理论脱节。环境学习与情景式改进（episodic improvement）都涉及将具身认知智能体（CCA）适配到计算机环境中。环境学习技术关注智能体自主学习某个特定环境；相比之下，情景式改进则是指人工地将智能体已有的能力适配到特定环境中。在此背景下，我们预测，规划将成为计算机控制智能体应对更具挑战性任务的关键组成部分。

6 计算机控制数据集
本节讨论计算机控制数据集。我们将讨论范围限定在近期发表且被广泛引用的最突出的数据集上。图19展示了这些数据集的时间发展脉络，而表A3则概述了所有被纳入考虑的计算机控制数据集及其关键特性。接下来，我们将讨论不同类型的数据集，将其与我们的分类体系关联，分析其复杂性，并描述这些数据集作为基准（benchmarks）如何用于在不同研究中比较智能体的能力。我们不涵盖用于基础模型通用预训练的数据集，也不包括仅部分与计算机控制相关的数据集，例如问答类数据集（如 Hudson 和 Manning，2019）和工具使用类数据集（如 Patil 等，2023）。

6.1 数据集类型
具身认知智能体（CCAs）利用两类计算机控制数据集：

受控环境（Controlled Environments）：受控环境是模拟的，这意味着智能体可以自由行动而无需承担后果，因为模拟环境随时可以重置。因此，只要提供额外的奖励信号，这类环境就可用于强化学习（例如 Humphreys 等，2022）。此外，它们还可用于在安全的模拟阶段收集长期记忆（例如 Wen 等，2024a），以及在推理时通过模拟潜在动作进行规划（Koh 等，2024b）。

离线数据集（Offline Dataset）：离线数据集是通过指导人类（或其他操作者）执行计算机任务并记录其观测和所执行动作而收集的。智能体在训练期间仅能观察到这些记录下来的交互，从未在底层环境中实际执行动作，因此训练过程不会产生任何实际后果。离线数据集可用于小样本学习（few-shot learning）（例如 Deng 等，2023），或用于在非受控环境（如生产环境中的网站）中对智能体进行微调（例如 Rahman 等，2024）。此外，来自受控环境的离线数据集还可用于初始的行为克隆（behavioral cloning），以缓解稀疏奖励问题（Humphreys 等，2022）。

这两种数据集类型具有明显不同的特点。受控环境的构建成本较高，因为需要工程化地开发能够模拟现实世界行为的仿真系统，但智能体可以自主探索环境的各个方面。相比之下，离线数据集可以在任何环境中录制，但其内容是不完整的，因为不可能记录所有可能的交互。此外，离线数据集通常只展示完成某条指令的一种轨迹，而实际上可能存在多种可行的轨迹。

6.2领域、观察和行动空间

受控环境和离线数据集通常都是领域特定的。如图20所示，现有数据集的大多数来自网页领域（例如 Zhou 等，2024），其次是安卓领域（例如 Rawles 等，2023）和个人电脑领域（例如 Hong 等，2024）。

这些数据集中可用的观测与动作类型，会因领域和数据收集方法的不同而有所差异。在观测方面，一些数据集仅提供图像形式的屏幕表示（例如 Rawles 等，2023），一些仅提供文本形式的屏幕表示（例如 Pasupat 等，2018），还有一些同时提供两者（例如 Chen 等，2021）。在动作方面，一些数据集仅关注鼠标/触摸与键盘操作（例如 Kapoor 等，2024），一些提供直接的用户界面（UI）操作（例如 Chen 等，2024b），而另一些则专注于任务定制的动作（例如 Liu 等，2024）。表A3提供了概览。在许多情况下，通过后处理工作可以生成额外的观测和动作类型。例如，可以通过网页浏览器渲染HTML表示，从而获得基于图像的屏幕表示。

6.3 数据集复杂性

状态空间、观测空间和动作空间的大小，以及任务的多样性等因素，都会影响计算机控制数据集的复杂性。受控环境通常比离线数据集更简化且多样性更低。例如，在 MiniWoB++（Shi 等，2017）中，所有任务均在一个统一、简化的网站设计内完成，图形用户界面（GUI）元素极少，HTML结构干净简洁。类似地，WebShop（Yao 等，2022）仅限于一个简化的在线购物应用。尽管 WebArena（Zhou 等，2024）提供了更真实的网页环境，但其任务仍被限制在四个之内。离线数据集往往包含更真实的观测，其多样性取决于所涵盖场景的范围，例如包含了多少个网站。例如，Mind2Web（Deng 等，2023）记录了来自31个类别共137个网站的任务，提供了丰富的多样性。同样，Android in the Wild（Zhang 等，2024d）记录了跨越357个安卓应用或网站的任务。不同数据集中的任务复杂度差异很大。例如，MiniWoB++（Shi 等，2017）包含100项任务，文本内容随机化，平均每项任务需执行3.6个动作，从简单的“点击按钮”到较复杂的“填写表单预订航班”。WebShop（Yao 等，2022）提供了12,000条众包指令，全部与购物相关，平均每项任务需执行11.3个动作。Mind2Web（Deng 等，2023）提供2,000项任务，平均每个任务7.3个动作；而 WebArena（Zhou 等，2024）包含812项任务，其中部分任务需要跨应用程序操作，例如“创建Reddit账户并同步GitLab个人资料”的任务。

总体而言，随着智能体能力的提升，新数据集的复杂性也相应增加。一种直接的方法是使观测和任务更加多样且更具挑战性。例如，WebArena（Zhou 等，2024）相比 MiniWoB++（Shi 等，2017）拥有更真实的观测空间，且任务所需的动作数量更多。然而，还有许多其他方式可提升复杂性：VisualWebArena（Koh 等，2024a）将图像作为指令的一部分加入，例如要求智能体根据图片内容创建一则出售商品的帖子。AgentStudio（Zheng 等，2024b）提供基于视频的观测，要求智能体处理动态的、随时间变化的信息。MT-Mind2Web（Deng 等，2024b）通过引入多轮任务扩展了 Mind2Web，即用户向智能体连续下达多个指令，要求智能体表现出更细致的行为。MoTIF（Burns 等，2022）在其离线数据集中引入不可行的指令，挑战智能体识别无法完成的任务。

6.4 数据集作为基准

基准（benchmark）指的是用于评估和比较不同研究中智能体性能的受控环境或离线数据集。为了实现有意义的比较，关键在于各研究需使用相同的环境配置和评估指标。然而，这种标准化在现有文献中往往缺失。

例如，在 MiniWoB++ 基准（Shi 等，2017；Liu 等，2018）中，不同研究选取了100个可用任务中的不同子集，使得跨研究比较变得困难。例如，Humphreys 等（2022）使用了全部100个任务，而 Zheng 等（2024c）仅聚焦于其中64个任务。

离线数据集在作为恰当基准方面存在固有挑战。对于给定指令，可能存在多条可行的执行路径，但数据集中仅记录了人类实际采取的那一条路径。例如，Zheng 等（2024a）观察到，仅将评估方式切换为在线评估（由人类评判最终状态），其智能体的任务成功率就显著提升——从12%提高到36%。然而，在线评估本身也带来新的问题，例如成本高昂且缺乏一致的可复现性，这限制了其在基准比较中的广泛应用。

我们在审阅当前具身认知智能体（CCA）文献时发现的一个问题是：不同论文中智能体的能力难以相互比较。这是因为许多论文要么引入自定义基准，要么对现有基准进行简化，通常是为了突出其方法的某些特定方面。因此，我们主张，研究应在已建立的、可复现的、完整的基准上对其所提出的智能体进行评估。

7 智能体评估
当前文献中使用了多种评估指标。我们将其归纳为三类评估指标（参见图21）：任务级指标（Task-level metrics）、步骤级指标（Step-level metrics）以及其他指标。

7.1 任务级指标
任务级指标关注智能体完成指令 i的整体有效性。任务成功率（Task success rate）是最常见的任务级指标，用于衡量智能体完整完成整个任务的总体成功率（Deng 等，2023；Zhang 等，2024d）。
在受控环境中，环境本身会指示任务是否成功完成；而在离线数据集中，只有当智能体预测出与记录完全一致的完整轨迹时，才被视为任务成功。然而，如第6.4节所述，这种做法低估了真实的任务成功率，因为除记录轨迹外，可能还存在其他可行的执行路径。
为了估计智能体在非受控环境中的实际表现，必须将其部署到在线环境中，并由人类评估者判断智能体是否完成了任务（Zheng 等，2024a；Song 等，2023b；Li 等，2017）。理想情况下，智能体在完成任务时还应预测一个明确的终止动作（end action），以便在生产环境等场景中自主停止执行（例如 Wang 等，2024a）。在文献中，任务成功率也被称为完全匹配（complete match）（例如 Li 等，2020b）。

此外，还存在一些较不常见的任务级指标，通常能对智能体能力提供更细致的评估：

任务进度（Task progress）衡量智能体平均完成任务的程度，即智能体平均距离任务完成还有多远（例如 Sodhi 等，2023；Zhang 等，2024d）。
平均奖励（Average reward）记录智能体在受控环境中各轮次（episodes）所获得的平均奖励（例如 Jia 等，2019）。该指标有助于开发过程中比较不同智能体，但由于不同环境可能定义不同的奖励函数，因此不适合用于跨环境的智能体比较。

7.2 步骤级指标
步骤级指标关注智能体在跨任务中预测动作（步骤）的整体有效性。步骤成功率（Step success rate）是最常见的步骤级指标，用于评估动作预测的准确性（例如 Deng 等，2023）。在文献中，该指标也被称为部分匹配（partial match）（例如 Li 等，2020b）或动作准确率（action accuracy）（例如 Wen 等，2024a）。

每个步骤（动作）都是某条轨迹（即多个动作组成的序列）的一部分，而每条轨迹又对应数据集中的一个任务（数据集包含多个任务）。因此，步骤级指标必须定义如何在轨迹内部以及跨任务之间对步骤得分进行平均——这类似于多分类任务中的指标计算方式，即先在类别内部平均，再跨样本平均（Grandini 等，2020）。目前存在两种自然的平均方法：

宏平均（Macro averaging）：先在每条轨迹内部对步骤得分取平均，再对所有任务的平均值取平均。因此，每个步骤得分的权重为其所在轨迹长度的倒数。
微平均（Micro averaging）：将所有轨迹中的所有步骤得分直接平均，每个步骤得分权重相等，与轨迹长度无关。

在计算机控制领域，宏平均似乎是主流方法，由 Mind2Web（Deng 等，2023）确立，并被后续研究广泛采用（例如 Zheng 等，2024c）。

其他较少使用的步骤级指标包括：动作 F1 分数（例如 Li 等，2024b）、动作召回率（action recall）（例如 Li 和 Riva，2021），或仅评估动作部分是否正确的指标，如针对直接 UI 操作的元素准确率（element accuracy）（例如 Deng 等，2023）。
最后需要指出的是，所有步骤级指标仅适用于离线数据集，因为在受控环境中，奖励信号并不指示单个动作是否正确。

7.3 其他指标

文献中的其他指标衡量的是智能体能力之外的性能指标。Song 等（2023b）通过测量成功执行一条指令所需的 API 调用次数来评估智能体的效率，强调在任务执行过程中尽量减少资源消耗。Zhang 等（2024b）引入了一种安全防护机制，在执行关键操作（例如删除）前请求用户确认，以构建更安全、更可信的智能体。防护率（safeguard rate）用于衡量智能体识别敏感操作并请求用户确认的准确程度。

7.4 讨论

任务成功率衡量的是智能体的有效性能，关注从开始到结束完整完成任务的比例。该指标不同于其他替代指标，例如任务进度（衡量智能体平均完成任务的程度）或步骤成功率（追踪单个动作预测的准确性）。在受控环境中，任务成功率可以被可靠且可复现地测量；但对于离线数据集而言，这一测量更具挑战性。基于严格轨迹匹配的离线任务成功率会低估智能体的真实性能，仅提供了一个性能下界。这一局限性源于：即使智能体采取了另一条可行的执行路径，只要其轨迹与记录轨迹存在任何偏差，整条轨迹就会被判定为错误。例如，完成某项任务可能不仅要求正确填写表单字段，还要求以数据集中所记录的（可能是任意的）确切顺序填写。

由人类评估者参与的在线评估能更准确地衡量真实的任务成功率，因为它仅评估任务的最终结果（Zheng 等，2024a）。然而，这种方法也带来了可复现性方面的挑战：第一，人类评估者容易出现人为错误（Reason，1990）；第二，引入人类评估会带来额外成本；第三，在线评估可能需要在真实系统上运行，可能导致不可逆的后果（例如数据删除）。

尽管存在这些挑战，我们仍建议将任务成功率作为比较智能体在特定基准上性能的主要指标。对于离线数据集，必须明确说明所报告的任务成功率是基于离线评估（轨迹匹配）还是在线评估。若采用在线评估，应详细记录评估流程，以确保可复现性。

8 部署与应用面临的挑战

当前关于计算机控制智能体的研究主要聚焦于提升其在不同领域和基准上的自主能力。然而，将这些智能体部署到生产环境中会带来若干额外挑战。

8.1 技术挑战与考量

生产环境的挑战生产环境指智能体必须能够控制的特定环境，例如某个企业应用程序。因此，具身认知智能体（CCA）必须通过环境学习（见第5.2.2节）或提示工程（见第5.2.3节）来适配该生产环境。基于提示的基础智能体在开箱即用时已展现出令人印象深刻的能力（例如，Zheng 等（2024a）在 Mind2Web（Deng 等，2023）上达到了51.1%的任务成功率），但缺乏一种实用的手段将其性能进一步提升至可投入生产的水平。环境学习技术为此类提升提供了路径，但往往成本过高，依赖大量标注示范或一个受控环境。如何有效地将智能体适配到复杂的生产环境，仍是尚未解决的研究问题。

除了特定环境本身，生产环境还带来其他挑战，例如用户硬件的多样性——包括不同的屏幕分辨率或多显示器设置，以及设备配置的差异，如各种安卓发行版、主屏幕布局或配色方案（Lee 等，2024）。此外，生产环境是非平稳的（non-stationary）：应用程序会持续更新（Humble 和 Farley，2011），其界面和行为不断变化。一个可用于生产的智能体必须能够应对这些持续变化的情境，无论是通过自主适应，还是通过开发者持续更新实现。

速度、成本与可用性当前研究主要关注智能体的自主能力，但实际部署必须仔细权衡预测速度、运行成本和可用性。更快的预测速度意味着更低的延迟和更好的用户体验。成本可能来自调用第三方基础模型的 API 费用，或本地部署智能体所需的硬件开销。以当前（2024年12月）的 API 定价估算，完成单个任务的成本约为 0.28 美元，假设使用最先进的基础模型，处理 765 个图像 token（高分辨率截图）、600 个文本 token（智能体提示与用户指令）、1000 个文本输出 token（推理与动作预测），以及平均每任务 7 个动作（如 Deng 等，2023 所述）。此外，依赖外部资源会引入可用性风险，例如需要稳定的互联网连接和第三方服务的可靠运行。

隐私尽管大语言模型（LLMs）可在本地设备运行（Tuggener 等，2024），但许多最先进的模型（如 GPT-4V，OpenAI 等，2024）仅通过 API 提供。依赖外部资源（如专有基础模型）的智能体会引发隐私问题。个人和企业可能不愿将屏幕截图通过互联网发送至外部服务器。这带来了与其他基础模型应用类似的隐私挑战（Neel 和 Chang，2024）。然而，智能体场景存在一个关键区别：传统的用户数据共享教育已不足够，因为当智能体在用户设备上自主运行时，用户无法完全控制其对信息的访问。例如，在财务报告场景中，智能体可能无意中打开、观察并传输敏感财务文件，而未经用户明确同意，甚至违反合同或法律要求。

8.2 安全考量

尽管自主智能体开发取得进展，当前系统仍缺乏安全部署于现实世界所需的可靠性与全面性。智能体无意或错误操作的后果因领域而异，轻则造成轻微干扰（如播放错误的音乐视频），重则导致严重问题（如未经授权泄露机密医疗记录）。在生产环境中，必须在智能体能力、自动化收益与错误操作风险之间取得平衡。这种平衡可通过调整设计参数实现：即智能体的自主程度及其部署范围。

降低自动化程度大多数 CCA 研究聚焦于完全自动化，即智能体全权控制，且假设无人类介入。为降低错误操作风险，智能体可采用条件自动化（conditional automation）：智能体主导控制，但在关键操作时将控制权交还用户。例如，Li 等（2024e）让其智能体识别关键操作（如支付验证）。然而，此方法仍存在智能体遗漏关键操作的风险——在支付等场景中，可通过要求使用智能体无法访问的独立支付系统进行外部验证来规避。相比之下，Wang 等（2023）允许智能体主动发起对话以获取信息。更进一步的限制是采用部分自动化（partial automation）：人类始终主导，仅在执行简单子任务时临时交由智能体处理。例如，浏览器为常见网页表单提供自动填充功能，可视为一种非指令驱动的部分计算机控制智能体。更严格的限制是智能体仅提供辅助：人类全程控制，智能体仅提供建议。这种设计常见于非指令驱动的计算机控制智能体，如 GitHub Copilot¹⁰ 或 Grammarly¹¹。

限制生产环境的范围为降低错误操作风险，可对生产环境的作用范围加以约束。针对特定用例，可通过移除高风险动作（如禁用关键删除操作）来限制动作空间 A。例如，可限制智能体的文件系统权限。此外，可在执行前自动验证动作的可行性与安全性，为智能体设置“护栏”（guardrails）（Liang，2023）。同样，可缩减状态空间 S以简化运行环境。例如，限制网页智能体仅访问预定义的一组精选网站，而非整个互联网；在个人电脑场景中，可将操作范围限定于特定应用程序（如办公套件中的软件）。这些约束不仅限制了智能体的潜在行为，也简化了环境学习过程，并有助于更准确地评估智能体能力。

8.3 通用能力强的智能体的适配

领先的人工智能公司（如 Anthropic）已开始进军 CCA 领域，提供开箱即用的通用能力解决方案（Hu 等，2024）。然而，我们认为，真正通用的、基于指令的自主 CCA——即在大多数领域中具备与高技能人类计算机用户相当的能力、鲁棒性与安全性——在未来两年内不太可能出现，原因包括当前技术状态的局限，例如缺乏大规模且具有挑战性的训练数据。

这一预测凸显了一个关键研究问题：如何有效将通用能力强的智能体适配到特定组织用例？例如，要让智能体能够自主、安全、可靠地控制某个独特的业务应用程序，目前仍需全面定制。这涉及将预训练的通用智能体针对特定用例进行精细调适，需要大量面向任务的训练经验。

对于纯文本智能体，将通用模型适配到组织需求与专业知识的平行挑战，目前主要通过检索增强生成（RAG）策略应对：即通过将基础模型与内部文档对齐，为其注入特定用例知识（Lewis 等，2020）。类似地，计算机控制智能体的适配重点应在于：如何从一个通用预训练智能体出发，实现稳健的、组织特定的适配——然而，目前尚无类似 RAG 的成熟流程或框架。

9 结论

9.1 总结

我们为基于指令的计算机控制领域提供了一份结构化指南，并在此过程中对86个具体的具身认知智能体（CCAs）进行了分类，作为其设计中特定方面的实例。因此，我们提出了一种简洁而有效的分类体系，首次实现了对该领域整体的全面综述。在我们的分析过程中，我们识别出若干开放的研究挑战，并对未来该领域的关键发展方向做出了预测，总结如下：

开放的研究挑战

高效的环境学习（Efficient environment learning）：在第5.2.2节中，我们讨论了使智能体能够适配特定环境的策略，例如强化学习、行为克隆和长期记忆。正如我们在第8节中所指出的，每种方法在现实场景中实现高效且安全的智能体部署时，都面临关键性挑战亟待克服。

规划（Planning）：如第5.2.3节所述，尽管显式规划在理论上对实现目标导向行为至关重要，但在当前的计算机控制智能体（CCAs）中仍发展不足。这一差距构成了未来研究的重要方向。

最优交互接口（Optimal interaction interfaces）：在第4节中，我们考察了观测空间与动作空间，提出了若干开放问题，例如：多模态（视觉+文本）观测是否具有实质性优势，以及通过代码执行动作是否真正优于其他交互方式。

对未来发展的预测

与人类对齐的观测与动作（Human-aligned observations and actions）：我们预计，图像形式的屏幕表示将因其更贴近人类感知方式（以及为人类设计的图形用户界面）而成为主流的观测形式。此外，我们预见这将推动基于屏幕坐标的鼠标/触摸动作成为CCAs的主流通用交互方式，因为这类动作直接在像素空间中操作。

标记集提示（set-of-mark prompting）的临时角色：我们预计，随着基础模型的进步，对“标记集提示”这类用于动作定位的依赖将逐渐减弱。未来通过训练模型直接预测坐标位置，很可能使此类方法变得过时。

关于评估与基准测试的建议

我们还考察了用于训练和评估CCAs的33个现有数据集与基准。当前的评估实践往往依赖自定义基准或对已有基准的子集进行测试，这阻碍了研究间的可复现性与横向比较。为此，我们倡导：

标准化的评估实践：学界应优先在完整、可复现的既有基准上评估智能体的所有任务，以实现更稳健的跨研究性能比较。在不久的将来，需要更复杂且标准化的基准，从而为该领域带来类似ImageNet时刻（Krizhevsky 等，2012）的突破。
以任务成功率作为衡量智能体能力的核心指标：任务成功率量化了智能体解决任务的有效性。必须区分离线任务成功率与在线任务成功率——前者代表智能体性能的下界，后者反映其真实能力。尽管辅助指标可提供关于智能体行为其他方面的洞见，但它们应被视为补充性指标，并与任务成功率结合使用，以确保智能体之间的可比性。

9.2 讨论

CCAs无论作为学术研究课题，还是作为新兴的工业产品，都具有高度相关性。自动化计算机控制任务为人工智能的进步提供了一个超越传统模拟环境的挑战性基准，并有望实现大量现实世界计算机任务的自动化。基础模型的兴起显著提升了此类智能体的能力，吸引了越来越多研究者的关注。

我们预计，从2027年起，将出现可被正式称为“个人AI助手”的CCAs，它们直接运行于用户的设备上。在开发这类智能体时，可通过监控用户自身与设备的交互来挖掘海量的个性化训练经验。这将带来隐私方面的重大挑战，同时也催生出服务于隐私保护的分布式学习机制和可信的商业模式。由此，CCA领域不仅可能对科技产业本身产生变革性影响，也可能重塑相关监管框架。

原文链接：https://www.arxiv.org/pdf/2501.16150v1

特别声明：以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布，本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.