论文解读｜OS Agents综述：MLLM智能体实现计算设备通用控制|模态|os|大模型|agents

分享至

最近，由Anthropic推出的Computer Use利用基于多language模态大模型的智能体操控电脑完成各种任务，让人们为之兴奋，也带动了学术界与工业界在OS Agents相关领域的研究与发展。浙江大学联合OPPO、零一万物等十个机构共同梳理了OS Agents的发展现状以及未来可能，并形成了一篇综述，旨在推动该领域的持续发展。如下是团队对最新综述《OS Agents: A Survey on MLLM-based Agents for General Computing Device Use》的中文解读，更多细节欢迎访问论文以及开源仓库！

论文题目： OS Agents: A Survey on MLLM-based Agents for General Computing Devices Use 论文链接： https://os-agent-survey.github.io/paper.pdf 仓库链接： https://github.com/OS-Agent-Survey/OS-Agent-Survey 项目主页： https://os-agent-survey.github.io/

一、引言

《钢铁侠》中的贾维斯（J.A.R.V.I.S.）能够帮助托尼·斯塔克控制各种系统并自动完成任务，构建一个像这样的超级AI助手一直是人类长期以来的梦想。我们把这一类实体称为OS Agents，它们能够通过操作系统（OS）提供的环境和接口（如图形用户界面，GUI）在诸如电脑或者手机等计算设备上自动化的完成各类任务。OS Agents有巨大的潜力改善全球数十亿用户的生活，想象一个世界：在线购物、预订差旅等日常活动都可以由这些智能体无缝完成，这将大幅提高人们的生活效率和生产力。过去，诸如Siri、Cortana 和Google Assistant 等AI助手，已经展示了这一潜力。

然而，由于模型能力在过去较为有限，导致这些产品只能完成有限的任务。幸运的是，随着多模态大语言模型的不断发展，如Gemini 、GPT 、Grok 、Yi 和Claude 系列模型（排名根据2024年12月22日更新的Chatbot Arena LLM Leaderboard ），这一领域迎来了新的可能性。(M)LLMs展现出令人瞩目的能力，使得OS Agents能够更好地理解复杂任务并在计算设备上执行。基础模型公司近期在这一领域动作频频，例如最近由Anthropic推出的Computer Use 、由苹果公司推出的Apple Intelligence 、由智谱AI推出的AutoGLM和由Google DeepMind推出的Project Mariner 。例如，Computer Use利用Claude 与用户的计算机直接互动，旨在实现无缝的任务自动化。

与此同时，学术界已经提出了各种方法来构建基于(M)LLM的OS Agents。例如， OS-Atlas 提出一种 GUI 基础模型，通过跨多个平台综合 GUI 操作数据，大幅改进了模型对 GUI 的操作能力，提升OOD任务的表现。而 OS-Copilot 则是一种OS Agents框架，能够使智能体在少监督情况下实现广泛的计算机任务自动化，并展示了其在多种应用中的泛化能力和自我改进能力。

本文对OS Agents进行了全面的综述。首先阐明了OS Agents的基础，探讨了其关键要素，包括环境、观察空间和动作空间，并概述了理解、规划和执行操作等核心能力。接着，我们审视了构建OS Agents的方法，重点关注OS Agents领域特定的基础模型和智能体框架的开发。随后，本文详细回顾了评估协议和基准测试，展示了OS Agents在多种任务中的评估方式。

最后，我们讨论了当前的挑战并指出未来研究的潜在方向，包括安全与隐私、个性化与自我进化。本文旨在梳理OS Agents研究的现状，为学术研究和工业开发提供帮助。为了进一步推动该领域的创新，我们维护了一个开源的 GitHub仓库，包含250+有关OS Agents的论文以及其他相关资源，并且仍在持续更新中，欢迎大家关注。

二、OS Agents基础

2.1 关键要素 (Key Component)

要实现 OS Agents 对计算设备的通用控制，需要通过与操作系统提供的环境、输入和输出接口进行交互来完成目标。为满足这种交互需求，现有的 OS Agents 依赖三个关键要素：

环境（Environment）：智能体操作的系统或平台，例如电脑、手机和浏览器。环境是智能体完成任务的舞台，支持从简单的信息检索到复杂的多步骤操作。
观察空间（Observation Space）：智能体可获取的所有信息范围。这些信息诸如屏幕截图、文本描述或GUI界面结构，是智能体理解环境和任务的基础。例如，网页的 HTML 代码或手机的屏幕截图。
动作空间（Action Space）：智能体与环境交互的动作集合。它定义了可执行的操作，如点击、输入文本、导航操作甚至调用外部工具。这使得智能体能够自动化完成任务并优化工作流。

2.2 核心能力 (Capability)

在OS Agents的这些关键要素后，如何与操作系统正确、有效的交互，这就需要考验OS Agents自身各方面的能力。我们将OS Agents必须掌握的核心能力总结为如下三点：

理解（Understanding）：OS Agents 首先需要理解复杂的操作环境。无论是 HTML 代码、屏幕截图，还是屏幕界面中密集的图标和文本信息，智能体都需要通过理解能力提取关键内容，构建对任务和环境的全面认知。这种理解能力是处理信息检索等任务的前提。
规划（Planning）：在任务执行中，OS Agents 的规划能力至关重要。规划能力要求OS Agents将复杂任务拆解为多个子任务，并制定操作序列来实现目标。同时，它们最好还要能够据环境变化动态调整计划，以适应复杂的操作系统环境，例如动态网页和实时更新的用户屏幕界面。
操作（Grounding）：OS Agents最终需要将规划转化为具体的、可执行的操作，例如点击按钮、输入文本或调用 API。这种将规划“落地”的能力使得它们能够在真实环境中高效完成任务，并实现从文字描述到操作执行的精准转换。

三、OS Agents的构建

3.1 基础模型 (Foundation Model)

要构建能够高效执行任务的 OS Agents ，其核心在于开发适配的基础模型。这些模型不仅需要理解复杂的屏幕界面，还要在多模态场景下执行任务。我们在这部分对基础模型的架构与训练策略做了详细归纳与总结：

架构（Architecture）：我们将主要的模型架构分为四个类别：1、Existing LLMs：直接采用开源的大语言模型架构，将结构化的屏幕界面信息以文本形式输入给LLMs，从而使得模型可以感知环境；2、Existing MLLMs：直接采用开源的多模态大语言模型架构，整合文本和视觉处理能力，提升对GUI的理解能力，减少文本化视觉信息而造成的特征损失；3、 Concatenated MLLMs：由LLM与视觉编码器桥接而成，灵活性更高，可以根据任务需求选择不同的语言模型和视觉模型进行组合；4、Modified MLLMs：对现有 MLLM 架构进行优化调整，以解决特定场景的挑战，如：添加额外模块（高分辨率视觉编码器或图像分割模块等），以更细致地感知和理解屏幕界面细节。

预训练（Pre-training）：预训练为模型构建打下基础，通过海量数据提升对屏幕界面的理解能力。数据源包括公共数据集、合成数据集；预训练任务覆盖屏幕定位（Screen Grounding）、屏幕理解（Screen Understanding）与光学字符识别（OCR）等。

监督微调（Supervised Fine-tuning）：监督微调让模型更贴合 GUI 场景，是提升OS Agents规划能力和执行能力的重要手段。例如，通过记录任务执行轨迹生成训练数据，或利用 HTML 渲染屏幕界面细节，提升模型对不同 GUI 的泛化能力。

强化学习（Reinforcement Learning）：现阶段的强化学习实现了用(M)LLMs作为特征提取到(M)LLM-as-Agent的范式转变，帮助了OS Agents在动态环境中交互，根据奖励反馈，不断优化决策。这种方法不仅提升了智能体的对齐程度，还为视觉和多模态智能体提供了更强的泛化能力与任务适配性。

我们将近期的OS Agents基础模型相关论文总结如下：

OS Agents 除了需要强大的基础模型，还需要搭配上Agent框架来增强感知、规划、记忆和行动能力。这些模块协同工作，使 OS Agents 能够高效应对复杂的任务和环境。以下是我们对OS Agents 框架的四大关键模块的总结归纳：

感知（Perception）：感知作为OS Agents 的“眼睛”，通过输入的多模态数据（如屏幕截图、HTML 文档）观察环境。我们将感知细分为：1、文本感知：将操作系统的状态转化为结构化文本描述，如 DOM 树或 HTML 文件；2、屏幕界面感知：使用视觉编码器对屏幕界面截图进行理解，通过视觉定位（如按钮、菜单）和语义连接（如 HTML 标记）精准识别关键元素。
规划（Planning）：规划作为OS Agents 的“大脑”，负责制定任务的执行策略，可以分为：1、全局规划：一次生成完整计划并执行；2、迭代规划：随着环境变化动态调整计划，使智能体能够适应实时更新的屏幕界面和任务需求。
记忆（Memory）：OS Agents框架的“记忆”部分可以帮助存储任务数据、操作历史和环境状态。记忆分为三个类型：1、内部记忆（Internal Memory）：存储操作历史、屏幕截图、状态数据和动态环境信息，支持任务执行的上下文理解和轨迹优化。例如，借助截图解析屏幕界面布局或根据历史操作生成决策；2、外部记忆（External Memory）：提供长期知识支持，例如通过调用外部工具（如 API）或知识库获取领域背景知识，辅助复杂任务的决策；3、特定记忆（Specific Memory）：聚焦于特定任务的知识和用户需求，例如存储子任务分解方法、用户偏好或屏幕界面交互功能，提供高度针对性的操作支持。此外，我们还总结了多种记忆优化策略。
行动（Action）：我们将OS Agents 的行动范围定义为动作空间，这包含操作系统交互的方式，我们将其细分为三个类别：1、输入操作：输入是 OS Agents 与数字屏幕界面交互的基础，主要包括鼠标操作、触控操作和键盘操作；2、导航操作：使 OS Agents 能够探索和移动于目标平台，获取执行任务所需的信息；3、扩展操作突破了传统屏幕界面交互的限制，为智能体提供更灵活的任务执行能力，例如：代码执行与API 调用。

同时，我们总结了近期有关OS Agents 框架的论文：

四、OS Agents的评估

在 OS Agents 的发展中，科学的评估起到了关键作用，帮助开发者衡量智能体在各种场景中的性能。如下表格包含我们对近期有关OS Agents评估基准论文的总结：

4.1 评估协议 (Evaluation Protocol)

OS Agents评估的核心可总结为两个关键问题：评估过程应如何进行与需要对哪些方面进行评估。下面我们将围绕这两个问题，阐述OS Agents的评估原则和指标。

评估原则（Evaluation Principle）：OS Agents 的评估结合了多维度的技术方法，提供对其能力与局限性的全面洞察，主要分为两种类型：1、客观评估（Objective Evaluation）：通过标准化的数值指标，评估智能体在特定任务中的性能。例如，操作的准确性、任务的成功率以及语义匹配的精准度。这样的评估方法能快速且标准化地衡量智能体的性能；2、主观评估（Subjective Evaluation）：基于人类用户的主观感受，评估智能体的输出质量，包括其相关性、自然性、连贯性和整体效果。越来越多的研究也利用(M)LLM-as-Judge来进行评估，从而提高效率和一致性。
评估指标（Evaluation Metric）：评估指标聚焦于 OS Agents 的理解、规划和操作能力，衡量其在不同任务中的表现。主要包括以下两个方面：1、步骤级指标：评估智能体在每一步操作中的准确性，如任务执行中动作的语义匹配程度、操作准确性等；2、任务级指标：聚焦于整个任务完成情况，包括任务的成功率和完成任务的效率。

4.2 评估基准 (Evaluation Benchmark)

为了全面评估 OS Agents 的性能，研究者开发了多种评估基准，涵盖不同平台、环境设置和任务类别。这些基准测试为衡量智能体的跨平台适应性、动态任务执行能力提供了科学依据。

评估平台（Evaluation Platform）：评估平台构建了集成的评估环境，不同平台具有独特的挑战和评估重点，我们将其主要分为三类：移动平台（Mobile）、桌面平台（Desktop）与网页平台（Web）。
基准设置（Benchmark Setting）：该部分将 OS Agents 的评估环境分为两大类：静态（Static）环境和交互式（Interactive）环境，并进一步将交互式环境细分为模拟（Simulated）环境和真实世界（Real-World）环境。静态环境适用于基础任务的离线评估，而交互式环境（尤其是真实世界环境）更能全面测试OS Agents在复杂动态场景中的实际能力。真实世界环境强调泛化能力和动态适应性，是未来评估的重要方向。
任务（Task）：为了全面评估OS Agents的能力，当前的基准测试整合了各种专业化任务，涵盖从系统级任务（如安装和卸载应用程序）到日常应用任务（如发送电子邮件和在线购物）。主要可以分为以下三类：1、GUI 定位（GUI Grounding）：评估OS Agents将指令转换为屏幕界面操作的能力，即如何在操作系统中与指定的可操作元素交互；2、信息处理（Information Processing）：评估OS Agents高效处理和总结信息的能力，尤其在动态和复杂环境中，从大量数据中提取有用信息；3、智能体任务（Agentic Tasks）：评估OS Agents的核心能力，如规划和执行复杂任务的能力。这类任务为智能体提供目标或指令，要求其在没有显式指导的情况下完成任务。

五、挑战与未来

本部分讨论了 OS Agents 面临的主要挑战及未来发展的方向，我们重点聚焦于安全与隐私（Safety & Privacy）以及个性化与自我进化（Personalization & Self-Evolution）两个方面。

5.1 安全与隐私

安全与隐私是OS Agents开发中必须重视的领域。OS Agents 面临多种攻击方式，包括间接提示注入攻击、恶意弹出窗口和对抗性指令生成，这些威胁可能导致系统执行错误操作或泄露敏感信息。尽管目前已有适用于LLMs的安全框架，但针对OS Agents的防御机制仍显不足。当前研究主要集中于设计专门应对注入攻击和后门攻击等特殊威胁的防御方案，急待开发全面的且可扩展防御框架，以提升 OS Agents 的整体安全性和可靠性。为评估OS Agents在不同场景下的鲁棒性，还引入了一些智能体安全基准测试，用于全面测试和改进系统的安全表现，例如 ST-WebAgentBench 和 MobileSafetyBench 。

5.2 个性化与自我进化

个性化OS Agents需要根据用户偏好不断调整行为和功能。多模态大语言模型正逐步支持理解用户历史记录和动态适应用户需求，OpenAI 的 Memory功能在这一方向上已经取得了一定进展。让智能体通过用户交互和任务执行过程持续学习和优化，从而提升个性化程度和性能。未来将记忆机制扩展到更复杂的形式，如音频、视频、传感器数据等，从而提供更高级的预测能力和决策支持。同时，支持用户数据驱动的自我优化，增强用户体验。

六、总结

多模态大语言模型的发展为OS Agents创造了新的机遇，使得实现先进AI助手的想法更加接近现实。在本综述中，我们旨在概述OS Agents的基础，包括其关键组成部分和能力。此外，我们还回顾了构建OS Agents 的多种方法，特别关注领域特定的基础模型和智能体框架。在评估协议和基准测试中，我们细致分析了各类评估指标，并且将基准测试从环境、设定与任务进行分类。展望未来，我们明确了需要持续研究和关注的挑战，例如安全与隐私、个性化与自我进化等。这些领域是进一步研究的重点。本综述总结了该领域的当前状态，并指出了未来工作的潜在方向，旨在为OS Agents的持续发展贡献力量，并增强其在学术界和工业界的应用价值与实际意义。如有错误，欢迎大家批评指正，也期待各位同行与我们交流讨论！

llustration From IconScout By IconScout Store

-The End-

扫码观看！

本周上新！

“AI技术流”原创投稿计划

TechBeat是由将门创投建立的AI学习社区（

www.techbeat.net

）。社区上线500+期talk视频，3000+篇技术干货文章，方向覆盖CV/NLP/ML/Robotis等；每月定期举办顶会及其他线上交流活动，不定期举办技术人线下聚会交流活动。我们正在努力成为AI人才喜爱的高质量、知识型交流平台，希望为AI人才打造更专业的服务和体验，加速并陪伴其成长。

投稿内容

// 最新技术解读/系统性知识分享 //

// 前沿资讯解说/心得经历讲述 //

投稿须知

稿件需要为原创文章，并标明作者信息。

我们会选择部分在深度技术解析及科研心得方向，对用户启发更大的文章，做原创性内容奖励

投稿方式

发送邮件到

melodybai@thejiangmen.com

或添加工作人员微信（yellowsubbj）投稿，沟通投稿详情；还可以关注“将门创投”公众号，后台回复“投稿”二字，获得投稿说明。

关于我“门”

将门是一家以专注于数智核心科技领域的新型创投机构，也是北京市标杆型孵化器。公司致力于通过连接技术与商业，发掘和培育具有全球影响力的科技创新企业，推动企业创新发展与产业升级。

将门成立于2015年底，创始团队由微软创投在中国的创始团队原班人马构建而成，曾为微软优选和深度孵化了126家创新的技术型创业公司。

如果您是技术领域的初创企业，不仅想获得投资，还希望获得一系列持续性、有价值的投后服务，欢迎发送或者推荐项目给我“门”:

bp@thejiangmen.com

点击右上角，把文章分享到朋友圈

特别声明：以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布，本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.