谷歌团队实现AI通过观看视频自学电脑操作|编程|计算机|应用程序|电脑软件|命令提示符

分享至

来源：市场资讯

（来源：科技行者）

这项由谷歌云AI研究团队联合谷歌DeepMind和俄亥俄州立大学共同完成的研究发表于2025年10月，研究论文编号为arXiv:2510.04673v1。研究团队包括来自谷歌云AI研究的Song Yiwen、Goyal Palash、Palangi Hamid和Pfister Tomas，来自谷歌DeepMind的Riva Oriana，以及来自俄亥俄州立大学的Song Chan Hee和Su Yu等多位研究者。

现代生活中，我们每天都在使用各种电脑软件——从简单的浏览器到复杂的图像编辑工具。每当学习新软件时，很多人的第一反应就是去YouTube上搜索教程视频。那么，如果让AI也能像人类一样通过观看这些教程视频来学习使用电脑，会是什么样的场景呢？谷歌的研究团队就实现了这个看似科幻的想法。

他们开发的系统名为"Watch & Learn"（简称W&L），就像一个非常聪明的学生，能够通过观看网络上的教程视频，自动学会如何操作各种软件。这个系统不需要人工标注，也不需要复杂的编程指令，仅仅通过"看"视频就能理解人类是如何点击鼠标、输入文字、滚动页面的，然后学会自己做同样的操作。

想象一下这样的场景：当你需要AI帮你完成某个软件操作时，它不再需要预先编程好的指令，而是能够回忆起曾经"看过"的相关教程视频，然后模仿人类的操作步骤来完成任务。这就是W&L系统的核心能力——它将网络上海量的人类演示视频转化为AI可以理解和执行的操作序列。

研究团队从网络上收集了超过53000个高质量的操作轨迹，覆盖了从办公软件到编程工具，从图像设计到音频制作等69种不同的应用程序。这些轨迹就像是AI的"操作手册"，记录着人类在使用这些软件时的每一个点击、每一次输入、每一个滚动动作。

**一、传统方法的困境与W&L的创新思路**

在W&L系统出现之前，让AI学会使用电脑软件就像教一个完全不懂电脑的人学会所有软件操作一样困难。传统的方法主要有三种思路，但都存在明显的问题。

第一种方法类似于"闭门造车"。研究人员试图通过复杂的多步骤流程来分析视频：先用多模态大语言模型理解视频内容，再用界面元素检测器找到按钮和菜单，最后用转换解析器将这些信息组合成操作指令。这个过程就像让一个翻译者先看视频，再让一个侦探找线索，最后让一个编剧写剧本，每个环节都可能出错。即使是表现最好的MONDAY系统，其动作标注准确率也只有大约70%，这意味着AI执行的操作中有接近三分之一是错误的。

第二种方法像是"盲目探索"。让AI在真实的软件环境中随机尝试各种操作，然后事后为这些操作编写任务说明。这种方法虽然能够规模化，但就像让一个人闭着眼睛学开车一样，产生的演示往往过于简单，与人类的真实使用意图相去甚远，而且需要大量的在线计算资源。

第三种是"混合方法"，试图结合前两种思路的优势。比如Explorer系统会先生成任务建议，然后在线执行和优化这些任务。但这类方法仍然依赖多模态大语言模型进行动作识别，因此也面临着类似的准确性问题。

W&L系统的创新在于完全改变了思考问题的角度。与其试图直接理解视频中"发生了什么"，不如专注于一个更简单的问题：给定两个连续的屏幕截图，中间发生了什么操作？这就像是在玩一个"找不同"的游戏，但目标不是找出两张图片的差异，而是推断出导致这种差异的操作。

这种方法被称为"逆向动力学建模"。在机器人领域，这个概念已经相当成熟——通过观察机器人从一个状态转换到另一个状态，来推断中间执行了什么动作。W&L将这个思路巧妙地应用到计算机操作学习上。相比于传统的复杂多步骤流程，这种方法更容易学习，避免了手工制作的启发式规则，并且在不同应用程序间具有更好的泛化能力。

研究团队通过大量实验验证了这种方法的有效性。他们构建了一个包含50万个状态转换数据的大规模语料库，每个样本都包含时间t的观察结果、执行的动作和时间t+1的观察结果。在这个语料库上训练的逆向动力学模型能够直接从视觉状态转换映射到结构化的操作指令，准确率远超传统方法。

**二、W&L系统的核心技术架构**

W&L系统的工作原理可以比作一个非常精密的"电脑操作侦探"。这个侦探有三个主要的侦查技能，能够从连续的屏幕截图中准确推断出用户执行了什么操作。

整个系统的架构采用视觉优先的设计理念。就像人类使用电脑时主要依赖视觉来感知界面一样，W&L只观察屏幕像素，然后输出结构化的用户操作。这种设计最大化了通用性和可扩展性，避免了对应用程序特定API或噪声UI表示的脆弱依赖。

逆向动力学模型是整个系统的大脑。这个模型接收两个连续的屏幕观察结果作为输入，输出导致状态转换的具体操作。模型采用SigLIP-2视觉编码器作为backbone，后接四个Transformer层进行特征处理。在这个视觉backbone之上，系统设计了三个专门的预测头部来处理不同类型的操作参数。

第一个预测头部是动作分类器，它是一个分类预测器，能够识别五种支持的基本操作：点击、滚动、输入、等待和移动鼠标。这就像是教AI认识人类使用电脑的基本"词汇表"。

第二个预测头部是坐标预测器，专门处理基于位置的操作。对于点击、移动和输入等需要指定位置的操作，模型会预测标准化的坐标位置。有趣的是，研究团队将坐标预测转换为分类问题而非回归问题——将坐标离散化为0到1000的整数范围。这种设计在训练过程中被证明更加稳定。

第三个预测头部是语言生成器，负责处理文本输入操作。当用户需要输入文字时，模型使用一个GPT-2小型解码器来生成相应的字符串输入。这个组件连接到Transformer backbone，能够生成各种类型的文本内容。

对于滚动和等待操作，由于它们不需要额外的参数，模型只需要预测它们的发生即可。

为了训练这个逆向动力学模型，研究团队构建了一个大规模的状态转换语料库。他们开发了一个自动化数据生成流水线，能够与实时网页进行交互并记录状态转换。受到WebDreamer等工作的启发，他们从2025年3月的Common Crawl索引中随机选择入口点，启动浏览会话，执行点击、输入文本、滚动和移动光标等操作序列。

这个数据收集过程并非完全随机。动作策略经过精心设计，更倾向于采样常见的交互操作（如点击），同时确保覆盖频率较低的操作。通过这个过程，研究团队收集了大约50万个合成转换数据。为了进一步丰富训练数据，他们还整合了来自Mind2Web数据集的13.2万个人工标注转换数据，最终形成了超过63万个状态-动作-状态三元组的训练语料库。

模型训练采用多任务目标函数：动作类别预测使用交叉熵损失，离散化坐标预测也使用交叉熵损失，文本生成则使用语言建模损失。整个训练过程端到端地在63万个转换语料库上进行。

**三、从视频到可执行轨迹的转换流程**

一旦逆向动力学模型训练完成，W&L系统就能够将原始的教程视频转换为可执行的UI轨迹。这个过程就像是将一部无声电影转换为详细的剧本，每个动作都被精确记录和标注。

视频检索是整个流程的第一步。研究团队构建了一个专门的检索框架，能够从YouTube等大型视频平台搜索和下载相关的教程视频。检索策略根据不同的应用场景而有所差异。

对于推理时的检索，当系统接收到任务描述和目标应用程序时，会形成自然语言搜索查询。为了优化查询效果，系统会使用Gemini 2.5 Flash模型，结合任务指令和初始屏幕截图，生成更加具体和精准的搜索查询。比如，一个任务指令"你能在VLC中将视频的最大音量提高到原始音量的200%吗？"会被转换为搜索查询"vlc increase max volume"。然后使用YouTube搜索API检索排名前15的视频。

对于训练时的检索，为了构建广泛的训练数据集，研究团队精心策划了一个包含69个应用程序的列表，涵盖生产力工具、编程环境、设计软件、屏幕编辑、音频制作、系统工具和科学数据分析等七个主要领域。对于每个应用程序，他们使用Gemini 2.5 Flash生成合理的任务查询，然后在视频平台上搜索相应的教程视频。

视频过滤是确保数据质量的关键步骤。并非所有检索到的视频都适用于训练。许多视频包含无关内容，如讲话片段、演示幻灯片或模糊的过渡效果。为了解决这个问题，系统会以每秒1帧的频率采样视频帧，并自动过滤掉非屏幕录制的片段。

研究团队设计了一个巧妙的过滤机制，使用Gemini 2.5 Flash作为视觉分类器来执行这项任务。分类器会为每个视频帧分配类别标签（如清洁的屏幕录制、放大的屏幕录制、讲话画面等）和0.0到1.0之间的质量分数。对于推理时检索，系统只保留通过过滤的前3个视频，以最小化噪声。对于训练数据收集，系统保留所有满足过滤条件的视频。

轨迹标注是整个转换过程的核心环节。经过过滤后，系统将每个视频分割成帧序列{O?, O?, ...}，然后将逆向动力学模型应用于每个连续的帧对(O?, O???)，预测中间动作a?，最终组装成完整的轨迹τ = (O?, a?, O?, a?, ..., O?, a?, O???)。通过这种方式，原始的人类演示视频被转换为结构化的、可执行的轨迹，无需任何手动标注。

这个过程的美妙之处在于其自动化程度。传统方法需要大量人工参与来标注视频中的每个操作，而W&L系统能够完全自动地完成这个过程。对于推理时使用，这些轨迹与任务描述对齐，用作示例；对于训练时使用，它们被聚合成大型语料库，用于监督微调。

最终，研究团队通过这个流程生成了超过53000个高质量轨迹，覆盖了七个主要类别的69个应用程序。这些轨迹的分布展现了丰富的多样性：编程相关的视频数量最多（12829个），其次是生产力工具（8691个）、设计软件（7948个）、屏幕编辑（7808个）、科学数据分析（6042个）、音频制作（5206个）和系统工具（4601个）。

**四、双重应用：上下文学习与监督训练的协同效应**

W&L系统提取的轨迹具有独特的双重价值，既可以作为推理时的上下文示例，也可以作为训练时的监督数据。这种设计使得系统能够灵活地与开源模型和通用代理进行集成。

上下文学习的应用体现了AI"临时学习"的能力。当面对新任务时，AI不需要重新训练，而是可以通过观察相关的演示例子来快速适应。为了最大化这种能力的效果，研究团队对轨迹进行了精心的格式化处理。

每个轨迹都被转换为包含观察-动作对的演示，但仅仅展示原始帧和动作可能无法提供足够的信号。为了增强性能，研究团队使用Gemini 2.5 Flash为轨迹中的每个动作生成自然语言推理解释，最终形成（观察，动作，推理）格式的演示。

在实际应用中，系统会将一小组此类演示（通常3-5个）格式化到通用代理模型的输入提示中。在推理时，代理会基于这些示例进行条件化，在预测新任务的下一个动作时能够利用从真实演示中提取的规划和定位先验知识以及应用特定的领域知识，而无需额外训练。

监督微调的应用则体现了AI"深度学习"的能力。研究团队将自动标注的轨迹聚合成大规模训练语料库，每个轨迹表示为状态-动作对的序列，使用标准序列建模目标来优化多模态大语言模型。

他们训练了两个不同的模型族来验证方法的通用性。首先是UI-TARS-1.5，这是一个专门为计算机使用而设计的强大开源视觉-语言-动作模型。这个实验设置测试了视频衍生轨迹是否能够改进已经整合了领域特定先验知识的模型。其次是Qwen 2.5-VL，这是一个最先进的开源权重多模态大语言模型。这个设置评估了数据是否也能够使不是专门为计算机使用而定制的通用多模态模型受益。

这两种应用方式的协同效应特别值得关注。上下文学习提供了快速适应的能力，使得通用模型能够在不重新训练的情况下处理新的应用场景。而监督微调则提供了深层的能力提升，使得专门的模型能够获得更强的基础能力。

实验结果表明，这种双重应用策略展现了数据作为多功能监督信号的价值，能够同时增强专门的计算机使用代理和大型开源多模态大语言模型。这种灵活性是W&L系统的一个重要优势，使其能够适应不同的部署场景和模型架构。

**五、实验验证：OSWorld基准测试的全面评估**

为了验证W&L系统的有效性，研究团队在OSWorld-Verified基准测试上进行了全面的实验评估。OSWorld是目前最具挑战性的计算机使用代理评估基准，它要求代理在真实的桌面和操作系统环境中执行任务，涵盖生产力、编程、设计和系统工具等多个领域。

实验设计覆盖了三类模型架构。通用多模态模型包括Gemini 2.5 Flash、OpenAI o3和Claude 4 Sonnet，这些模型在上下文学习设置下进行测试。代理框架方面，研究团队使用了Jedi，这是OSWorld上最先进的纯视觉代理框架。Jedi将多模态大语言模型规划器（OpenAI o3）与Jedi-7B定位模型相结合，前者输出自然语言动作步骤，后者将这些步骤映射为可执行的UI动作。开源模型方面，研究团队在53125个视频衍生轨迹上对UI-TARS-1.5-7B和Qwen 2.5-VL 7B进行了监督微调。

实验结果展现了W&L系统的显著效果。在上下文学习设置中，所有通用多模态模型都获得了一致的性能提升。Gemini 2.5 Flash的成功率从19.0%提升到22.0%，提升了3.0个百分点。OpenAI o3从21.8%提升到24.3%，提升了2.5个百分点。Claude 4 Sonnet从43.9%提升到45.5%，提升了1.6个百分点。这些结果表明，从网络教程中提取的轨迹为强大的基础模型提供了有用的领域特定先验知识，即使这些模型在推理时也能够利用。

Jedi代理框架的结果同样令人鼓舞。该框架将o3规划器与Jedi定位相结合，W&L轨迹使其性能提升了2.2个百分点，从50.6%提升到52.8%。这表明视频衍生轨迹能够通过提供支持规划和定位的示例来补充结构化规划流水线，丰富其应用特定知识。

在监督微调设置中，开源计算机使用代理获得了更大的性能提升。UI-TARS-7B的性能从27.3%提升到31.1%，提升了3.8个百分点。Qwen 2.5-VL看到了最大的改进，从1.9%跃升到13.0%，提升了11.1个百分点。这个巨大的跳跃是可以预期的，因为Qwen是一个通用多模态模型，最初并未针对计算机使用进行训练，因此从提供了先前缺失的任务特定监督的数据集中获益更多。

为了更深入地理解W&L系统的效果机制，研究团队进行了详细的消融实验。他们比较了三种变体：仅使用连续帧、帧配对预测动作、以及帧配合动作和推理的完整版本。结果显示，添加动作标签比仅使用帧提供了实质性的提升，当包含自然语言推理时获得了进一步的收益。这种模式在所有测试模型中都保持一致，证明了结构化轨迹确实比原始帧提供了更多有效信息。

动作标注准确性对性能的影响也得到了验证。研究团队将他们的专用逆向动力学模型与Gemini 2.5 Flash和基于UI-TARS-7B的TongUI标注流水线在Mind2Web测试集上进行了比较。W&L的逆向动力学模型在所有动作类型上都达到了最强的结果，总体动作准确率达到91.6%，动作类型准确率达到96.4%，大幅超越了其他方法。

这些准确性差异直接转化为下游性能的提升。TongUI尽管共享了相同的提示格式，但依赖的噪声标签在上下文学习和微调中都产生了负面影响。相比之下，W&L的逆向动力学模型衍生标签持续改善了性能，强调了可靠监督对有效动作定位的关键性。

**六、应用领域分析：优势与局限的深度剖析**

通过对OSWorld基准测试结果的详细分析，研究团队深入探讨了W&L系统在不同应用领域的表现特点，这种分析就像是为一个新技术绘制"能力地图"，清晰地展示了它的强项和待改进的领域。

在应用领域的表现分析中，最显著的改进出现在Chrome浏览器、GIMP图像编辑器和VLC媒体播放器等应用上。这些领域的共同特点是在线教程资源丰富，而且操作步骤相对标准化。Chrome浏览器的配置设置、GIMP的图像处理工作流程、VLC的媒体播放参数调整等，都有大量的YouTube教程详细展示操作步骤。这种专门化的程序知识在在线教程中得到了很好的体现，使得W&L系统的流水线能够提取出高质量的轨迹，这些轨迹能够有效地转移到下游代理中。

相比之下，在VS Code和操作系统相关任务上的改进相对较小。这些领域面临的主要挑战是需要大量的文本输入或代码操作，而这些能力不容易通过当前的动作集合来捕获。VS Code中的编程任务往往需要复杂的代码编写和编辑，这超出了简单点击、输入、滚动操作的范围。类似地，操作系统级别的任务可能涉及复杂的系统配置和命令行操作。

Thunderbird电子邮件客户端和LibreOffice应用程序（包括Calc电子表格、Writer文档处理器、Impress演示软件）的改进也相对有限。这些应用面临的挑战有所不同：一方面，高质量教程相对稀缺；另一方面，任务往往涉及精细化交互，如拖拽对象或操作小型界面元素。这些操作对于目前不支持拖放动作的逆向动力学模型来说是具有挑战性的。

数据规模效应的研究为理解W&L系统的学习特点提供了重要见解。研究团队使用不同数量的训练轨迹（10k、25k和完整数据集）训练Qwen 2.5-VL模型，发现性能改进更接近指数级而非线性。成功率从基础模型的1.9%提升到10k轨迹的3.3%，25k轨迹的4.9%，最终完整数据集的13.0%。

这种行为模式的背后原因值得深入思考。研究团队假设这是因为Qwen必须同时从视频衍生轨迹中学习定位和规划能力。在数据有限的情况下，模型难以稳健地获得任何一种能力，导致只有微小的改进。然而，一旦有足够的轨迹可用，Qwen开始有效地将UI状态的定位与连贯的规划模式整合，产生了更显著的收益。这表明进一步扩展高质量轨迹可能会带来更大的好处。

检索质量对上下文学习效果的影响也得到了实验验证。有趣的是，随机检索既不改善也不降低相对于基础模型的性能，这表明虽然精心检索的示例提供了有用的信号，但即使是随机选择的示例也不会引入显著的噪声。这种现象的可能解释是，无论检索质量如何，动作标签本身都保持高度准确，确保模型不会被矛盾的监督所误导。因此，检索质量主要决定了正面效果的强度，但糟糕的检索不会主动损害性能，前提是底层标签仍然正确。

这些分析结果为W&L系统的未来发展指明了方向。在优势领域，系统已经展现了令人鼓舞的能力，特别是在那些有丰富在线教程资源且操作相对标准化的应用中。而在局限性方面，主要的改进空间集中在扩展动作空间（如支持拖放操作）、提高文本处理能力、以及针对教程资源稀缺的应用开发专门的数据收集策略。

**七、技术挑战与未来发展方向**

尽管W&L系统在多个方面取得了突破性进展，但研究团队也坦诚地指出了当前技术的局限性和未来的发展机会。这些挑战就像是技术发展路径上的"路标"，为后续研究指明了方向。

动作空间的扩展是当前面临的首要挑战。W&L的逆向动力学模型目前专注于一组核心的基本动作，包括点击、输入、移动、滚动和等待。然而，现实中的计算机操作远比这些基本动作复杂。拖放操作是一个典型的例子——从文件管理器中拖拽文件到另一个文件夹，或者在图像编辑软件中拖拽图层，这些都是日常计算机使用中的常见操作，但目前的系统还无法处理。

这个限制主要源于训练数据的不足。拖放操作在网络交互数据中相对较少，因为许多网页应用并不广泛使用这种交互方式。而且，拖放操作涉及连续的动作序列（按下鼠标、移动、释放），比单一的点击操作更复杂。为了解决这个问题，未来的工作需要专门收集包含丰富拖放行为的数据，可能需要针对桌面应用而非网页应用进行数据收集。

滚动行为的建模是另一个需要改进的领域。虽然当前的逆向动力学模型能够预测滚动动作，但研究团队发现很难从网络交互中策划大规模、多样化的滚动行为数据集，这限制了模型在这个维度上的鲁棒性。滚动操作看似简单，但实际上包含了丰富的用户意图信息——向下滚动寻找特定信息、快速浏览内容、精确定位到页面特定位置等，这些细微差别需要更精细的建模。

轨迹粒度的优化也是一个重要的发展方向。当前的检索框架在完整任务的粒度级别检索演示，虽然有效，但可能并不总是与代理在执行过程中所需的粒度对齐。有时候，代理可能只需要学习如何完成某个子任务，而不是整个复杂的工作流程。

未来的改进可以探索自动将较短任务合并为更长工作流程的机制，或者将冗长的教程分割为更有针对性的子轨迹。这种细粒度的轨迹构建将使检索更加灵活，轨迹构建更加适应性强，最终提高方法的适应性。研究团队设想可以开发智能的轨迹分割算法，能够识别教程视频中的自然断点，将复杂的工作流程分解为逻辑上连贯的子任务。

文本解码能力的提升是另一个重要的改进方向。在当前的实验中，文本输入动作的准确率虽然不错（78.5%），但仍有提升空间。这个问题的复杂性在于，不同的应用环境对文本输入有不同的要求——有些需要精确的代码输入，有些需要自然语言描述，还有些需要特定格式的数据输入。

强化学习的整合为W&L系统开辟了新的可能性。研究团队计划将视频衍生轨迹用作行为克隆的演示、离线强化学习的重放缓冲区，或者在线训练中奖励建模的先验。这种多层次的强化学习应用可以进一步桥接大规模演示与自适应学习之间的gap，推动计算机使用代理更接近真实世界的部署。

数据质量和多样性的持续改进也是长期发展的重点。虽然W&L已经收集了超过53000个高质量轨迹，但考虑到计算机应用的多样性和复杂性，这个数据规模仍有扩展空间。特别是对于一些专业领域的软件，如科学计算、工程设计、专业音视频制作等，需要收集更多针对性的教程数据。

跨平台和跨操作系统的泛化能力也是未来研究的重要方向。当前的实验主要集中在特定的操作系统环境中，但真实世界的部署需要代理能够在Windows、macOS、Linux等不同平台上无缝工作。不同操作系统的界面设计、交互模式、键盘快捷键等都有差异，这为系统的通用性提出了新的挑战。

**八、技术影响与应用前景**

W&L系统的成功不仅仅是一个技术突破，更像是为人工智能的发展开启了一扇新的大门。这项技术的影响范围远远超出了学术研究的边界，有望在多个实际应用领域产生深远影响。

在软件自动化领域，W&L技术可能彻底改变企业和个人处理重复性计算机任务的方式。传统的软件自动化通常需要专门的编程技能或复杂的配置过程，而W&L系统提供了一种全新的可能性：只需要展示如何执行任务，AI就能学会并自动化执行。这意味着普通用户可以通过录制视频或参考现有教程来训练AI助手处理日常工作，如数据录入、报告生成、文件管理等。

在软件培训和支持领域，这项技术也具有巨大的应用潜力。软件公司通常需要投入大量资源来创建用户手册、培训材料和客户支持系统。W&L系统可以通过分析用户交互视频来自动生成操作指南，或者创建智能的软件助手来实时帮助用户完成复杂操作。这不仅能降低培训成本，还能提供更加个性化和即时的用户支持体验。

对于软件开发和测试行业，W&L技术可能带来新的自动化测试范式。传统的自动化测试需要开发人员编写详细的测试脚本，而基于W&L的系统可能只需要观看人工测试的演示视频就能学会执行相似的测试流程。这种能力对于敏捷开发环境特别有价值，可以大大加速测试自动化的部署和维护。

在无障碍技术领域，W&L系统为创建更智能的辅助技术提供了新思路。通过学习专门的无障碍操作模式，AI可以帮助有特殊需求的用户更好地使用计算机软件。例如，系统可以学习语音控制模式或特殊的键盘导航技巧，然后为需要的用户提供个性化的操作辅助。

教育技术是另一个充满机遇的应用领域。在线教育平台可以利用W&L技术来创建更加智能的教学助手。这些助手不仅能够演示软件操作步骤，还能根据学生的学习进度和困难点提供个性化的指导。对于编程教育、设计课程、数据分析培训等实践性很强的学科，这种技术尤其有价值。

企业知识管理也将从这项技术中受益。许多企业都面临着知识传承的挑战，特别是当经验丰富的员工离职时。W&L系统可以通过分析专家操作视频来"保存"和"传承"宝贵的操作知识，使这些知识能够更容易地传递给新员工或在组织内部分享。

在更宏观的层面上，W&L技术代表了人工智能学习范式的重要转变。传统的AI系统通常需要大量的标注数据和专门的训练过程，而W&L展示了一种更加自然和高效的学习方式——通过观察人类的实际操作来学习。这种"观察学习"的能力使AI系统能够更快地适应新的环境和任务，减少了对专门数据收集和标注的依赖。

这种技术趋势也为人机协作开辟了新的可能性。未来的AI系统可能不再是预先编程的工具，而是能够通过观察和模仿来学习用户偏好和工作习惯的智能伙伴。这种适应性学习能力将使人机交互变得更加自然和高效。

然而，这种技术的广泛应用也带来了新的挑战和考虑。隐私保护是一个重要问题，因为系统需要访问用户的操作行为和屏幕内容。如何在保护用户隐私的同时实现有效的学习，将是未来发展中需要仔细平衡的问题。此外，确保AI系统学到的是正确和安全的操作模式，避免学习和传播错误或有害的行为，也是技术部署中需要考虑的重要方面。

W&L技术的成功也为人工智能研究指明了新的方向。它证明了从互联网上的大规模人类演示中学习的可行性和价值，这为利用网络上丰富的人类行为数据来训练更智能的AI系统提供了新的思路。这种方法不仅适用于计算机操作学习，也可能扩展到其他需要从人类演示中学习的领域。

说到底，W&L系统的真正价值不仅在于其技术创新，更在于它为AI系统的学习和部署提供了一种更加自然、高效和可扩展的方法。通过将网络上丰富的人类知识转化为AI能够理解和执行的指令，这项技术为实现更加智能和有用的AI助手奠定了重要基础。随着技术的进一步发展和完善，我们有理由期待看到更多基于这种观察学习范式的AI应用出现在我们的日常生活和工作中。

Q&A

Q1：Watch & Learn系统是如何通过观看视频学会使用电脑软件的？

A：Watch & Learn系统采用"逆向动力学建模"技术，就像玩"找不同"游戏一样。它观察视频中连续的两个屏幕截图，然后推断出中间执行了什么操作。系统通过分析50万个屏幕状态转换数据进行训练，学会从视觉变化中准确识别点击、输入、滚动等操作，最终将YouTube教程视频自动转换为可执行的操作指令。

Q2：这项技术在实际测试中表现如何，有什么局限性？

A：在OSWorld基准测试中，Watch & Learn系统显著提升了各类AI模型的表现。通用模型如Claude和GPT的成功率提升了1.6-3.0个百分点，开源模型Qwen的成功率从1.9%大幅提升到13.0%。但系统在需要大量文本输入的编程任务和缺乏教程资源的专业软件上表现相对较弱，且目前还不支持拖拽等复杂操作。

Q3：Watch & Learn技术对普通用户有什么实际意义？

A：这项技术为软件自动化开辟了新路径。未来普通用户可能只需录制或展示操作视频，AI就能学会并自动执行重复性任务，如数据录入、文件管理等。它还能革新软件培训，通过分析用户操作自动生成指南或创建智能助手。对企业而言，可以更好地保存和传承专家的操作知识，降低培训成本。

特别声明：以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布，本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.