刚刚，OpenAI首个L3级智能体深夜觉醒！AI自己玩电脑引爆全网，AGI一触即发|agi|计算机|人机交互|命令提示符|openai

分享至

新智元报道

编辑：编辑部 HYZ‍

【新智元导读】OpenAI首个智能体Operator，刚刚震撼登场。从此，AI打破API局限，可以像人类一样直接和界面交互了。L3级智能体达成，AGI路上一大障碍又被扫清！

刚刚，OpenAI首个智能体终于亮相了！

奥特曼带领团队毫无预警地开启半小时「Operator」在线直播，首次揭秘能像人类一样使用电脑的AI。

Sam Altman，Yash Kumar，Casey Chu，Reiichiro Nakano

演示中，AI智能体不仅可以精准理解指令，还能自主完成各类任务。

而它的独特之处在于，可以直接与网页交互——打字、点击、滚动，几乎一气呵成。

比如，自动填写繁琐的在线表单、上网购物、创建表情包、处理重复性浏览器任务等等。

「Operator」背后操盘手便是Computer-Using Agent （CUA），打破了特定编程接口的局限，像人类一场直接与GUI进行交互。

从此，通往AGI道路上的又一大瓶颈被扫除。智能体可以在数字世界中四处行动了！

OpenAI官博将此称为，AI与数字世界的「通用界面」。

「Operator」究竟有多厉害？

在多个测试环境中，CUA成功率令人瞠目：在OSWORLD上完成计算机使用任务成功率高达38.1%，比此前SOTA提升近16%；在WebArena上完成浏览器使用任务成功率达到58.1%，性能飙升22%。

不过与人类（72.4%和78.2%）相较之下，AI的能力还是有所差距。

在WebVoyager上，CUA更是达到了惊人的87%。

好消息是，「Operator」终于上线。而坏消息是，目前只有Pro美国用户才能体验。

为了弥补这一遗憾，奥特曼提前剧透了，o3-mini直接在ChatGPT中「开源」，Plus用户会有更多用量。

随着Operator的正式发布，总裁Greg也再一次强调，「2025年，就是智能体之年」。

话不多说，直接上演示。

AI接管PC订餐，但直播小翻车

我们‍可以在Operator中选择OpenTable，让它订一张今晚7点在Beretta的两人位子。

可以看到，输入查询后，Operator会实例化指令，创建在云端运行的浏览器操作。

随后，Operator转到了搜索Beretta的URL。非常令人惊喜的是，OpenTable默认的地址是弗吉尼亚，但它自动更正为旧金山。

再比如，我们做饭需要鸡蛋、菠菜、鸡大腿和辣椒。在纸上写下这些食材后，就可以直接传给Operator，同时告诉他我们偏好的商店是Gus。

在这种情况下，Operator很快就根据GPT-4o的视觉功能理解了图中的意思，还明白Gus商店是哪里。

接下来，就像OpenTable一样，它实例化了一个浏览器，然后开始了购买环节。

如果在以前，如果我们想用智能体执行类似操作，就必须确定特定网站有API，并且这个API有一切所需的功能，然而，大部分网站都是没有API的。

而CUA通过教模型使用我们日常使用的基本界面，它就解锁了一系列以前无法访问的软件！

可以看到，在执行操作的过程中，Operator进行了一些内在独白，总结出了思维链。

而且每执行一个操作还会给电脑截个图，这样它就知道自己的操作对电脑有什么影响。

接下来，它点击搜索框，输入菠菜。这种采取行动、抓取屏幕截图、创建子计划的循环会一直持续，直到任务完成。

当然，人类也可以随时接过Operator的控制权，这就保证了用户随时可以控制Operator，并向它发出指令。

有趣的是，人类接管之后，Operator并不能看到我们在接管模式下做的事——这就保证了私密性。

接下来，OpenAI的研究者给它下达了一项新任务：用StubHub买四张本周末旧金山勇士队比赛、票价500以下的门票。

非常真实的是，Operator小翻车了一下。

那就让它试试，买明早圣玛丽澳网公开赛的门票。Operator立马打开引擎，展开搜索。

随后，研究者们让Operator定10个中等披萨，指令发出后，它会主动向人类确认任务。

而在实际购买时，也会需要人类登录自己的账号，才能完成下一步操作。

问题来了：如果Operator买错东西、订错酒店了怎么办呢？不用担心，这种情况下，人类需要随时确认，它才能继续行动。

如果它遇到诈骗网站，对此还会有一个提示注入监视器，功能跟防病毒软件一样，可以观察和监视它的操作，遇到可疑之处立马停止。

L3级AGI达成，开启下一场人机交互革命

‍支撑Operator的核心技术Computer-Using Agent（CUA），被训练用于与图形用户界面GUI（在屏幕上看到的按钮、菜单和文本框）进行交互，就像人类一样。这就让它具有了很高的灵活性，无需依赖操作系统或特定网页API，从而能够完成各种数字化任务。

‍更进一步的，通过将高级GUI感知与结构化问题解决能力结合在一起，CUA还可以将任务分解为多步骤计划，并在遇到挑战时自适应纠错。

CUA能够如此之强，是因为建立在OpenAI多年关键研究——多模态、推理和安全性领域基础之上。通过融合GPT-4o的视觉能力、深度推理技术和创新的强化学习方法，研发团队攻克了AI操作计算机的诸多技术难关。

其最大的突破在于，实现了通用界面。

传统AI往往被局限于专门的API，而CUA可以像人类一样操作任何软件工具。这意味着，AI能适应几乎所有的计算机环境，解决AI长期以来难以触及的「长尾」数字使用场景。

还记得此前，彭博爆料的OpenAI内部AGI路线图吗？Operator的出世，意味着L3级智能体时代正式开启！

下一个目标，OpenAI还将扩展智能体的动作空间。接下来几周/几个月，我们还将会看到更多的智能体。

此外，他们还计划开放API接口，让开发者能够基于CUA构建自定义的计算机智能体。

OpenAI下场智能体Operator，或许将成为下一场人机交互革命的起点。

计算机使用智能体：AI与数字世界交互的通用界面

那么，CUA具体是如何工作的？

技术报告：https://cdn.openai.com/operator_system_card.pdf

如下是它的工作原理图，CUA会通过处理「原始像素数据」来理解屏幕上显示的内容，并使用虚拟鼠标和键盘完成操作。

它可以执行多步骤任务、应对错误并适应意外变化。

基于这些优势，使得CUA能够在各种数字环境中发挥作用，比如填写表单和浏览网站，而无需依赖特定的API。

根据用户的指令，CUA通过一个结合感知、推理和行动的迭代循环来运行：

感知：从计算机截取的屏幕快照被添加到模型的上下文中，为其提供当前计算机状态的视觉参考。
推理：CUA使用思维链（CoT）推断下一步操作，同时考虑当前和过去的屏幕快照及其执行的操作。这种内在独白通过让模型评估观察内容、跟踪中间步骤并进行动态调整来提高任务完成的效果。
行动：CUA执行操作——点击、滚动或输入——直到判断任务完成或需要用户输入。尽管它可以自动完成大多数步骤，但对于敏感操作（如输入登录信息或处理验证码表单），CUA会寻求用户确认。

刷新SOTA，但与人类差一大截

CUA在计算机使用和浏览器使用的基准测试中，通过使用统一的屏幕、鼠标和键盘界面，刷新了SOTA。

浏览器使用

WebArena和WebVoyager专为评估网页浏览AI智能体，在浏览器中完成现实任务的性能而设计。

WebArena利用自托管的开源离线网站，模拟现实任务场景，例如电子商务、在线商店内容管理系统（CMS）以及社交论坛平台等。
WebVoyager则测试模型在亚马逊、GitHub和Google地图等在线实时网站上的任务完成表现。

在这些基准测试中，CUA通过同一个通用界面设定了新标准。该界面将浏览器屏幕视为「像素」，并通过鼠标和键盘执行操作。

如前所述，在基于网页的任务中，CUA在WebArena上的任务成功率为58.1%，而在WebVoyager上达到了惊人的87%。

尽管CUA在任务相对简单的WebVoyager上表现出较高的成功率，但在更复杂的基准测试（如WebArena）中，CUA仍需进一步优化，以缩小与人类表现之间的差距。

比如，让CUA去「剑桥词典的Plus专区，不用登录，随便做一个语法小测试，然后告诉我你考了多少分」。

只见AI一步一步找到测验，并开始刷题，最终得到满分12分。

在屏幕左侧，可以清晰看到它每一步操作过程，其中「不断截图」（New screenshot）是支撑它完成任务的重要步骤。

生活中购物常会遇到退款问题，CUA也能算清楚。

给定一个完整的指令——我应该能从2023年2月取消的订单中得到多少退款，包括运费？

CUA就会进入购物平台one-stop-shop，打开「我的订单」，并通过日期、订单号查找所有可用的信息，然后计算得出退款总金额：406.53。

再比如，破解一个复杂推理题——6阶多格骨牌（Polyominoes）组合方式，以及在所有形状中，只有2行形状有多少种。

CUA同样是通过屏幕截图，计算找到最终解：「在35种不同的6阶多格骨牌组合中，有12种形状只有两行。」

对于程序员们来说非常使用的场景——更新项目的许可，CUA也能做到。

计算机使用

OSWorld是一个评估模型控制完整操作系统（如Ubuntu、Windows和macOS）能力的基准测试。

在该基准测试中，CUA成功率达到了38.1%。

此外，研究人员还观察到测试时的性能扩展（test-time scaling），即当允许更多操作步骤时，CUA性能会进一步提升。

下图比较了CUA和之前SOTA模型在不同最大允许步骤下的表现。

人类在该基准测试中的表现为72.4%，因此CUA仍有显著的改进空间。

以下可视化示例展示了CUA如何完成多种标准化OSWorld任务。

假设你想要下载Python在线课程，目前已经成功下载Week 0课程讲义，剩下几周PDF文件的下载，完全可以交给AI去做。

这类重复性任务，AI最擅长不过了，而且你还会有大把时间去做别的事。

相比之下，在图片压缩的任务中，CUA似乎非常「纠结」。

在调节图片质量时，不仅重复了数次「设为60%」，期间还一度出现了160%、360%这种奇怪的设定。

不过，在一番波折之后，CUA最终还是完成了任务。

CUA并非100%可靠

目前，OpenAI通过Operator研究预览版提供了CUA——一种可以上网为你执行任务的智能体。

前面已经提到了，Operator目前也只面向美国的Pro用户开放，入口是operator.chatgpt.com。

与任何早期技术一样，CUA还只是一个初出茅庐的AI，并不能在所有场景中稳定运行。

不过，它已经在多种情况下证明了其实用性，OpenAI希望将这种可靠性拓展到更多任务场景。

在下表中，他们展示了CUA在Operator中根据提示词完成少量试验的表现，以说明其已知的优势和劣势。

其中，OpenAI明显指出：对于不同的网站和用户界面，CUA可靠性会有所不同。

CUA在执行简单重复的UI工作比较擅长。

即便是同一个任务，CUA的可靠性可能会根据描述任务的方式而改变。在这种情况下，可以通过以下方式进行改进：

提供具体的时间细节（比如，用「上午9点到12点」而不是笼统地说「从上午9点开始的全天」）
提供关于应该使用哪些UI界面元素来查找结果的提示（比如，提示「查看筛选器部分」）

简言之，越具体，AI更容易理解你的意图。

当CUA需要与它在训练过程中很少接触过的UI界面进行交互时，它很难准确判断如何恰当地使用这些UI。

这通常会导致大量的试错过程和低效的操作。

此外，CUA在文本编辑方面并不精确。它经常在处理过程中犯很多错误，或者提供带有错误的输出。

所以，能自己用电脑的AI，对人类足够安全吗？

OpenAI是这么说的：在开发CUA时，他们将安全性作为了首要任务，以应对「智能体访问数字世界所带来的挑战」。比如，它会拒绝「购买武器」之类的有害任务。

而在以后，通过收集的真实世界反馈，他们还会不断改进安全措施。

参考资料：

https://x.com/sama/status/1882488842290356462

特别声明：以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布，本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.