网易首页 > 网易号 > 正文 申请入驻

刚刚,OpenAI首个L3级智能体深夜觉醒!AI自己玩电脑引爆全网,AGI一触即发

0
分享至

新智元报道

编辑:编辑部 HYZ‍

【新智元导读】OpenAI首个智能体Operator,刚刚震撼登场。从此,AI打破API局限,可以像人类一样直接和界面交互了。L3级智能体达成,AGI路上一大障碍又被扫清!

刚刚,OpenAI首个智能体终于亮相了!

奥特曼带领团队毫无预警地开启半小时「Operator」在线直播,首次揭秘能像人类一样使用电脑的AI。

Sam Altman,Yash Kumar,Casey Chu,Reiichiro Nakano

演示中,AI智能体不仅可以精准理解指令,还能自主完成各类任务。

而它的独特之处在于,可以直接与网页交互——打字、点击、滚动,几乎一气呵成。

比如,自动填写繁琐的在线表单、上网购物、创建表情包、处理重复性浏览器任务等等。

「Operator」背后操盘手便是Computer-Using Agent (CUA),打破了特定编程接口的局限,像人类一场直接与GUI进行交互。

从此,通往AGI道路上的又一大瓶颈被扫除。智能体可以在数字世界中四处行动了!

OpenAI官博将此称为,AI与数字世界的「通用界面」。

「Operator」究竟有多厉害?

在多个测试环境中,CUA成功率令人瞠目:在OSWORLD上完成计算机使用任务成功率高达38.1%,比此前SOTA提升近16%;在WebArena上完成浏览器使用任务成功率达到58.1%,性能飙升22%。

不过与人类(72.4%和78.2%)相较之下,AI的能力还是有所差距。

在WebVoyager上,CUA更是达到了惊人的87%。

好消息是,「Operator」终于上线。而坏消息是,目前只有Pro美国用户才能体验。

为了弥补这一遗憾,奥特曼提前剧透了,o3-mini直接在ChatGPT中「开源」,Plus用户会有更多用量。

随着Operator的正式发布,总裁Greg也再一次强调,「2025年,就是智能体之年」。

话不多说,直接上演示。

AI接管PC订餐,但直播小翻车

我们‍可以在Operator中选择OpenTable,让它订一张今晚7点在Beretta的两人位子。

可以看到,输入查询后,Operator会实例化指令,创建在云端运行的浏览器操作。

随后,Operator转到了搜索Beretta的URL。非常令人惊喜的是,OpenTable默认的地址是弗吉尼亚,但它自动更正为旧金山。

再比如,我们做饭需要鸡蛋、菠菜、鸡大腿和辣椒。在纸上写下这些食材后,就可以直接传给Operator,同时告诉他我们偏好的商店是Gus。

在这种情况下,Operator很快就根据GPT-4o的视觉功能理解了图中的意思,还明白Gus商店是哪里。

接下来,就像OpenTable一样,它实例化了一个浏览器,然后开始了购买环节。

如果在以前,如果我们想用智能体执行类似操作,就必须确定特定网站有API,并且这个API有一切所需的功能,然而,大部分网站都是没有API的。

而CUA通过教模型使用我们日常使用的基本界面,它就解锁了一系列以前无法访问的软件!

可以看到,在执行操作的过程中,Operator进行了一些内在独白,总结出了思维链。

而且每执行一个操作还会给电脑截个图,这样它就知道自己的操作对电脑有什么影响。

接下来,它点击搜索框,输入菠菜。这种采取行动、抓取屏幕截图、创建子计划的循环会一直持续,直到任务完成。

当然,人类也可以随时接过Operator的控制权,这就保证了用户随时可以控制Operator,并向它发出指令。

有趣的是,人类接管之后,Operator并不能看到我们在接管模式下做的事——这就保证了私密性。

接下来,OpenAI的研究者给它下达了一项新任务:用StubHub买四张本周末旧金山勇士队比赛、票价500以下的门票。

非常真实的是,Operator小翻车了一下。

那就让它试试,买明早圣玛丽澳网公开赛的门票。Operator立马打开引擎,展开搜索。

随后,研究者们让Operator定10个中等披萨,指令发出后,它会主动向人类确认任务。

而在实际购买时,也会需要人类登录自己的账号,才能完成下一步操作。

问题来了:如果Operator买错东西、订错酒店了怎么办呢?不用担心,这种情况下,人类需要随时确认,它才能继续行动。

如果它遇到诈骗网站,对此还会有一个提示注入监视器,功能跟防病毒软件一样,可以观察和监视它的操作,遇到可疑之处立马停止。

L3级AGI达成,开启下一场人机交互革命

‍支撑Operator的核心技术Computer-Using Agent(CUA), 被训练用于与图形用户界面GUI(在屏幕上看到的按钮、菜单和文本框)进行交互,就像人类一样。 这就让它具有了很高的灵活性,无需依赖操作系统或特定网页API,从而能够完成各种数字化任务。

‍更进一步的,通过将高级GUI感知与结构化问题解决能力结合在一起,CUA还可以将任务分解为多步骤计划,并在遇到挑战时自适应纠错。

CUA能够如此之强,是因为建立在OpenAI多年关键研究——多模态、推理和安全性领域基础之上。通过融合GPT-4o的视觉能力、深度推理技术和创新的强化学习方法,研发团队攻克了AI操作计算机的诸多技术难关。

其最大的突破在于,实现了通用界面。

传统AI往往被局限于专门的API,而CUA可以像人类一样操作任何软件工具。这意味着,AI能适应几乎所有的计算机环境,解决AI长期以来难以触及的「长尾」数字使用场景。

还记得此前,彭博爆料的OpenAI内部AGI路线图吗?Operator的出世,意味着L3级智能体时代正式开启!

下一个目标,OpenAI还将扩展智能体的动作空间。接下来几周/几个月,我们还将会看到更多的智能体。

此外,他们还计划开放API接口,让开发者能够基于CUA构建自定义的计算机智能体。

OpenAI下场智能体Operator,或许将成为下一场人机交互革命的起点。

计算机使用智能体:AI与数字世界交互的通用界面

那么,CUA具体是如何工作的?

技术报告:https://cdn.openai.com/operator_system_card.pdf

如下是它的工作原理图,CUA会通过处理「原始像素数据」来理解屏幕上显示的内容,并使用虚拟鼠标和键盘完成操作。

它可以执行多步骤任务、应对错误并适应意外变化。

基于这些优势,使得CUA能够在各种数字环境中发挥作用,比如填写表单和浏览网站,而无需依赖特定的API。

根据用户的指令,CUA通过一个结合感知、推理和行动的迭代循环来运行:

  1. 感知:从计算机截取的屏幕快照被添加到模型的上下文中,为其提供当前计算机状态的视觉参考。

  2. 推理:CUA使用思维链(CoT)推断下一步操作,同时考虑当前和过去的屏幕快照及其执行的操作。这种内在独白通过让模型评估观察内容、跟踪中间步骤并进行动态调整来提高任务完成的效果。

  3. 行动:CUA执行操作——点击、滚动或输入——直到判断任务完成或需要用户输入。尽管它可以自动完成大多数步骤,但对于敏感操作(如输入登录信息或处理验证码表单),CUA会寻求用户确认。

刷新SOTA,但与人类差一大截

CUA在计算机使用和浏览器使用的基准测试中,通过使用统一的屏幕、鼠标和键盘界面,刷新了SOTA。

浏览器使用

WebArena和WebVoyager专为评估网页浏览AI智能体,在浏览器中完成现实任务的性能而设计。

  • WebArena利用自托管的开源离线网站,模拟现实任务场景,例如电子商务、在线商店内容管理系统(CMS)以及社交论坛平台等。

  • WebVoyager则测试模型在亚马逊、GitHub和Google地图等在线实时网站上的任务完成表现。

在这些基准测试中,CUA通过同一个通用界面设定了新标准。该界面将浏览器屏幕视为「像素」,并通过鼠标和键盘执行操作。

如前所述,在基于网页的任务中,CUA在WebArena上的任务成功率为58.1%,而在WebVoyager上达到了惊人的87%。

尽管CUA在任务相对简单的WebVoyager上表现出较高的成功率,但在更复杂的基准测试(如WebArena)中,CUA仍需进一步优化,以缩小与人类表现之间的差距。

比如,让CUA去「剑桥词典的Plus专区,不用登录,随便做一个语法小测试,然后告诉我你考了多少分」。

只见AI一步一步找到测验,并开始刷题,最终得到满分12分。

在屏幕左侧,可以清晰看到它每一步操作过程,其中「不断截图」(New screenshot)是支撑它完成任务的重要步骤。

生活中购物常会遇到退款问题,CUA也能算清楚。

给定一个完整的指令——我应该能从2023年2月取消的订单中得到多少退款,包括运费?

CUA就会进入购物平台one-stop-shop,打开「我的订单」,并通过日期、订单号查找所有可用的信息,然后计算得出退款总金额:406.53。

再比如,破解一个复杂推理题——6阶多格骨牌(Polyominoes)组合方式,以及在所有形状中,只有2行形状有多少种。

CUA同样是通过屏幕截图,计算找到最终解:「在35种不同的6阶多格骨牌组合中,有12种形状只有两行。」

对于程序员们来说非常使用的场景——更新项目的许可,CUA也能做到。


计算机使用

OSWorld是一个评估模型控制完整操作系统(如Ubuntu、Windows和macOS)能力的基准测试。

在该基准测试中,CUA成功率达到了38.1%。

此外,研究人员还观察到测试时的性能扩展(test-time scaling),即当允许更多操作步骤时,CUA性能会进一步提升。

下图比较了CUA和之前SOTA模型在不同最大允许步骤下的表现。

人类在该基准测试中的表现为72.4%,因此CUA仍有显著的改进空间。

以下可视化示例展示了CUA如何完成多种标准化OSWorld任务。

假设你想要下载Python在线课程,目前已经成功下载Week 0课程讲义,剩下几周PDF文件的下载,完全可以交给AI去做。

这类重复性任务,AI最擅长不过了,而且你还会有大把时间去做别的事。

相比之下,在图片压缩的任务中,CUA似乎非常「纠结」。

在调节图片质量时,不仅重复了数次「设为60%」,期间还一度出现了160%、360%这种奇怪的设定。

不过,在一番波折之后,CUA最终还是完成了任务。


CUA并非100%可靠

目前,OpenAI通过Operator研究预览版提供了CUA——一种可以上网为你执行任务的智能体。

前面已经提到了,Operator目前也只面向美国的Pro用户开放,入口是operator.chatgpt.com。

与任何早期技术一样,CUA还只是一个初出茅庐的AI,并不能在所有场景中稳定运行。

不过,它已经在多种情况下证明了其实用性,OpenAI希望将这种可靠性拓展到更多任务场景。

在下表中,他们展示了CUA在Operator中根据提示词完成少量试验的表现,以说明其已知的优势和劣势。

其中,OpenAI明显指出:对于不同的网站和用户界面,CUA可靠性会有所不同。

CUA在执行简单重复的UI工作比较擅长。

即便是同一个任务,CUA的可靠性可能会根据描述任务的方式而改变。在这种情况下,可以通过以下方式进行改进:

  • 提供具体的时间细节(比如,用「上午9点到12点」而不是笼统地说「从上午9点开始的全天」)

  • 提供关于应该使用哪些UI界面元素来查找结果的提示(比如,提示「查看筛选器部分」)

简言之,越具体,AI更容易理解你的意图。

当CUA需要与它在训练过程中很少接触过的UI界面进行交互时,它很难准确判断如何恰当地使用这些UI。

这通常会导致大量的试错过程和低效的操作。

此外,CUA在文本编辑方面并不精确。它经常在处理过程中犯很多错误,或者提供带有错误的输出。

所以,能自己用电脑的AI,对人类足够安全吗?

OpenAI是这么说的:在开发CUA时,他们将安全性作为了首要任务,以应对「智能体访问数字世界所带来的挑战」。比如,它会拒绝「购买武器」之类的有害任务。

而在以后,通过收集的真实世界反馈,他们还会不断改进安全措施。

参考资料:

https://x.com/sama/status/1882488842290356462

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
疯狂!狂轰59+10+5,场均31.8分+历史得分王,竟然打不了NBA

疯狂!狂轰59+10+5,场均31.8分+历史得分王,竟然打不了NBA

球童无忌
2026-03-26 11:10:26
热到25.8℃!别急,成都天气又要变

热到25.8℃!别急,成都天气又要变

掌上金牛
2026-03-26 19:19:29
二百多名军官被枪毙、撤职、处分,长津湖战役中失职的志愿军88师

二百多名军官被枪毙、撤职、处分,长津湖战役中失职的志愿军88师

云霄纪史观
2026-03-25 12:16:14
克什米尔,印度与巴基斯坦为何争夺八十年?

克什米尔,印度与巴基斯坦为何争夺八十年?

地图帝
2026-03-25 09:17:39
丧心病狂!河南14岁少年被虐死案:死时穿纸尿裤,胃里空无一物

丧心病狂!河南14岁少年被虐死案:死时穿纸尿裤,胃里空无一物

春日在捕月
2026-03-25 01:00:23
20年后再看《亮剑》:军事上漏洞百出,政治上莫名其妙

20年后再看《亮剑》:军事上漏洞百出,政治上莫名其妙

明月清风阁
2026-03-25 14:50:09
感谢监管,为量化戴上紧箍咒,散户终见曙光

感谢监管,为量化戴上紧箍咒,散户终见曙光

风风顺
2026-03-26 10:28:39
重磅实锤!瓜帅即将告别曼城,下一站彻底跳出英超

重磅实锤!瓜帅即将告别曼城,下一站彻底跳出英超

澜归序
2026-03-26 06:02:38
马英九亲自下场后,蓝营大佬集体回应,台媒体人:罪在马英九

马英九亲自下场后,蓝营大佬集体回应,台媒体人:罪在马英九

DS北风
2026-03-25 18:50:17
神笔警探林宇辉再绘“梅姨”老年画像:她年龄增大,精神也受折磨,面貌应该变化很大

神笔警探林宇辉再绘“梅姨”老年画像:她年龄增大,精神也受折磨,面貌应该变化很大

极目新闻
2026-03-26 11:14:21
跌光2500亿!泡泡玛特,股价崩塌

跌光2500亿!泡泡玛特,股价崩塌

财经锐眼
2026-03-26 18:54:18
张雪峰心源性猝死多严重,那个最快护士就有多“牛逼”(张雪峰的惯用词)

张雪峰心源性猝死多严重,那个最快护士就有多“牛逼”(张雪峰的惯用词)

天山箴言录
2026-03-26 16:45:50
外媒:40%的消费者希望中国品牌汽车进入美国市场

外媒:40%的消费者希望中国品牌汽车进入美国市场

环球网资讯
2026-03-24 13:45:12
震惊!聊天框打出“飞机”,华为是民航客机,苹果是螺旋桨小飞机

震惊!聊天框打出“飞机”,华为是民航客机,苹果是螺旋桨小飞机

火山詩话
2026-03-26 09:43:22
初中和高中一对比,你会发现:初中成绩好,高中掉队的概率真不小

初中和高中一对比,你会发现:初中成绩好,高中掉队的概率真不小

好爸育儿
2026-03-26 15:45:14
破防!马英九专访20分钟紧急叫停,“失智疑云”背后藏着更大棋局

破防!马英九专访20分钟紧急叫停,“失智疑云”背后藏着更大棋局

戗词夺理
2026-03-26 11:13:50
台积电突然断供?直接甩出“稀土”,外媒:这才是真正的杀手锏!

台积电突然断供?直接甩出“稀土”,外媒:这才是真正的杀手锏!

瑛派儿老黄
2026-03-24 18:56:06
0.028%!无罪判决率跌至谷底,为何国际水平是我们的35倍?

0.028%!无罪判决率跌至谷底,为何国际水平是我们的35倍?

深析古今
2026-03-25 01:10:47
以色列打不动了想停火,伊朗说不:47年的账,今天得算清

以色列打不动了想停火,伊朗说不:47年的账,今天得算清

阿伧说事
2026-03-26 03:58:41
追悼会前,张雪峰婚姻状况被扒,现任身份不一般,恐影响遗产分配

追悼会前,张雪峰婚姻状况被扒,现任身份不一般,恐影响遗产分配

喜欢历史的阿繁
2026-03-26 14:40:54
2026-03-26 21:39:00
新智元 incentive-icons
新智元
AI产业主平台领航智能+时代
14821文章数 66721关注度
往期回顾 全部

科技要闻

Meta高管狂分百亿期权,700名员工却下岗

头条要闻

美国总统特朗普公开宣布访华行程 外交部回应

头条要闻

美国总统特朗普公开宣布访华行程 外交部回应

体育要闻

申京努力了,然而杜兰特啊

娱乐要闻

刘晓庆妹妹发声!称姐姐受身边人挑拨

财经要闻

油价"驯服"特朗普?一到100美元就TACO

汽车要闻

一汽奥迪A6L e-tron开启预售 CLTC最大续航815km

态度原创

游戏
家居
数码
房产
公开课

开冲!PS会员4月离库名单公布:独立神作进入倒计时

家居要闻

傍海而居 静观蝴蝶海

数码要闻

iQOO Z11x发布:LCD党的护眼神机 1499元起

房产要闻

突发,三亚又有大批征迁补偿方案出炉!

公开课

李玫瑾:为什么性格比能力更重要?

无障碍浏览 进入关怀版