网易首页 > 网易号 > 正文 申请入驻

刚刚,OpenAI首个L3级智能体深夜觉醒!AI自己玩电脑引爆全网,AGI一触即发

0
分享至


新智元报道

编辑:编辑部 HYZ‍

【新智元导读】OpenAI首个智能体Operator,刚刚震撼登场。从此,AI打破API局限,可以像人类一样直接和界面交互了。L3级智能体达成,AGI路上一大障碍又被扫清!

刚刚,OpenAI首个智能体终于亮相了!

奥特曼带领团队毫无预警地开启半小时「Operator」在线直播,首次揭秘能像人类一样使用电脑的AI。


Sam Altman,Yash Kumar,Casey Chu,Reiichiro Nakano

演示中,AI智能体不仅可以精准理解指令,还能自主完成各类任务。

而它的独特之处在于,可以直接与网页交互——打字、点击、滚动,几乎一气呵成。

比如,自动填写繁琐的在线表单、上网购物、创建表情包、处理重复性浏览器任务等等。


「Operator」背后操盘手便是Computer-Using Agent (CUA),打破了特定编程接口的局限,像人类一场直接与GUI进行交互。

从此,通往AGI道路上的又一大瓶颈被扫除。智能体可以在数字世界中四处行动了!

OpenAI官博将此称为,AI与数字世界的「通用界面」。


「Operator」究竟有多厉害?

在多个测试环境中,CUA成功率令人瞠目:在OSWORLD上完成计算机使用任务成功率高达38.1%,比此前SOTA提升近16%;在WebArena上完成浏览器使用任务成功率达到58.1%,性能飙升22%。

不过与人类(72.4%和78.2%)相较之下,AI的能力还是有所差距。

在WebVoyager上,CUA更是达到了惊人的87%。


好消息是,「Operator」终于上线。而坏消息是,目前只有Pro美国用户才能体验。

为了弥补这一遗憾,奥特曼提前剧透了,o3-mini直接在ChatGPT中「开源」,Plus用户会有更多用量。


随着Operator的正式发布,总裁Greg也再一次强调,「2025年,就是智能体之年」。


话不多说,直接上演示。

AI接管PC订餐,但直播小翻车

我们‍可以在Operator中选择OpenTable,让它订一张今晚7点在Beretta的两人位子。

可以看到,输入查询后,Operator会实例化指令,创建在云端运行的浏览器操作。


随后,Operator转到了搜索Beretta的URL。非常令人惊喜的是,OpenTable默认的地址是弗吉尼亚,但它自动更正为旧金山。

再比如,我们做饭需要鸡蛋、菠菜、鸡大腿和辣椒。在纸上写下这些食材后,就可以直接传给Operator,同时告诉他我们偏好的商店是Gus。


在这种情况下,Operator很快就根据GPT-4o的视觉功能理解了图中的意思,还明白Gus商店是哪里。

接下来,就像OpenTable一样,它实例化了一个浏览器,然后开始了购买环节。


如果在以前,如果我们想用智能体执行类似操作,就必须确定特定网站有API,并且这个API有一切所需的功能,然而,大部分网站都是没有API的。

而CUA通过教模型使用我们日常使用的基本界面,它就解锁了一系列以前无法访问的软件!

可以看到,在执行操作的过程中,Operator进行了一些内在独白,总结出了思维链。

而且每执行一个操作还会给电脑截个图,这样它就知道自己的操作对电脑有什么影响。

接下来,它点击搜索框,输入菠菜。这种采取行动、抓取屏幕截图、创建子计划的循环会一直持续,直到任务完成。


当然,人类也可以随时接过Operator的控制权,这就保证了用户随时可以控制Operator,并向它发出指令。

有趣的是,人类接管之后,Operator并不能看到我们在接管模式下做的事——这就保证了私密性。

接下来,OpenAI的研究者给它下达了一项新任务:用StubHub买四张本周末旧金山勇士队比赛、票价500以下的门票。

非常真实的是,Operator小翻车了一下。

那就让它试试,买明早圣玛丽澳网公开赛的门票。Operator立马打开引擎,展开搜索。


随后,研究者们让Operator定10个中等披萨,指令发出后,它会主动向人类确认任务。


而在实际购买时,也会需要人类登录自己的账号,才能完成下一步操作。

问题来了:如果Operator买错东西、订错酒店了怎么办呢?不用担心,这种情况下,人类需要随时确认,它才能继续行动。

如果它遇到诈骗网站,对此还会有一个提示注入监视器,功能跟防病毒软件一样,可以观察和监视它的操作,遇到可疑之处立马停止。

L3级AGI达成,开启下一场人机交互革命

‍支撑Operator的核心技术Computer-Using Agent(CUA), 被训练用于与图形用户界面GUI(在屏幕上看到的按钮、菜单和文本框)进行交互,就像人类一样。 这就让它具有了很高的灵活性,无需依赖操作系统或特定网页API,从而能够完成各种数字化任务。

‍更进一步的,通过将高级GUI感知与结构化问题解决能力结合在一起,CUA还可以将任务分解为多步骤计划,并在遇到挑战时自适应纠错。

CUA能够如此之强,是因为建立在OpenAI多年关键研究——多模态、推理和安全性领域基础之上。通过融合GPT-4o的视觉能力、深度推理技术和创新的强化学习方法,研发团队攻克了AI操作计算机的诸多技术难关。

其最大的突破在于,实现了通用界面。

传统AI往往被局限于专门的API,而CUA可以像人类一样操作任何软件工具。这意味着,AI能适应几乎所有的计算机环境,解决AI长期以来难以触及的「长尾」数字使用场景。

还记得此前,彭博爆料的OpenAI内部AGI路线图吗?Operator的出世,意味着L3级智能体时代正式开启!


下一个目标,OpenAI还将扩展智能体的动作空间。接下来几周/几个月,我们还将会看到更多的智能体。


此外,他们还计划开放API接口,让开发者能够基于CUA构建自定义的计算机智能体。

OpenAI下场智能体Operator,或许将成为下一场人机交互革命的起点。

计算机使用智能体:AI与数字世界交互的通用界面

那么,CUA具体是如何工作的?


技术报告:https://cdn.openai.com/operator_system_card.pdf

如下是它的工作原理图,CUA会通过处理「原始像素数据」来理解屏幕上显示的内容,并使用虚拟鼠标和键盘完成操作。

它可以执行多步骤任务、应对错误并适应意外变化。


基于这些优势,使得CUA能够在各种数字环境中发挥作用,比如填写表单和浏览网站,而无需依赖特定的API。

根据用户的指令,CUA通过一个结合感知、推理和行动的迭代循环来运行:

  1. 感知:从计算机截取的屏幕快照被添加到模型的上下文中,为其提供当前计算机状态的视觉参考。

  2. 推理:CUA使用思维链(CoT)推断下一步操作,同时考虑当前和过去的屏幕快照及其执行的操作。这种内在独白通过让模型评估观察内容、跟踪中间步骤并进行动态调整来提高任务完成的效果。

  3. 行动:CUA执行操作——点击、滚动或输入——直到判断任务完成或需要用户输入。尽管它可以自动完成大多数步骤,但对于敏感操作(如输入登录信息或处理验证码表单),CUA会寻求用户确认。

刷新SOTA,但与人类差一大截

CUA在计算机使用和浏览器使用的基准测试中,通过使用统一的屏幕、鼠标和键盘界面,刷新了SOTA。


浏览器使用

WebArena和WebVoyager专为评估网页浏览AI智能体,在浏览器中完成现实任务的性能而设计。

  • WebArena利用自托管的开源离线网站,模拟现实任务场景,例如电子商务、在线商店内容管理系统(CMS)以及社交论坛平台等。

  • WebVoyager则测试模型在亚马逊、GitHub和Google地图等在线实时网站上的任务完成表现。

在这些基准测试中,CUA通过同一个通用界面设定了新标准。该界面将浏览器屏幕视为「像素」,并通过鼠标和键盘执行操作。

如前所述,在基于网页的任务中,CUA在WebArena上的任务成功率为58.1%,而在WebVoyager上达到了惊人的87%。

尽管CUA在任务相对简单的WebVoyager上表现出较高的成功率,但在更复杂的基准测试(如WebArena)中,CUA仍需进一步优化,以缩小与人类表现之间的差距。

比如,让CUA去「剑桥词典的Plus专区,不用登录,随便做一个语法小测试,然后告诉我你考了多少分」。

只见AI一步一步找到测验,并开始刷题,最终得到满分12分。

在屏幕左侧,可以清晰看到它每一步操作过程,其中「不断截图」(New screenshot)是支撑它完成任务的重要步骤。

生活中购物常会遇到退款问题,CUA也能算清楚。

给定一个完整的指令——我应该能从2023年2月取消的订单中得到多少退款,包括运费?

CUA就会进入购物平台one-stop-shop,打开「我的订单」,并通过日期、订单号查找所有可用的信息,然后计算得出退款总金额:406.53。

再比如,破解一个复杂推理题——6阶多格骨牌(Polyominoes)组合方式,以及在所有形状中,只有2行形状有多少种。

CUA同样是通过屏幕截图,计算找到最终解:「在35种不同的6阶多格骨牌组合中,有12种形状只有两行。」

对于程序员们来说非常使用的场景——更新项目的许可,CUA也能做到。


计算机使用

OSWorld是一个评估模型控制完整操作系统(如Ubuntu、Windows和macOS)能力的基准测试。

在该基准测试中,CUA成功率达到了38.1%。

此外,研究人员还观察到测试时的性能扩展(test-time scaling),即当允许更多操作步骤时,CUA性能会进一步提升。

下图比较了CUA和之前SOTA模型在不同最大允许步骤下的表现。

人类在该基准测试中的表现为72.4%,因此CUA仍有显著的改进空间。


以下可视化示例展示了CUA如何完成多种标准化OSWorld任务。

假设你想要下载Python在线课程,目前已经成功下载Week 0课程讲义,剩下几周PDF文件的下载,完全可以交给AI去做。

这类重复性任务,AI最擅长不过了,而且你还会有大把时间去做别的事。

相比之下,在图片压缩的任务中,CUA似乎非常「纠结」。

在调节图片质量时,不仅重复了数次「设为60%」,期间还一度出现了160%、360%这种奇怪的设定。

不过,在一番波折之后,CUA最终还是完成了任务。


CUA并非100%可靠

目前,OpenAI通过Operator研究预览版提供了CUA——一种可以上网为你执行任务的智能体。

前面已经提到了,Operator目前也只面向美国的Pro用户开放,入口是operator.chatgpt.com。


与任何早期技术一样,CUA还只是一个初出茅庐的AI,并不能在所有场景中稳定运行。

不过,它已经在多种情况下证明了其实用性,OpenAI希望将这种可靠性拓展到更多任务场景。

在下表中,他们展示了CUA在Operator中根据提示词完成少量试验的表现,以说明其已知的优势和劣势。

其中,OpenAI明显指出:对于不同的网站和用户界面,CUA可靠性会有所不同。


CUA在执行简单重复的UI工作比较擅长。

即便是同一个任务,CUA的可靠性可能会根据描述任务的方式而改变。在这种情况下,可以通过以下方式进行改进:

  • 提供具体的时间细节(比如,用「上午9点到12点」而不是笼统地说「从上午9点开始的全天」)

  • 提供关于应该使用哪些UI界面元素来查找结果的提示(比如,提示「查看筛选器部分」)

简言之,越具体,AI更容易理解你的意图。


当CUA需要与它在训练过程中很少接触过的UI界面进行交互时,它很难准确判断如何恰当地使用这些UI。

这通常会导致大量的试错过程和低效的操作。

此外,CUA在文本编辑方面并不精确。它经常在处理过程中犯很多错误,或者提供带有错误的输出。


所以,能自己用电脑的AI,对人类足够安全吗?

OpenAI是这么说的:在开发CUA时,他们将安全性作为了首要任务,以应对「智能体访问数字世界所带来的挑战」。比如,它会拒绝「购买武器」之类的有害任务。

而在以后,通过收集的真实世界反馈,他们还会不断改进安全措施。

参考资料:

https://x.com/sama/status/1882488842290356462

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
猛降 4~6℃!山东今天迎新一轮冷空气

猛降 4~6℃!山东今天迎新一轮冷空气

鲁中晨报
2025-02-16 07:31:04
50岁金喜善亮相引整容风波,网友:韩国女星不整容就不会演戏了?

50岁金喜善亮相引整容风波,网友:韩国女星不整容就不会演戏了?

娱不咸
2025-02-15 18:40:03
蔡康永发文要求大家别忘了想念,否则大S的身影就会变淡消失!

蔡康永发文要求大家别忘了想念,否则大S的身影就会变淡消失!

毒舌嬷嬷
2025-02-16 11:09:30
乌军空袭巴赫穆特指挥部!击毁托克马克俄军弹药库

乌军空袭巴赫穆特指挥部!击毁托克马克俄军弹药库

项鹏飞
2025-02-15 20:12:01
马卡:贝林厄姆将被禁赛4到12场或2场,关键在于其言论如何定性

马卡:贝林厄姆将被禁赛4到12场或2场,关键在于其言论如何定性

直播吧
2025-02-16 09:50:32
坏了!亚历山大MVP即将消失,约基奇有望5年4个MVP,粉碎詹皇神迹

坏了!亚历山大MVP即将消失,约基奇有望5年4个MVP,粉碎詹皇神迹

嘴炮体坛
2025-02-15 17:42:07
A股历史再次重演!将让两亿散户睡不着觉了,明天周一剧本已定

A股历史再次重演!将让两亿散户睡不着觉了,明天周一剧本已定

一丛深色花儿
2025-02-16 00:04:58
江西省政协原主席唐一军被公诉,曾任司法部部长、辽宁省省长

江西省政协原主席唐一军被公诉,曾任司法部部长、辽宁省省长

齐鲁壹点
2025-02-16 11:44:10
他每天吃3-4公斤黄油汉堡,8个月后,胆固醇直接“渗”出手指!!

他每天吃3-4公斤黄油汉堡,8个月后,胆固醇直接“渗”出手指!!

英国那些事儿
2025-02-10 23:23:24
南京某设计院中层牛马大“造反”

南京某设计院中层牛马大“造反”

黯泉
2025-02-14 21:21:51
难道他真是天才!莫耶斯5轮4胜1平,埃弗顿狂冲13分甩降级区13分

难道他真是天才!莫耶斯5轮4胜1平,埃弗顿狂冲13分甩降级区13分

直播吧
2025-02-16 09:08:22
五问百色教师被控性侵案:涉嫌何罪如何量刑?学校是否担责?

五问百色教师被控性侵案:涉嫌何罪如何量刑?学校是否担责?

南方都市报
2025-02-16 07:59:09
江西金溪之眼老房主现状堪忧,表情木讷,步履蹒跚,儿媳已搬离

江西金溪之眼老房主现状堪忧,表情木讷,步履蹒跚,儿媳已搬离

魔都姐姐杂谈
2025-02-13 11:02:02
大S第二场追思会曝光,众人说笑现场温馨,网友替俩孩子打抱不平

大S第二场追思会曝光,众人说笑现场温馨,网友替俩孩子打抱不平

联友忆史
2025-02-15 13:39:18
看一下1999年的一台台式电脑的配置和价格!

看一下1999年的一台台式电脑的配置和价格!

去非
2025-02-16 08:15:09
U20亚洲杯积分榜:中国、澳大利亚同积6分携手出线,末轮直接过招争头名

U20亚洲杯积分榜:中国、澳大利亚同积6分携手出线,末轮直接过招争头名

雷速体育
2025-02-15 21:41:49
日本研究发现:血压升高,都是“晚饭”吃得不对?晚饭“2不吃”

日本研究发现:血压升高,都是“晚饭”吃得不对?晚饭“2不吃”

爆炸营养彭鑫蕊
2025-02-14 16:29:39
马斯克已经杀疯了!但有两个部门碰不得:动了必死无疑

马斯克已经杀疯了!但有两个部门碰不得:动了必死无疑

大国纪录
2025-02-16 00:05:06
针对“假音响”事件 沃尔沃给出官方申明

针对“假音响”事件 沃尔沃给出官方申明

太平洋汽车
2025-02-13 17:09:38
退休后才发现,在这三个方面对儿女太好,是一场灾难

退休后才发现,在这三个方面对儿女太好,是一场灾难

情感创作者无笔
2025-02-06 08:36:16
2025-02-16 12:32:49
新智元 incentive-icons
新智元
AI产业主平台领航智能+时代
12168文章数 65893关注度
往期回顾 全部

科技要闻

确认!微信接入DeepSeek R1,灰度测试中

头条要闻

媒体:泽连斯基180度大转弯 绝口不提"不与普京谈判法"

头条要闻

媒体:泽连斯基180度大转弯 绝口不提"不与普京谈判法"

体育要闻

NBA这盘棋终于要下成了

娱乐要闻

突发讣告!20岁清华女歌手去世

财经要闻

万斯“开炮”,欧洲人目瞪口呆

汽车要闻

全新设计还配大尺寸中控屏 艾瑞泽8 PRO官图曝光

态度原创

亲子
游戏
本地
时尚
艺术

亲子要闻

辽宁夫妻借20万试管生下儿子,妻子却号啕大哭:早知道不生

传Xbox掌机将有自家的AI图像增强技术

本地新闻

非遗版春节|古法滚元宵,年味儿一口爆浆

钟楚曦、倪妮、刘亦菲美爆了!“姐”系天花板还得看她们

艺术要闻

故宫珍藏的墨迹《十七帖》,比拓本更精良,这才是地道的魏晋写法

无障碍浏览 进入关怀版