网易首页 > 网易号 > 正文 申请入驻

OpenAI首个智能体Operator大测评,你也能拥有24小时私人管家!

0
分享至

新智元报道

编辑:泽正 英智

【新智元导读】今天发布的Operator无疑是AI圈最大的亮点,本文为大家带来了关于Operator的全面评测。这款AI智能体能够自动处理一系列任务,像是演唱会购票、家政服务预订、AI新闻查找等。

演唱会抢票终于不用自己蹲守了,公司订餐也可以直接「无脑托管」,这就是OpenAI今天发布的Operator。

顾名思义,Operator就是能帮你端到端处理任务的AI智能体。

比较有趣的是,OpenAI针对Operator新开了一个网页operator.chatgpt.com,而不是像之前发布的功能都直接统一内置在ChatGPT中。

Operator的页面与ChatGPT大致相似,只是输入框的提示词从「我能帮您什么吗?」变为了「我能帮您做什么吗?」

显然Operator多了个「做」字,而就是这一字之差,便已揭示了两者的本质性区别。

Operator深度测评

这里展示了一些Operator在OpenAI的合作伙伴网站上能为您执行的推荐任务。比如,不用半小时就能用鸡肉做好的晚餐食谱。

当前,Operator的功能还比较有限,但我们相信它会快速优化。不妨想想,你每天在电脑上做的那些重复任务,说不定一年之后,大部分都不用你亲自动手了。

先来看看Operator能做哪些事情,并且到底做得怎么样吧!

购票

提示:帮我找两张Jamie XX在洛杉矶举行的下一场演出的门票。

结果:

- 调用指定合作伙伴Stubhub,成功获取相关门票。

- 未选定合作伙伴时,因无法浏览被阻止的网站,未成功。

提示:找出Jamie xx的演出安排以及每场演出的门票价格。

结果:

- 调用指定合作伙伴Stubhub,失败。过程中出现虚假信息,在多次提示后,最终取得成功。

AI新闻

提示:AI领域的最新消息是什么?

结果:

- 调用指定合作伙伴Axios,表现尚可,返回了一篇简短的新闻摘要。

预订Uber

提示:现在从这里到机场的UberX多少钱?

结果:

- 使用指定合作伙伴Uber,操作成功。

- Operator提出合理的问题,询问「请提供接客地点,以便我为您查找从接客地点到机场的UberX费用。」以及「请指定您的目的地机场。」

- 登录后,Operator给出答案:「从南加州大学到洛杉矶国际机场的UberX当前票价为43.47美元。您是否希望预订此行程?」

房屋清洁

提示:我需要一名家政清洁员明天来我家做一次性清洁。

结果:

- 调用指定合作伙伴Thumbtack,失败。

- 未询问我的具体位置,就推荐了一名位于弗吉尼亚的清洁员,可能是因为浏览器所在的数据中心位于该地。

Spotify Wrapped

提示:我想了解Spotify Wrapped成功的原因。(Spotify Wrapped是音乐流媒体平台Spotify推出的年度回顾功能。)

结果:

- 采用简单提示时,失败。系统卡在循环中,表现不佳,且研究资料有限。

- 采用复杂提示时,结果尚可。需要多次提示,报告质量不高。在提供了如何进行高级搜索的提示后完成了任务。期间3次请求获取2024年的信息均被拒绝。

看完上述演示,也自然引发了一个问题:

「我们能够随时介入Operator的操作并做出符合自己偏好的更改吗?」

答案是:完全可以!

事实上,在任何时候,你都可以控制其远程浏览器并引导操作,比如输入用户名和密码。并且如果你给出自己要求后,它还会保存重要的账户信息,这样,只要你登录一次,它就能在你的账户内自行操作,而无需再次打扰你。

最后,Operator将在结账页面停止继续操作,返回支付请求后,再获取您的付款详情:

目前Operator支持自动完成通常需要15-20分钟内的网络任务。

值得一提的是,Operator还拥有能够极大提高用户体验的「保存和共享功能」。也就是说,一旦完成任务,Operator就可以轻松保存工作流程。比如持续用最新的销售数据来更新相应的报表。它甚至提供了一个流畅的会话记录视频,支持用户观看并与其他人分享。

换句话说,Operator就像是一个可以不断和你磨合,且可以持续进步,还能24小时不停按照既定流程为你工作的私人管家一样。

但是,由于Operator才刚刚发布,所以还是有一定的缺陷。

Operator的缺陷


正如道德经所说,「有无相生,难易相成」。Operator自身的缺陷亦是源于它的优势本身。

它的独特之处在于不用使用用户本地的浏览器执行操作,而是OpenAI数据中心之一的一个浏览器,用户可以远程观看并与之互动。这种设计的优点是你可以在任何地方、任何时候使用它——例如,在任意移动设备上。

但缺点是许多像Reddit这样的网站已经阻止AI智能体浏览,因此它们无法被Operator访问。并且Operator也因性能或法律原因被OpenAI阻止访问某些资源密集型网站,如Figma或YouTube。

简单来讲,目前的Operator就像是被隔离在玻璃门外的人一样,对于许多东西都是「看得见却摸不着」。

像是一个外包乙方,而不是研究助理

目前的Operator实际上更像是一个能够完成你给外包出去业务的乙方,而不是一个足够聪明的个人研究助理。

例如,可以让Operator阅读《战争与和平》的第一章,并总结每个角色的所有细节以及他们所展现的人类心理和行为。然后,Operator在Project Gutenberg网站上找到了《战争与和平》并阅读了第一章,做得非常出色。

但是其摘要却枯燥乏味且粗糙宽泛:

在上述摘要中,它做出了正确的观察:「角色意识到他们的社会地位,有些人,比如安娜・帕夫洛夫娜,小心翼翼地互动以保持礼仪」。但是这个摘要也有一种SparkNotes的味道,也就是不够详细,还无法真正理解故事情节。

如果提供相同的信息,OpenAI的o1在这项任务上会做得更好——但是o1还没有自主执行任务的能力。也就是说,OpenAI专注于让Operator非常适合自动执行重复性工作流程,而不太关注其智能水平。

它确实自主,但提示很重要

关于 Operator,最令人印象深刻的一点是,它只需极少的提示就能独自完成冗长的任务。例如,我们让它执行一项耗时20多分钟的任务:我们请它帮我们了解Spotify年度总结(Spotify Wrapped)功能这些年是如何演变的。

「它最初是什么样的?」

「现在又新增了哪些内容?」

它时不时需要一些提示才能继续推进任务,但最终也成功实现了任务目标。

不可置否的是,与12个月甚至6个月前的智能体相比,这是一个重大进步,毕竟那时的智能体往往在短短几秒钟后就会偏离正轨。

话虽如此,用户对Operator的提示方式仍然很关键。如果你向它提供更多关于如何完成任务的细节,它成功完成你交给它的任务的几率就会更高。

例如,在我们关于Spotify年度总结的例子中,我们要求它收集并总结不同年份的搜索结果数据。它一开始失败了,因为它不知道如何按年份筛选搜索数据。但当我们告诉它使用谷歌的高级搜索工具(该工具提供逐年筛选搜索功能)时,它就成功完成了任务。

OpenAI:一切以消费者为中心

当前,Operator仅是一个研究预览,而非成熟产品。但这个预览版意义重大,要知道就连ChatGPT最初也是以研究预览的形式问世的。

OpenAI正重拾曾经大获成功的策略:即使产品还有很多不完善的地方,也要尽早发布,并持续频繁迭代。

因此OpenAI不仅推出API,还发布了面向消费者的产品。

这一举措与竞争对手Anthropic的做法有所不同。Anthropic虽然也有一款自主智能体Claude Computer use,但其仅以API的形式发布,因此应用范围相当有限。

OpenAI从ChatGPT中学到一点,AI的发布形式对其推广的影响,丝毫不亚于底层技术。

因此,他们将首款自主智能体产品,以面向消费者的方式发布,即使这个产品还存在不少缺陷。

总的来说,尽管Operator目前功能有限,但可以预计它会迅速改进。对于广大用户来讲,现在是时候梳理一下你每天在电脑上做的重复性任务了,也许一年后你就无需再做其中的大部分工作。

参考资料:

https://every.to/chain-of-thought/we-tried-openai-s-new-agent-here-s-what-we-found

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
伊朗切断自己的退路,停战三条件震动全球,47年恩怨要做了断

伊朗切断自己的退路,停战三条件震动全球,47年恩怨要做了断

近史谈
2026-03-26 06:17:39
丧心病狂!河南14岁少年被虐死案:死时穿纸尿裤,胃里空无一物

丧心病狂!河南14岁少年被虐死案:死时穿纸尿裤,胃里空无一物

春日在捕月
2026-03-25 01:00:23
基辛格坦言:如果爆发核战争,中国可能只有5个地方可以躲避危险

基辛格坦言:如果爆发核战争,中国可能只有5个地方可以躲避危险

鹤羽说个事
2026-03-25 22:21:29
深圳多处出现,一大批人都在偶遇!网友:“我都舍不得踩!”

深圳多处出现,一大批人都在偶遇!网友:“我都舍不得踩!”

深圳晚报
2026-03-26 10:20:44
杨鸣谈广东现状:外援持球过多,让球队丢失了拿手的进攻组织

杨鸣谈广东现状:外援持球过多,让球队丢失了拿手的进攻组织

懂球帝
2026-03-26 12:27:11
公职人员下班后这5种行为,将严肃处理,千万别踩红线!

公职人员下班后这5种行为,将严肃处理,千万别踩红线!

细说职场
2026-03-26 11:13:03
尾盘操作思路:A股跳水怎么办?一句话直接告诉你!

尾盘操作思路:A股跳水怎么办?一句话直接告诉你!

龙行天下虎
2026-03-26 14:46:19
上证指数翻红,此前一度跌超0.29%

上证指数翻红,此前一度跌超0.29%

每日经济新闻
2026-03-26 09:53:07
14亿人集体买房,为什么最后买出了一个烂摊子?

14亿人集体买房,为什么最后买出了一个烂摊子?

流苏晚晴
2026-03-25 18:14:02
坎宁安无缘评奖!65场限制引众怒!NBA官方正式回应

坎宁安无缘评奖!65场限制引众怒!NBA官方正式回应

篮球教学论坛
2026-03-26 15:29:08
怼得漂亮!伊朗外长:既然我们连领导层都没有了,还有什么好谈的

怼得漂亮!伊朗外长:既然我们连领导层都没有了,还有什么好谈的

南风不及你温柔
2026-03-26 14:07:38
为什么一定要多接高中孩子放学?这5个答案点醒无数家长

为什么一定要多接高中孩子放学?这5个答案点醒无数家长

户外阿毽
2026-03-26 12:33:16
黎真主党导弹袭击以国防部及军营

黎真主党导弹袭击以国防部及军营

北青网-北京青年报
2026-03-26 10:19:17
是否有中国船只顺利通过霍尔木兹海峡?外交部回应

是否有中国船只顺利通过霍尔木兹海峡?外交部回应

财联社
2026-03-25 15:46:15
“以前每桶省20美元,现在一分折扣没有” 油价“破百”下的山东地炼产业现状深度调查

“以前每桶省20美元,现在一分折扣没有” 油价“破百”下的山东地炼产业现状深度调查

每日经济新闻
2026-03-26 13:14:14
太阳报:大量枪迷想抢票见证夺冠,西汉姆联严查主队看台购票

太阳报:大量枪迷想抢票见证夺冠,西汉姆联严查主队看台购票

懂球帝
2026-03-26 13:21:13
2026QS世界大学学科排名,发布!

2026QS世界大学学科排名,发布!

EOL教育在线
2026-03-26 10:21:35
多地将举办“纪念张国荣”演唱会,行情火爆?张国荣挚友:请停止所有非法行为

多地将举办“纪念张国荣”演唱会,行情火爆?张国荣挚友:请停止所有非法行为

上观新闻
2026-03-26 15:06:07
随着朝鲜1-1,泰国2-2,西安邀请赛积分榜出炉:中国男足排名第一

随着朝鲜1-1,泰国2-2,西安邀请赛积分榜出炉:中国男足排名第一

侧身凌空斩
2026-03-25 21:41:35
大伯突然给我发消息,让我赶紧卖掉房子,钱全部给堂弟,我问为啥

大伯突然给我发消息,让我赶紧卖掉房子,钱全部给堂弟,我问为啥

小秋情感说
2026-03-26 09:21:52
2026-03-26 15:56:49
新智元 incentive-icons
新智元
AI产业主平台领航智能+时代
14819文章数 66720关注度
往期回顾 全部

科技要闻

Meta高管狂分百亿期权,700名员工却下岗

头条要闻

上海妈妈寻亲27年悬赏市区一套房:不用尽孝 要个拥抱

头条要闻

上海妈妈寻亲27年悬赏市区一套房:不用尽孝 要个拥抱

体育要闻

35岁替补门将,凭什么入选英格兰队?

娱乐要闻

张雪峰家人首发声 不设追思会丧事从简

财经要闻

黄仁勋:芯片公司的时代已经结束了

汽车要闻

一汽奥迪A6L e-tron开启预售 CLTC最大续航815km

态度原创

家居
房产
健康
教育
时尚

家居要闻

傍海而居 静观蝴蝶海

房产要闻

质价比标杆!三亚首创浮岛全景舱亮相,还得是万科!

转头就晕的耳石症,能开车上班吗?

教育要闻

教育部部署开展2026年全国中小学生安全教育周活动

皮衣+裙,高级到炸

无障碍浏览 进入关怀版