网易首页 > 网易号 > 正文 申请入驻

终极打工人诞生:OpenAI发布ChatGPT Agent,重新定义生产力边界

0
分享至

当Agent能够完成复杂任务,我们需要学习如何与这个星球上最聪明的“打工人”共事。

作者 |小葳


AI Agent的时代,比所有人预想的,来得更早、更猛烈。

北京时间7月18日凌晨,科技圈再次被OpenAI投下的一枚重磅炸弹引爆。没有冗长的预热,没有华丽的舞台,Sam Altman和他的团队通过一场25分钟的发布会直播,推出ChatGPT Agent

这不再是我们熟悉的那个“聊天机器人”,它是一个拥有了自己的虚拟电脑、能够自主思考、规划并执行复杂任务的“行动者”。

当看到ChatGPT Agent熟练地打开浏览器、分析网页、调用API、生成PPT、制作表格时,Sam Altman在直播中坦言:“对我来说,在观看它工作时,这是最让我感受到AGI的时刻之一。”

看完发布会,令人印象深刻的有三个方面:

第一, 面对多目标的复杂任务,ChatGPT Agent虽然耗时长一些,但完成度很高;

第二, ChatGPT Agent可以随时被打断,人类用户可以随时补充信息和指导,或增加新任务,人机协作的体验更加凸显;

第三,Agent通过自己专属的虚拟计算机完成所有任务,并将执行任务过程可视化实时展现,用户可以回放视频查看Agent每一步动作。

从“能聊”到“能干”:

统一智能体,OpenAI的必然一步

ChatGPT Agent的诞生并非凭空而来,它是OpenAI在智能体(Agent)道路上不断积累的必然结果。今年早些时候,OpenAI陆续推出了两个重磅工具:Deep ResearchOperator

然而,这两个工具如同两个“偏科生”。Deep Research擅长长文阅读,却无法与需要登录、交互的网页打交道;Operator擅长处理交互式与可视化的网页,却在深度分析和长文阅读方面力不从心。而许多真实世界的复杂任务,恰恰需要二者能力的结合。

正如Sam Altman在发布会上所说:“人们想要一个统一的智能体,它能自主运行,使用它自己的电脑,帮助人们完成真正复杂的任务。它能够无缝地切换,从思考到采取行动。它能使用各种工具,比如调用终端、在网页上点击操作,甚至能生成电子表格、幻灯片等文件,以及具备更多功能。”

ChatGPT Agent正是两者“强强联合”的实现,它融合了Deep Research的分析能力和Operator的执行能力,相当于赋予了Agent“大脑”和“双手”。

真正完成复杂任务:

自主选择工具,可视化执行过程

发布会上演示的第一个demo是一个多目标的复杂任务,用户9月份要出席朋友婚礼,需要准备服装、礼物、预订酒店等一揽子事情,用户把这些需求一股脑抛给Agent:

- 一套与所有场合的着装要求相匹配的服装(男士)。

- 提出五个服装选项。选择一些轻奢档次的服装,并应与场地和天气相配

- 找到那些两端都有几天缓冲期的酒店。

- 使用Booking进行预订,并务必检查可用性和当前价格。

- 同样别忘了为新人挑选一件礼物,价格最好在500美元以内。

Agent确认关键需求后就开始工作。整个任务完成花费了20分钟左右,在发布会最后,提供了完善的方案。5件服装备选直接提供了价格对比和购买链接。

当用户提出新增要求,安排一个包括美国职业棒球联盟(MLB)所有运动球场参观的旅行计划时,Agent直接给出精确到天的Excel行程表格。

Agent所有动作都是通过专属虚拟电脑完成,这台电脑上安装了很多不同的工具,Agent能自行选择如何使用。

同时,Agent将它执行任务的全过程展示为一个可视化的电脑屏幕,并在不断变化的对话框中显示文本形式的思维链过程,也就是Agent在想什么,它决定下一步做什么。

揭秘Agent的工作台:

一台虚拟电脑和它的工具集

要理解ChatGPT Agent的强大,首先要看它的“工作台”——一台专属的虚拟电脑。在这个工作台上,集成了一些强大的工具:

  • 文本浏览器 (Text Browser):和Deep Research工具类似,它能快速抓取和解析大量网页的文本内容,进行高效的搜索和信息提炼,这让它能够非常高效快速阅读大量网页并进行搜索,是Agent高效处理信息的“利器”。

  • 可视化浏览器 (Visual Browser):和operator工具类似,这是Agent的“眼睛”和“手”。让Agent能像人一样“看”到网页的图形界面,进行点击、
  • 滚动、拖拽、填写表单等操作,轻松应对为人类设计的复杂交互界面。

  • 终端 (Terminal)和API,通过与终端的连接,Agent可以运行代码、进行复杂的数据分析、处理文件,甚至直接生成可编辑的PowerPoint演示文稿和Excel电子表格。发布会演示中,Agent自行编写代码编译幻灯片,并调用图像API美化页面的场景,令人印象深刻。

通过API,Agent能够调用外部服务。包括公共API,以及用于访问你私有数据源的API,比如谷歌云端硬盘,谷歌日历,github,sharepoint等等。

拥有工具是一回事,懂得何时使用何种工具,则是更高维度的智能。OpenAI通过强化学习(Reinforcement Learning)的训练方式,学会在面对复杂任务时,自主规划并智能地选择最优工具组合。

比如,当被要求预订餐厅时,Agent可能会先用文本浏览器进行海量筛选,然后切换到可视化浏览器查看菜品图片,最后确认空位并完成预订。

从“指令-响应”到“委托-协作”:

人机协作的全新体验

如果说完成复杂任务是ChatGPT Agent的“硬实力”,那么其高度协作的交互模式则是它的“软实力”,也是它与其他AI工具显著区别。

过去,我们与AI的交互是僵硬的。一旦任务下达,我们能做的只有等待。而ChatGPT Agent被设计成一个真正的“协作伙伴”。

用户和智能体随时都能够主动与对方沟通,是ChatGPT Agent重要的交互理念。在ChatGPT Agent执行任务的任何时刻,用户都可以随时“插话”:

Agent模型的一个关键能力是能够被随时打断,就像是在进行多轮对话。用户可以插话,引导它。”ChatGPT Agent研发人员表示。

用户可以中途补充新的要求(哦对了,再帮我找一双9.5码的黑皮鞋),可以纠正它的方向,甚至可以完全改变任务(我忘了提这件事,或者你的进度如何?做得怎么样了?)。Agent会理解新的指令,并在不丢失已有进度的前提下,继续工作。

同时,Agent也会主动沟通。在信息不足时,它会提出澄清性问题让用户确认;在执行关键操作(如发送邮件、下单支付)前,Agent会主动寻求用户的最终确认。这种双向沟通机制,确保了任务始终在用户的掌控之中。

更重要的是,用户拥有最终的“接管权”。如果对Agent的操作不满意,可以随时暂停,直接进入它的虚拟环境,自己动手修改。这极大增强了用户的安全感和控制感,使得人与AI之间建立起一种前所未有的信任关系。

碾压级跑分:

当Agent的能力被量化

为了证明ChatGPT Agent并非华而不实的“花架子”,OpenAI公布了一系列基准测试成绩。这些数据,将其强大的能力清晰地量化了出来。

  • 在被誉为“人类最后考试”的HLE (Humanity’s Last Exam)基准上,该测试旨在衡量AI在各学科专家级问题上的表现,ChatGPT Agent取得了41.6%的分数,几乎是此前o3和o4-mini模型的两倍。

  • 前沿数学基准FrontierMath上,Agent在工具的辅助下,达到了27.4%的准确率,显著优于o3和o4-mini。

  • 在衡量网页浏览和信息定位能力的BrowseCompWebArena测试中,Agent同样表现优异。

  • 在与办公场景息息相关的SpreadsheetBench(电子表格编辑能力测试)中,Agent的得分高达45.5%

这些数字背后,反映出一个清晰的信号:ChatGPT Agent在通用推理、专业知识、工具使用和任务执行等多个维度上,已经达到了一个全新的高度。它不再是一个只能在特定领域展现才华的工具,而是一个具备广泛能力的“通才”。

“前沿与实验性”:

奥特曼的谨慎与Agent的风险预警

在展示强大能力的同时,Sam Altman也反复强调了这款产品的“前沿和实验性”,并坦诚地揭示了其潜在的风险。这体现了OpenAI在推动技术边界时的审慎态度。

研发团队称,目前最大的担忧之一,是被称为“提示词注入”(Prompt Injection)的新型攻击。

当Agent访问恶意网站时,网站上的隐藏指令可能会“诱骗”它执行不当操作,比如泄露用户的敏感信息。

对此,OpenAI构建了多层防御体系,包括训练模型忽略可疑指令、部署实时监控系统来终止恶意行为等。但OpenAI也承认,他们无法阻止所有攻击。

随着AI能力的指数级增长,如何为其划定安全的伦理和技术边界,已成为整个行业面临的共同挑战。

因此,OpenAI给用户的建议是:充分意识到使用智能体所面临的风险,不随意向智能体透露个人敏感信息。

结语

ChatGPT Agent今天所展示的,还只是一个开始。

Agent不可避免会犯错,有时完成任务可能比人类手动操作更耗时。但它指明的方向,是清晰且不可逆转的。

我们正在从一个需要自己亲手操作每一个软件、点击每一个按钮的时代,迈向一个只需提出目标,便有智能体为你调度一切资源的时代。

而我们,需要学习如何与这个星球上最聪明的“打工人”共事。

本文为「智能进化论」原创作品。

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
“带娃播新闻”,江苏这对主播夫妻火了!从校服到婚纱,相爱12年,甜翻全网!

“带娃播新闻”,江苏这对主播夫妻火了!从校服到婚纱,相爱12年,甜翻全网!

深度知局
2026-02-18 07:39:50
订单排到6年后!这个冷门设备正在悄悄爆发

订单排到6年后!这个冷门设备正在悄悄爆发

蓝色海边
2026-02-18 16:52:44
王楠没想到,她偏心养大、不让打乒乓球的儿子,如今成全家的骄傲

王楠没想到,她偏心养大、不让打乒乓球的儿子,如今成全家的骄傲

科学发掘
2026-02-18 13:52:40
心酸!三兄弟一起过年不买菜后续: 父母含泪要求分家,当事人发声

心酸!三兄弟一起过年不买菜后续: 父母含泪要求分家,当事人发声

离离言几许
2026-02-17 09:17:27
“全美最佳餐厅”强制20%小费,被一星差评淹没

“全美最佳餐厅”强制20%小费,被一星差评淹没

华人生活网
2026-02-19 05:15:35
一夜之间,勇士迎来两大好消息,签约火箭旧将,库里暂无退役打算

一夜之间,勇士迎来两大好消息,签约火箭旧将,库里暂无退役打算

君子一剑似水流年
2026-02-18 07:35:27
陪睡陪玩是冰山一角?又一女演员曝内娱潜规则,原来岳云鹏没说谎

陪睡陪玩是冰山一角?又一女演员曝内娱潜规则,原来岳云鹏没说谎

丰谭笔录
2026-01-14 07:05:08
36万亿美债压顶,中国拒不接盘!特朗普决定“弄死”大债主!

36万亿美债压顶,中国拒不接盘!特朗普决定“弄死”大债主!

毒sir财经
2025-10-12 20:07:17
“这种学霸不要也罢!”一个破烂家庭视频火了,老鼠进去都要迷路

“这种学霸不要也罢!”一个破烂家庭视频火了,老鼠进去都要迷路

知晓科普
2026-02-13 19:54:08
刚从印度回来,说点不中听的:印度的真实面目,可能让你很意外

刚从印度回来,说点不中听的:印度的真实面目,可能让你很意外

世界圈
2026-02-13 08:50:26
深圳宝安高速转沿江,堵到怀疑人生!绕圈设计真的无法优化吗?

深圳宝安高速转沿江,堵到怀疑人生!绕圈设计真的无法优化吗?

旭芯怡
2026-02-18 19:44:42
皇俄大佬直言:俄已无力全面升级,再打要动50万动员与民众存款

皇俄大佬直言:俄已无力全面升级,再打要动50万动员与民众存款

老马拉车莫少装
2026-02-17 11:40:19
优势丧失殆尽!阿森纳近7轮英超2胜4平1负,下轮客战热刺

优势丧失殆尽!阿森纳近7轮英超2胜4平1负,下轮客战热刺

懂球帝
2026-02-19 06:34:01
260米!广州南沙第一高楼自带“天眼”,设计火出圈!

260米!广州南沙第一高楼自带“天眼”,设计火出圈!

GA环球建筑
2026-02-18 21:38:32
旅行者一号已经飞了半个世纪,为什么还能和地球保持联系?

旅行者一号已经飞了半个世纪,为什么还能和地球保持联系?

观察宇宙
2026-01-11 22:48:30
人不是高达,拆了长不出来

人不是高达,拆了长不出来

平原公子
2026-01-23 19:27:46
大年初一,印度工厂被炸;日本爆发疫情;特朗普下达“撤退”命令

大年初一,印度工厂被炸;日本爆发疫情;特朗普下达“撤退”命令

80后房车生活
2026-02-17 23:44:16
68岁赵本山蹲炕头吃酸菜炖鹅,那双掉漆筷子比好多人朋友圈还真实

68岁赵本山蹲炕头吃酸菜炖鹅,那双掉漆筷子比好多人朋友圈还真实

喜欢历史的阿繁
2026-02-17 23:12:52
香港网红陈雅欣爆红!这身材颜值绝了,网友:简直是翻版港姐冠军

香港网红陈雅欣爆红!这身材颜值绝了,网友:简直是翻版港姐冠军

TVB的四小花
2026-02-17 15:50:57
东部战区一句话,直接把天聊“死”了!

东部战区一句话,直接把天聊“死”了!

达文西看世界
2026-02-17 11:12:07
2026-02-19 08:16:49
智能进化论 incentive-icons
智能进化论
关注AI产业趋势、场景应用
427文章数 80关注度
往期回顾 全部

科技要闻

怒烧45亿,腾讯字节阿里决战春节

头条要闻

男子租新能源车自驾因APP控车失灵返程 起诉索赔被驳

头条要闻

男子租新能源车自驾因APP控车失灵返程 起诉索赔被驳

体育要闻

首金!苏翊鸣唱国歌落泪 自信比1呐喊

娱乐要闻

明星过年百态!黄晓明等现身三亚

财经要闻

面条火腿香菇酱!上市公司这些年请你吃

汽车要闻

量产甲醇插混 吉利银河星耀6甲醇插混版申报图

态度原创

家居
房产
健康
旅游
教育

家居要闻

中古雅韵 乐韵伴日常

房产要闻

三亚新机场,又传出新消息!

转头就晕的耳石症,能开车上班吗?

旅游要闻

山西吉县:黄河壶口瀑布景区游人如织

教育要闻

一道计算题,千万别傻傻的硬算

无障碍浏览 进入关怀版