网易首页 > 网易号 > 正文 申请入驻

终极打工人诞生:OpenAI发布ChatGPT Agent,重新定义生产力边界

0
分享至

当Agent能够完成复杂任务,我们需要学习如何与这个星球上最聪明的“打工人”共事。

作者 |小葳


AI Agent的时代,比所有人预想的,来得更早、更猛烈。

北京时间7月18日凌晨,科技圈再次被OpenAI投下的一枚重磅炸弹引爆。没有冗长的预热,没有华丽的舞台,Sam Altman和他的团队通过一场25分钟的发布会直播,推出ChatGPT Agent

这不再是我们熟悉的那个“聊天机器人”,它是一个拥有了自己的虚拟电脑、能够自主思考、规划并执行复杂任务的“行动者”。

当看到ChatGPT Agent熟练地打开浏览器、分析网页、调用API、生成PPT、制作表格时,Sam Altman在直播中坦言:“对我来说,在观看它工作时,这是最让我感受到AGI的时刻之一。”

看完发布会,令人印象深刻的有三个方面:

第一, 面对多目标的复杂任务,ChatGPT Agent虽然耗时长一些,但完成度很高;

第二, ChatGPT Agent可以随时被打断,人类用户可以随时补充信息和指导,或增加新任务,人机协作的体验更加凸显;

第三,Agent通过自己专属的虚拟计算机完成所有任务,并将执行任务过程可视化实时展现,用户可以回放视频查看Agent每一步动作。

从“能聊”到“能干”:

统一智能体,OpenAI的必然一步

ChatGPT Agent的诞生并非凭空而来,它是OpenAI在智能体(Agent)道路上不断积累的必然结果。今年早些时候,OpenAI陆续推出了两个重磅工具:Deep ResearchOperator

然而,这两个工具如同两个“偏科生”。Deep Research擅长长文阅读,却无法与需要登录、交互的网页打交道;Operator擅长处理交互式与可视化的网页,却在深度分析和长文阅读方面力不从心。而许多真实世界的复杂任务,恰恰需要二者能力的结合。

正如Sam Altman在发布会上所说:“人们想要一个统一的智能体,它能自主运行,使用它自己的电脑,帮助人们完成真正复杂的任务。它能够无缝地切换,从思考到采取行动。它能使用各种工具,比如调用终端、在网页上点击操作,甚至能生成电子表格、幻灯片等文件,以及具备更多功能。”

ChatGPT Agent正是两者“强强联合”的实现,它融合了Deep Research的分析能力和Operator的执行能力,相当于赋予了Agent“大脑”和“双手”。

真正完成复杂任务:

自主选择工具,可视化执行过程

发布会上演示的第一个demo是一个多目标的复杂任务,用户9月份要出席朋友婚礼,需要准备服装、礼物、预订酒店等一揽子事情,用户把这些需求一股脑抛给Agent:

- 一套与所有场合的着装要求相匹配的服装(男士)。

- 提出五个服装选项。选择一些轻奢档次的服装,并应与场地和天气相配

- 找到那些两端都有几天缓冲期的酒店。

- 使用Booking进行预订,并务必检查可用性和当前价格。

- 同样别忘了为新人挑选一件礼物,价格最好在500美元以内。

Agent确认关键需求后就开始工作。整个任务完成花费了20分钟左右,在发布会最后,提供了完善的方案。5件服装备选直接提供了价格对比和购买链接。

当用户提出新增要求,安排一个包括美国职业棒球联盟(MLB)所有运动球场参观的旅行计划时,Agent直接给出精确到天的Excel行程表格。

Agent所有动作都是通过专属虚拟电脑完成,这台电脑上安装了很多不同的工具,Agent能自行选择如何使用。

同时,Agent将它执行任务的全过程展示为一个可视化的电脑屏幕,并在不断变化的对话框中显示文本形式的思维链过程,也就是Agent在想什么,它决定下一步做什么。

揭秘Agent的工作台:

一台虚拟电脑和它的工具集

要理解ChatGPT Agent的强大,首先要看它的“工作台”——一台专属的虚拟电脑。在这个工作台上,集成了一些强大的工具:

  • 文本浏览器 (Text Browser):和Deep Research工具类似,它能快速抓取和解析大量网页的文本内容,进行高效的搜索和信息提炼,这让它能够非常高效快速阅读大量网页并进行搜索,是Agent高效处理信息的“利器”。

  • 可视化浏览器 (Visual Browser):和operator工具类似,这是Agent的“眼睛”和“手”。让Agent能像人一样“看”到网页的图形界面,进行点击、
  • 滚动、拖拽、填写表单等操作,轻松应对为人类设计的复杂交互界面。

  • 终端 (Terminal)和API,通过与终端的连接,Agent可以运行代码、进行复杂的数据分析、处理文件,甚至直接生成可编辑的PowerPoint演示文稿和Excel电子表格。发布会演示中,Agent自行编写代码编译幻灯片,并调用图像API美化页面的场景,令人印象深刻。

通过API,Agent能够调用外部服务。包括公共API,以及用于访问你私有数据源的API,比如谷歌云端硬盘,谷歌日历,github,sharepoint等等。

拥有工具是一回事,懂得何时使用何种工具,则是更高维度的智能。OpenAI通过强化学习(Reinforcement Learning)的训练方式,学会在面对复杂任务时,自主规划并智能地选择最优工具组合。

比如,当被要求预订餐厅时,Agent可能会先用文本浏览器进行海量筛选,然后切换到可视化浏览器查看菜品图片,最后确认空位并完成预订。

从“指令-响应”到“委托-协作”:

人机协作的全新体验

如果说完成复杂任务是ChatGPT Agent的“硬实力”,那么其高度协作的交互模式则是它的“软实力”,也是它与其他AI工具显著区别。

过去,我们与AI的交互是僵硬的。一旦任务下达,我们能做的只有等待。而ChatGPT Agent被设计成一个真正的“协作伙伴”。

用户和智能体随时都能够主动与对方沟通,是ChatGPT Agent重要的交互理念。在ChatGPT Agent执行任务的任何时刻,用户都可以随时“插话”:

Agent模型的一个关键能力是能够被随时打断,就像是在进行多轮对话。用户可以插话,引导它。”ChatGPT Agent研发人员表示。

用户可以中途补充新的要求(哦对了,再帮我找一双9.5码的黑皮鞋),可以纠正它的方向,甚至可以完全改变任务(我忘了提这件事,或者你的进度如何?做得怎么样了?)。Agent会理解新的指令,并在不丢失已有进度的前提下,继续工作。

同时,Agent也会主动沟通。在信息不足时,它会提出澄清性问题让用户确认;在执行关键操作(如发送邮件、下单支付)前,Agent会主动寻求用户的最终确认。这种双向沟通机制,确保了任务始终在用户的掌控之中。

更重要的是,用户拥有最终的“接管权”。如果对Agent的操作不满意,可以随时暂停,直接进入它的虚拟环境,自己动手修改。这极大增强了用户的安全感和控制感,使得人与AI之间建立起一种前所未有的信任关系。

碾压级跑分:

当Agent的能力被量化

为了证明ChatGPT Agent并非华而不实的“花架子”,OpenAI公布了一系列基准测试成绩。这些数据,将其强大的能力清晰地量化了出来。

  • 在被誉为“人类最后考试”的HLE (Humanity’s Last Exam)基准上,该测试旨在衡量AI在各学科专家级问题上的表现,ChatGPT Agent取得了41.6%的分数,几乎是此前o3和o4-mini模型的两倍。

  • 前沿数学基准FrontierMath上,Agent在工具的辅助下,达到了27.4%的准确率,显著优于o3和o4-mini。

  • 在衡量网页浏览和信息定位能力的BrowseCompWebArena测试中,Agent同样表现优异。

  • 在与办公场景息息相关的SpreadsheetBench(电子表格编辑能力测试)中,Agent的得分高达45.5%

这些数字背后,反映出一个清晰的信号:ChatGPT Agent在通用推理、专业知识、工具使用和任务执行等多个维度上,已经达到了一个全新的高度。它不再是一个只能在特定领域展现才华的工具,而是一个具备广泛能力的“通才”。

“前沿与实验性”:

奥特曼的谨慎与Agent的风险预警

在展示强大能力的同时,Sam Altman也反复强调了这款产品的“前沿和实验性”,并坦诚地揭示了其潜在的风险。这体现了OpenAI在推动技术边界时的审慎态度。

研发团队称,目前最大的担忧之一,是被称为“提示词注入”(Prompt Injection)的新型攻击。

当Agent访问恶意网站时,网站上的隐藏指令可能会“诱骗”它执行不当操作,比如泄露用户的敏感信息。

对此,OpenAI构建了多层防御体系,包括训练模型忽略可疑指令、部署实时监控系统来终止恶意行为等。但OpenAI也承认,他们无法阻止所有攻击。

随着AI能力的指数级增长,如何为其划定安全的伦理和技术边界,已成为整个行业面临的共同挑战。

因此,OpenAI给用户的建议是:充分意识到使用智能体所面临的风险,不随意向智能体透露个人敏感信息。

结语

ChatGPT Agent今天所展示的,还只是一个开始。

Agent不可避免会犯错,有时完成任务可能比人类手动操作更耗时。但它指明的方向,是清晰且不可逆转的。

我们正在从一个需要自己亲手操作每一个软件、点击每一个按钮的时代,迈向一个只需提出目标,便有智能体为你调度一切资源的时代。

而我们,需要学习如何与这个星球上最聪明的“打工人”共事。

本文为「智能进化论」原创作品。

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
20死!接连烟花销售门店发生爆燃事故,乡镇零售点沦为“火药库”

20死!接连烟花销售门店发生爆燃事故,乡镇零售点沦为“火药库”

火山詩话
2026-02-18 17:21:13
翻车!春晚“真弹幕”骗局?骂春晚发不出,夸的秒显,网友当傻子

翻车!春晚“真弹幕”骗局?骂春晚发不出,夸的秒显,网友当傻子

戗词夺理
2026-02-18 17:43:36
俄女外交官扎哈罗娃回忆首次在北京过年:不知道怎么放鞭炮,把草地点燃,好多人帮忙灭火

俄女外交官扎哈罗娃回忆首次在北京过年:不知道怎么放鞭炮,把草地点燃,好多人帮忙灭火

极目新闻
2026-02-18 10:14:33
街上为什么不放刘德华的《恭喜发财》了?

街上为什么不放刘德华的《恭喜发财》了?

娱乐硬糖
2026-02-18 12:39:39
日本阻止新建穆斯林墓地,网友:他们正在完全拒绝伊斯兰教

日本阻止新建穆斯林墓地,网友:他们正在完全拒绝伊斯兰教

丫头舫
2026-02-18 19:14:08
浙江一103岁“功夫奶奶”五世同堂,百余人围坐吃团圆饭,最远的从新疆赶回来,家人:身体比我们这些儿女都好,坚持自己照顾自己

浙江一103岁“功夫奶奶”五世同堂,百余人围坐吃团圆饭,最远的从新疆赶回来,家人:身体比我们这些儿女都好,坚持自己照顾自己

大象新闻
2026-02-18 14:43:03
全线暴涨,狂拉800点!特朗普,宣布!

全线暴涨,狂拉800点!特朗普,宣布!

中国基金报
2026-02-18 15:31:19
测量319位中国女性外阴,他们发表全球首例研究

测量319位中国女性外阴,他们发表全球首例研究

医学界
2026-02-18 17:56:22
皇俄派绝望哀嚎:年底彻底完蛋!莫斯科500家餐馆关门

皇俄派绝望哀嚎:年底彻底完蛋!莫斯科500家餐馆关门

老马拉车莫少装
2026-02-18 19:42:19
印度一大学被曝买中国机器狗冒充“自主研发”,校方回应:确实是从中国企业宇树科技买的

印度一大学被曝买中国机器狗冒充“自主研发”,校方回应:确实是从中国企业宇树科技买的

潇湘晨报
2026-02-18 18:23:20
马斯克空降中国,不是为了造车!他盯上一个比芯片更致命的资源

马斯克空降中国,不是为了造车!他盯上一个比芯片更致命的资源

米师傅安装
2026-02-17 20:56:23
巴拿马变天,大清算开始了!真正的大国力量,有人根本一无所知!

巴拿马变天,大清算开始了!真正的大国力量,有人根本一无所知!

东极妙严
2026-02-18 21:04:48
英伟达的天塌了,AI芯片果然被动了手脚!外媒:真有“后门”?

英伟达的天塌了,AI芯片果然被动了手脚!外媒:真有“后门”?

疯狂小菠萝
2026-02-18 20:03:53
出事了,F35进入德黑兰,伊朗雷达全程失灵!

出事了,F35进入德黑兰,伊朗雷达全程失灵!

爱吃醋的猫咪
2026-02-18 21:03:10
后续,江苏一家人吃饭父亲酒后掀桌,儿子透露更多,以后不回家了

后续,江苏一家人吃饭父亲酒后掀桌,儿子透露更多,以后不回家了

离离言几许
2026-02-18 23:24:35
电影《镖人:风起大漠》票房破2亿

电影《镖人:风起大漠》票房破2亿

界面新闻
2026-02-18 16:42:45
大年初一凌晨六点,国防部突然发布重磅视频,让无数人红了眼眶

大年初一凌晨六点,国防部突然发布重磅视频,让无数人红了眼眶

现代小青青慕慕
2026-02-18 19:04:48
湖北宜城发生一起烟花爆竹爆炸事故,已致12人死亡,爆炸原因正在进一步调查

湖北宜城发生一起烟花爆竹爆炸事故,已致12人死亡,爆炸原因正在进一步调查

每日经济新闻
2026-02-18 18:23:54
一文回顾徐梦桃冬奥会风雪卫冕路:16年间参加5届奥运会,10年做了4次大手术

一文回顾徐梦桃冬奥会风雪卫冕路:16年间参加5届奥运会,10年做了4次大手术

上游新闻
2026-02-18 21:26:35
苏翊鸣徐梦桃连夺金牌,中国队排名上升5位,两人各获4枚奖牌

苏翊鸣徐梦桃连夺金牌,中国队排名上升5位,两人各获4枚奖牌

老癘体育解说
2026-02-18 22:14:27
2026-02-19 04:11:00
智能进化论 incentive-icons
智能进化论
关注AI产业趋势、场景应用
427文章数 80关注度
往期回顾 全部

科技要闻

怒烧45亿,腾讯字节阿里决战春节

头条要闻

以色列提升全国警戒级别 加紧军事准备

头条要闻

以色列提升全国警戒级别 加紧军事准备

体育要闻

首金!苏翊鸣唱国歌落泪 自信比1呐喊

娱乐要闻

明星过年百态!黄晓明等现身三亚

财经要闻

面条火腿香菇酱!上市公司这些年请你吃

汽车要闻

量产甲醇插混 吉利银河星耀6甲醇插混版申报图

态度原创

教育
健康
家居
房产
数码

教育要闻

60后父母们的爱与焦虑

转头就晕的耳石症,能开车上班吗?

家居要闻

中古雅韵 乐韵伴日常

房产要闻

三亚新机场,又传出新消息!

数码要闻

盛色推出星舰S009带鱼屏显示器,4199元

无障碍浏览 进入关怀版