终极打工人诞生：OpenAI发布ChatGPT Agent，重新定义生产力边界|谷歌|智能体|安全卫士|知名企业|agent|openai

终极打工人诞生：OpenAI发布ChatGPT Agent，重新定义生产力边界

2025-07-18 21:23:35　来源: 智能进化论

北京举报

分享至

当Agent能够完成复杂任务，我们需要学习如何与这个星球上最聪明的“打工人”共事。

作者 |小葳

AI Agent的时代，比所有人预想的，来得更早、更猛烈。

北京时间7月18日凌晨，科技圈再次被OpenAI投下的一枚重磅炸弹引爆。没有冗长的预热，没有华丽的舞台，Sam Altman和他的团队通过一场25分钟的发布会直播，推出ChatGPT Agent。

这不再是我们熟悉的那个“聊天机器人”，它是一个拥有了自己的虚拟电脑、能够自主思考、规划并执行复杂任务的“行动者”。

当看到ChatGPT Agent熟练地打开浏览器、分析网页、调用API、生成PPT、制作表格时，Sam Altman在直播中坦言：“对我来说，在观看它工作时，这是最让我感受到AGI的时刻之一。”

看完发布会，令人印象深刻的有三个方面：

第一，面对多目标的复杂任务，ChatGPT Agent虽然耗时长一些，但完成度很高；

第二， ChatGPT Agent可以随时被打断，人类用户可以随时补充信息和指导，或增加新任务，人机协作的体验更加凸显；

第三，Agent通过自己专属的虚拟计算机完成所有任务，并将执行任务过程可视化实时展现，用户可以回放视频查看Agent每一步动作。

从“能聊”到“能干”：

统一智能体，OpenAI的必然一步

ChatGPT Agent的诞生并非凭空而来，它是OpenAI在智能体（Agent）道路上不断积累的必然结果。今年早些时候，OpenAI陆续推出了两个重磅工具：Deep Research和Operator。

然而，这两个工具如同两个“偏科生”。Deep Research擅长长文阅读，却无法与需要登录、交互的网页打交道；Operator擅长处理交互式与可视化的网页，却在深度分析和长文阅读方面力不从心。而许多真实世界的复杂任务，恰恰需要二者能力的结合。

正如Sam Altman在发布会上所说：“人们想要一个统一的智能体，它能自主运行，使用它自己的电脑，帮助人们完成真正复杂的任务。它能够无缝地切换，从思考到采取行动。它能使用各种工具，比如调用终端、在网页上点击操作，甚至能生成电子表格、幻灯片等文件，以及具备更多功能。”

ChatGPT Agent正是两者“强强联合”的实现，它融合了Deep Research的分析能力和Operator的执行能力，相当于赋予了Agent“大脑”和“双手”。

真正完成复杂任务：

自主选择工具，可视化执行过程

发布会上演示的第一个demo是一个多目标的复杂任务，用户9月份要出席朋友婚礼，需要准备服装、礼物、预订酒店等一揽子事情，用户把这些需求一股脑抛给Agent：

- 一套与所有场合的着装要求相匹配的服装（男士）。

- 提出五个服装选项。选择一些轻奢档次的服装，并应与场地和天气相配

- 找到那些两端都有几天缓冲期的酒店。

- 使用Booking进行预订，并务必检查可用性和当前价格。

- 同样别忘了为新人挑选一件礼物，价格最好在500美元以内。

Agent确认关键需求后就开始工作。整个任务完成花费了20分钟左右，在发布会最后，提供了完善的方案。5件服装备选直接提供了价格对比和购买链接。

当用户提出新增要求，安排一个包括美国职业棒球联盟（MLB）所有运动球场参观的旅行计划时，Agent直接给出精确到天的Excel行程表格。

Agent所有动作都是通过专属虚拟电脑完成，这台电脑上安装了很多不同的工具，Agent能自行选择如何使用。

同时，Agent将它执行任务的全过程展示为一个可视化的电脑屏幕，并在不断变化的对话框中显示文本形式的思维链过程，也就是Agent在想什么，它决定下一步做什么。

揭秘Agent的工作台：

一台虚拟电脑和它的工具集

要理解ChatGPT Agent的强大，首先要看它的“工作台”——一台专属的虚拟电脑。在这个工作台上，集成了一些强大的工具：

文本浏览器 (Text Browser)：和Deep Research工具类似，它能快速抓取和解析大量网页的文本内容，进行高效的搜索和信息提炼，这让它能够非常高效快速阅读大量网页并进行搜索，是Agent高效处理信息的“利器”。
可视化浏览器 (Visual Browser)：和operator工具类似，这是Agent的“眼睛”和“手”。让Agent能像人一样“看”到网页的图形界面，进行点击、
滚动、拖拽、填写表单等操作，轻松应对为人类设计的复杂交互界面。

终端 (Terminal)和API，通过与终端的连接，Agent可以运行代码、进行复杂的数据分析、处理文件，甚至直接生成可编辑的PowerPoint演示文稿和Excel电子表格。发布会演示中，Agent自行编写代码编译幻灯片，并调用图像API美化页面的场景，令人印象深刻。

通过API，Agent能够调用外部服务。包括公共API，以及用于访问你私有数据源的API，比如谷歌云端硬盘，谷歌日历，github，sharepoint等等。

拥有工具是一回事，懂得何时使用何种工具，则是更高维度的智能。OpenAI通过强化学习（Reinforcement Learning）的训练方式，学会在面对复杂任务时，自主规划并智能地选择最优工具组合。

比如，当被要求预订餐厅时，Agent可能会先用文本浏览器进行海量筛选，然后切换到可视化浏览器查看菜品图片，最后确认空位并完成预订。

从“指令-响应”到“委托-协作”：

人机协作的全新体验

如果说完成复杂任务是ChatGPT Agent的“硬实力”，那么其高度协作的交互模式则是它的“软实力”，也是它与其他AI工具显著区别。

过去，我们与AI的交互是僵硬的。一旦任务下达，我们能做的只有等待。而ChatGPT Agent被设计成一个真正的“协作伙伴”。

用户和智能体随时都能够主动与对方沟通，是ChatGPT Agent重要的交互理念。在ChatGPT Agent执行任务的任何时刻，用户都可以随时“插话”：

“Agent模型的一个关键能力是能够被随时打断，就像是在进行多轮对话。用户可以插话，引导它。”ChatGPT Agent研发人员表示。

用户可以中途补充新的要求（哦对了，再帮我找一双9.5码的黑皮鞋），可以纠正它的方向，甚至可以完全改变任务（我忘了提这件事，或者你的进度如何？做得怎么样了？）。Agent会理解新的指令，并在不丢失已有进度的前提下，继续工作。

同时，Agent也会主动沟通。在信息不足时，它会提出澄清性问题让用户确认；在执行关键操作（如发送邮件、下单支付）前，Agent会主动寻求用户的最终确认。这种双向沟通机制，确保了任务始终在用户的掌控之中。

更重要的是，用户拥有最终的“接管权”。如果对Agent的操作不满意，可以随时暂停，直接进入它的虚拟环境，自己动手修改。这极大增强了用户的安全感和控制感，使得人与AI之间建立起一种前所未有的信任关系。

碾压级跑分：

当Agent的能力被量化

为了证明ChatGPT Agent并非华而不实的“花架子”，OpenAI公布了一系列基准测试成绩。这些数据，将其强大的能力清晰地量化了出来。

在被誉为“人类最后考试”的HLE (Humanity’s Last Exam)基准上，该测试旨在衡量AI在各学科专家级问题上的表现，ChatGPT Agent取得了41.6%的分数，几乎是此前o3和o4-mini模型的两倍。

前沿数学基准FrontierMath上，Agent在工具的辅助下，达到了27.4%的准确率，显著优于o3和o4-mini。

在衡量网页浏览和信息定位能力的BrowseCompWebArena测试中，Agent同样表现优异。

在与办公场景息息相关的SpreadsheetBench（电子表格编辑能力测试）中，Agent的得分高达45.5%

这些数字背后，反映出一个清晰的信号：ChatGPT Agent在通用推理、专业知识、工具使用和任务执行等多个维度上，已经达到了一个全新的高度。它不再是一个只能在特定领域展现才华的工具，而是一个具备广泛能力的“通才”。

“前沿与实验性”：

奥特曼的谨慎与Agent的风险预警

在展示强大能力的同时，Sam Altman也反复强调了这款产品的“前沿和实验性”，并坦诚地揭示了其潜在的风险。这体现了OpenAI在推动技术边界时的审慎态度。

研发团队称，目前最大的担忧之一，是被称为“提示词注入”（Prompt Injection）的新型攻击。

当Agent访问恶意网站时，网站上的隐藏指令可能会“诱骗”它执行不当操作，比如泄露用户的敏感信息。

对此，OpenAI构建了多层防御体系，包括训练模型忽略可疑指令、部署实时监控系统来终止恶意行为等。但OpenAI也承认，他们无法阻止所有攻击。

随着AI能力的指数级增长，如何为其划定安全的伦理和技术边界，已成为整个行业面临的共同挑战。

因此，OpenAI给用户的建议是：充分意识到使用智能体所面临的风险，不随意向智能体透露个人敏感信息。

结语

ChatGPT Agent今天所展示的，还只是一个开始。

Agent不可避免会犯错，有时完成任务可能比人类手动操作更耗时。但它指明的方向，是清晰且不可逆转的。

我们正在从一个需要自己亲手操作每一个软件、点击每一个按钮的时代，迈向一个只需提出目标，便有智能体为你调度一切资源的时代。

而我们，需要学习如何与这个星球上最聪明的“打工人”共事。

本文为「智能进化论」原创作品。

特别声明：以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布，本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.