网易首页 > 网易号 > 正文 申请入驻

OpenAI发布ChatGPT Agent:AI"代理人"已至,人类准备好交出操作权了吗?

0
分享至

文 | 大模型之家

北京时间7月18日凌晨,OpenAI如约发布了其最新力作——ChatGPT Agent。

根据CEO Sam Altman和四位OpenAI研究员介绍,ChatGPT Agent是一个具备自主执行复杂任务能力的AI Agent,它不再仅仅“对话”,而是可以打开虚拟机,完成搜索、筛选、判断、执行等一整套流程,最终输出可交付的结果。

ChatGPT Agent的定位非常“简单直接”:一个拥有终端、图形浏览器、文本浏览器的多工具整合智能体系统。功能上,几乎等于一个受控的远程虚拟操作系统。

值得注意的是,ChatGPT Agent可以说是OpenAI自今年以来推出产品的一次阶段性整合与释放:Operator和Deep Research,一个偏执行,一个偏思考,如今彻底融合。

AI真正开始“动手”:ChatGPT Agent的能力边界

与如今大火的“智能体”赛道的产品类似,ChatGPT Agent的最大变化,是让AI真正获得了对数字世界的“动手”能力。Agent模式下,用户不再是通过提示词一步步引导ChatGPT生成答案,而是描述一个需求后,模型启动虚拟机,自主规划任务、调度工具、完成执行。

在演示中,OpenAI展现了其三大基础能力组件:文本浏览器、可视化浏览器和终端。

文本浏览器的职责是爬梳大量信息,完成阅读和筛选。它适合处理长文内容、查找具体数据或者跟踪文献,是Deep Research的延续;可视化浏览器则具备界面识别与交互能力,比如可以点击网页按钮、识别图像、进行鼠标操作等;终端部分支持代码执行、API调用和复杂文件生成——如PPT、Excel、数据分析脚本等。

这些能力的协同,使Agent具备了完整的“感知-决策-执行”链路。比如在一次旅行安排任务中,它先用文本浏览器分析网页信息、提取天气与礼仪信息,再切换至可视化浏览器挑选合适礼服,最后生成整合报告。整个任务历时仅十分钟,远远快于人类的处理效率。

更复杂的场景中,Agent还能够自动调用图像生成API设计贴纸,然后在网站上上传图像、填写参数、放入购物车,最后请用户确认是否付款。在另一个演示中,Agent还连接了Google Drive,提取文档并自动生成PPT;或将日程数据汇总为带地图的电子表格行程表。

这些能力让Agent不仅适用于内容生成,更适用于事务型任务处理,意味着它从“信息辅助”跨越到“决策+执行”。在办公场景中,Agent可以完成会议安排、报告撰写、差旅预订等一系列中层管理事务。在生活场景中,它能规划婚礼、生成资料、预约专家等个性化需求。用一个略显理想主义但已逐步接近现实的说法:ChatGPT Agent,是人人都可以拥有的“高效执行助理”。

基准测试成绩:Agent能力更接近人类水平

与以往OpenAI擅长的语言能力不同,Agent的测试指标更偏向执行能力和任务完成度。在这方面,ChatGPT Agent通过了多个广受认可的专业评测,其结果呈现出一次系统性的跃迁。

在“人类的最后一场大考”(Humanities Last Exam)中,ChatGPT Agent获得了41.6%的成绩,几乎是不带工具模型的两倍。这项测试不仅包含复杂的推理与信息调度任务,还考察模型的工具调度能力。在使用终端、浏览器等资源的前提下,Agent表现出对任务流程的高度掌控。

在WebArena这个网页交互能力评测中,Agent的得分已经接近人类水平。而在SpreadsheetBench,即电子表格操作能力的标准测评中,其分数达到45.5%,较GPT-4o提升一倍。

尤其值得一提的是DSBench测试,它用于衡量数据分析与建模任务的能力。Agent在这一测试中超过了所有此前的SOTA(state-of-the-art)模型,明确表明其在面对现实数据分析任务中,不仅可用,而且强大。

这些数字背后,是OpenAI在工具调度、任务分解、推理执行上的系统性优化。可以说,ChatGPT Agent已不再局限于“语言智能”,而是进入“操作智能”的新阶段。

Operator和Deep Research子产品的融合

在大模型之家看来,ChatGPT Agent并不是从零起步的“创新”:其核心其实是Operator和Deep Research两个子产品的融合。

Operator是今年初推出的图形界面Agent工具,支持鼠标模拟点击、滚动等界面操作;Deep Research则是一个偏内容分析和信息整合的工具,擅长处理复杂文字材料并输出结构化结果。两者原本分别服务不同需求,但用户使用行为暴露出两者之间的边界并不清晰。

许多Operator用户在提示词中描述的任务,其实更像是深度调研;而Deep Research的高阶用户,又频繁表达对图形交互的诉求。

这使OpenAI做出顺理成章的决策:合并两个工具,并在一个统一的模型训练框架下,用强化学习方法教会模型如何调度工具。具体方法是模型从“笨拙地”乱用工具开始,通过奖励高效行为逐渐掌握何时使用哪个工具、在哪一步执行操作。

这个过程类似于AI界所熟知的Curriculum Learning(课程学习)策略,从简入繁,在逐步暴露复杂问题之前先引导其掌握基础逻辑。强化学习在这里的作用不仅仅是让模型“能用”工具,而是“用得巧”,用得灵活。

这种组合式的工程化思维并不新鲜,但放在OpenAI此时此刻的体系中,它是一种极高效的资源整合,既降低开发风险,又释放实际能力,是对“AI工具生态”合理性的回应。

Agent不是终点,而是通往应用未来的桥梁

ChatGPT Agent的诞生,不只是对工具融合的一次技术实现,更是对“大模型如何走进现实”的阶段性回答。从ChatGPT的出现开始,逐渐理解语言模型的强大;从GPT-4o开始看见多模态推理的边界;而现在,Agent将“思考”与“动手”统一,标志着AI真正有可能完成从“助手”向“代理人”角色的转变。

从开放的任务执行结构来看,Agent模式更像是未来操作系统的一种雏形:具备动态调度资源、主动规划流程、与人类深度交互的能力。它并不重定义AI模型本身,而是重塑了人与AI协作的界面与方法。

OpenAI将这套能力下放到Plus、Team乃至企业级服务中,也意味着Agent从不再是“高级用户”的特权,同时借助Agent热潮吸引更多用户,扩大自己在大模型赛道的话语权。

未来,ChatGPT Agent是否能像操作系统那样拥有开放插件生态?Agent是否能承接SaaS级别复杂度的任务?企业的专属工作流是否可以嵌入Agent?这些问题都已开始具象化地浮出水面。

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
一代香港美人,感觉不是很开心的样子,大家还记得她的名字吗?

一代香港美人,感觉不是很开心的样子,大家还记得她的名字吗?

动物奇奇怪怪
2026-03-26 08:35:16
石油危机一旦爆发,房子、现金、股票、黄金谁最危险?

石油危机一旦爆发,房子、现金、股票、黄金谁最危险?

蜉蝣说
2026-03-26 16:52:10
FIFA系列赛新规:比赛需决出胜负 打平将互射点球

FIFA系列赛新规:比赛需决出胜负 打平将互射点球

体坛周报
2026-03-26 15:53:18
男女约会隐秘又安全的12个地方,有6个场合你根本想不到

男女约会隐秘又安全的12个地方,有6个场合你根本想不到

聪明小石头
2026-03-21 09:13:42
马英九专访中途喊停,原因曝光

马英九专访中途喊停,原因曝光

郭茂辰海峡传真
2026-03-26 21:32:49
张雪峰女儿张姩菡发文:我不想哭,但眼泪止不住,我没有得到父爱

张雪峰女儿张姩菡发文:我不想哭,但眼泪止不住,我没有得到父爱

爆笑大聪明阿衿
2026-03-26 20:48:48
哪吒汽车破产覆灭,最讽刺的不是200亿债务,而是这个名字本身

哪吒汽车破产覆灭,最讽刺的不是200亿债务,而是这个名字本身

蜉蝣说
2026-03-25 10:54:58
新加坡预测:印度将赶中超美!美印争世界老大,中国将成新阿三

新加坡预测:印度将赶中超美!美印争世界老大,中国将成新阿三

荷兰豆爱健康
2026-03-26 08:26:08
吴柳芳:我本不想跳擦边!被管晨辰指责后失去收入 直播1年赚40万

吴柳芳:我本不想跳擦边!被管晨辰指责后失去收入 直播1年赚40万

念洲
2026-03-26 13:14:22
流量退去之后|南京“10元手冲咖啡”阿姨:火过,就很满足

流量退去之后|南京“10元手冲咖啡”阿姨:火过,就很满足

澎湃新闻
2026-03-26 07:06:31
成都“牵手门”事件女主现今状况曝光,太惨了......

成都“牵手门”事件女主现今状况曝光,太惨了......

许三岁
2026-03-17 07:34:05
一口气刷完全集,Netflix新剧又杀疯了

一口气刷完全集,Netflix新剧又杀疯了

来看美剧
2026-03-26 19:45:54
20亿美元还不够!中企对巴拿马索赔涨价,巴政府内部已经乱套了

20亿美元还不够!中企对巴拿马索赔涨价,巴政府内部已经乱套了

悄悄史话
2026-03-26 14:09:05
新华社消息|伊朗官员:美以袭击已造成伊朗至少1750人死亡

新华社消息|伊朗官员:美以袭击已造成伊朗至少1750人死亡

新华社
2026-03-26 10:06:18
洛克希德·马丁:将精确打击导弹产量提升四倍

洛克希德·马丁:将精确打击导弹产量提升四倍

财联社
2026-03-25 19:18:36
曝张雪峰在苏州举办葬礼,生前最后一次直播,趴桌子上身体已不适

曝张雪峰在苏州举办葬礼,生前最后一次直播,趴桌子上身体已不适

180视角
2026-03-25 16:58:57
斯柯达将退出中国,大众中国回应

斯柯达将退出中国,大众中国回应

第一财经资讯
2026-03-26 15:14:56
曼城115项指控迎大结局?专家预测扣分在40到60分之间

曼城115项指控迎大结局?专家预测扣分在40到60分之间

乐道足球
2026-03-26 19:55:49
拉里贾尼继任者不到一天被杀,川普加派82空降师开赴中东

拉里贾尼继任者不到一天被杀,川普加派82空降师开赴中东

移光幻影
2026-03-26 09:56:37
李幼平同志逝世

李幼平同志逝世

澎湃新闻
2026-03-26 18:05:03
2026-03-27 00:24:49
钛媒体APP incentive-icons
钛媒体APP
独立财经科技媒体
131380文章数 862014关注度
往期回顾 全部

科技要闻

美团发布外卖大战后成绩单:亏损超200亿

头条要闻

张雪峰留巨额遗产:二婚妻子或拿50% 剩下的女儿占1/3

头条要闻

张雪峰留巨额遗产:二婚妻子或拿50% 剩下的女儿占1/3

体育要闻

申京努力了,然而杜兰特啊

娱乐要闻

刘晓庆妹妹发声!称姐姐受身边人挑拨

财经要闻

油价"驯服"特朗普?一到100美元就TACO

汽车要闻

一汽奥迪A6L e-tron开启预售 CLTC最大续航815km

态度原创

时尚
家居
教育
旅游
游戏

400万人爱过的女孩,被黄谣网暴180天后

家居要闻

傍海而居 静观蝴蝶海

教育要闻

天天学习|走进课堂的“大朋友”

旅游要闻

3月26日最佳情报|郊野公园杨柳依依,樱花烂漫醉游人!恭喜

"死亡搁浅"外骨骼来了!小岛工作室转发联名 原度拉满

无障碍浏览 进入关怀版