网易首页 > 网易号 > 正文 申请入驻

刚刚,OpenAI 发布 ChatGPT 版 Manus!奥特曼:感受 AGI 时刻

0
分享至

过去大半年,Agent(智能体)是 AI 行业最常被提及的概念之一。

几乎所有厂商都在讲 Agent,概念不缺,demo 也不少,但真正做到产品级落地,始终缺一套完整的执行系统——既能理解复杂目标,又能调用多种工具串联任务流程,还要随时支持任务中断、修改与恢复,真正贴合用户工作流。

就在刚刚,OpenAI 正式发布 ChatGPT Agent 功能。

通过整合 Operator + Deep Research + ChatGPT 本体,用户只需描述任务,ChatGPT Agent 就能自主判断所需工具,自动访问网页、提取信息、运行代码、生成幻灯片或表格等,并可在执行过程中实时展示步骤、接受中断和修改指令。

发布会结束后,OpenAI CEO Sam Altman 在社交媒体上写道::

观看 ChatGPT Agent 使用计算机完成复杂任务,对我来说是一个真正的「感受 AGI」时刻;看到计算机思考、计划和执行,有种与众不同的感觉。

亮点如下:

  • ChatGPT Agent 将 Operator、Deep Research 与 ChatGPT 本体三合一,构建了一个统一智能体系统。
  • 内置图形/文本浏览器、终端和 API 调用器等工具,支持手机端使用,任务完成后可自动推送结果;
  • 可连接 Gmail、GitHub 等第三方应用,深度嵌入用户真实工作流;
  • 在多项基准测试中表现领先,综合性能位居行业前列;
  • Pro 用户每月享有 400 条调用额度,其他付费用户为 40 条,并支持按需扩展配额。

ChatGPT Agent 正式上线,能购物,能写 PPT,你的浏览器要被 AI 接管了

今天开始,你可以在任何对话中,通过聊天界面左下角的「工具」下拉菜单,选择「Agent 模式」来启用这一功能。

只需描述你想完成的任务,ChatGPT 能够智能地浏览网站、筛选结果、在需要时安全提示你登录、运行代码、执行分析,甚至输出可编辑的幻灯片和电子表格,总结任务结果。

整个执行过程是可视的——操作步骤会实时显示在屏幕上,用户可以随时中断、修改指令,甚至手动「接管浏览器」继续操作,确保任务始终符合你的目标和需求。

在今天凌晨的演示中,OpenAI 展示了 ChatGPT Agent 在真实场景中的应用能力。

比如,为即将出席的婚礼做准备,一直是个难题。现在只需发出请求,ChatGPT Agent 迅速搭建虚拟环境,自主判断应调用浏览器、文本解析器还是终端,并开始依次调取婚礼日期、查询场地天气、推荐西装搭配、筛选酒店。在这个过程中,模型可以与 OpenAI 研究员进行互动,并在适当节点请求确认需求。

更重要的是,用户可以随时中断任务。

比如当 Agent 在推荐西装过程中,OpenAI 研究员临时插入了「帮我找一双 9.5 码黑色正装鞋」的请求,模型立刻暂停当前任务,转而处理新需求。

同样地,当智能体认为有必要时,也会主动向你请求更多信息,确保任务始终与你的目标保持一致。如果任务超出预期时间或出现卡顿,你可以选择暂停任务、请求进度摘要,或直接终止任务并获取已有的部分结果。

「这种可打断、可多轮对话的机制,是我们这次训练模型的重点之一,」OpenAI 研究员解释道。

这一能力背后,是 ChatGPT Agent 对三大系统的统一整合:Operator 提供网页交互能力,支持自动滚动、点击、填表;Deep Research 擅长信息整合与分析;ChatGPT 本体则负责自然语言理解与智能推理。

ChatGPT Agent 是通过强化学习在复杂的任务中训练出来的,过去三者各有短板——前者难以深入分析,后者无法操作网页,而 Agent 将三者优势整合为一体,并辅以浏览器、终端、API 调用器等工具,形成一个完整的执行系统。

用户不仅可以在桌面端启动 Agent 模式,在手机端也同样适用。

任务完成后还将自动推送结果通知。在第二个演示任务中,OpenAI 研究员在 ChatGPT App 上传了团队吉祥物 Bernie Doodle 的贴纸图案,Agent 自动调用图像生成 API 设计贴纸样式,通过浏览器访问电商平台完成比价、样式选择、购物车添加,最终整理出定制贴纸的下单明细。

当然,为确保流程安全、灵活且清晰可控,面对涉及金额的支付环节,则只会由用户手动接管浏览器完成。

通过连接器,用户还可将 Gmail、GitHub 等日常应用接入 ChatGPT,让模型读取邮件、日历或代码库等上下文内容,并执行诸如总结今天的邮箱内容或查找下周空闲会议时间等任务。

一个更典型的应用场景是,OpenAI 研究员能够让 ChatGPT Agent 汇总自己在多项基准测试中的表现,并制作成幻灯片。收到命令后,Agent 会调用 Google Drive 连接器读取数据文件,用终端编写代码绘制图表,并生成完整的 PPT。

这类自动化能力,都是 Agent 深度嵌入工作流的体现。

不过,可以看到,ChatGPT Agent 生成的 PPT 在设计审美方面表现比较一般,并且,虽然可以上传电子表格供 ChatGPT 编辑或作为模板使用,但生成的 PPT 暂不支持二次修改。

需要说明的是,OpenAI 并不是让 Agent 像人一样打开 PPT或 Excel 文件,通过点击来插入文本框和公式,而是直接生成代码来创建文档。这种做法的好处是可以利用模型在代码编写方面的天然优势,避免因模拟点击操作带来的效率低下或出错,也降低了对计算资源的消耗。

The Information 报道指出,如果 ChatGPT 要直接编辑 PPT 或 Excel 文件,就需要启动一台「虚拟机」(即通过 ChatGPT 运行的虚拟计算机环境),这会占用更多计算资源。

而直接生成代码则更轻量、高效。尽管潜力巨大,但就目前来看,这一功能短期内很难对微软的 Office 或者 Google Workspace 造成冲击。

对于 ChatGPT Agent 功能,Pro 用户将在今天之内获得访问权限;Plus 与 Team 用户将在接下来的几天内陆续开放;企业版(Enterprise)和教育版(Education)将在未来几周内上线

Pro 用户每月可使用 400 条消息,其他付费用户每月可使用 40 条消息,并可通过弹性积分方案购买更多额度。

全线刷新「跑分」记录,Agent 战场迎来最强对手

ChatGPT Agent 能力的提升,也体现在「跑分」环节。

在评估 AI 解决跨学科专家级问题的基准测试 Humanity’s Last Exam(HLE)中,搭载智能体的 ChatGPT 模型以 41.6 的 pass@1 得分刷新纪录。在启用并行执行策略后,该得分进一步提升至 44.4。

在目前被认为最具挑战性的数学基准 FrontierMath 中,面对难度极高、从未公开的题目,ChatGPT Agent 在具备终端代码执行能力的前提下,取得了 27.4% 的准确率,远高于此前模型。

在这一复杂且高经济价值的知识型工作任务的内部基准测试中,ChatGPT Agent 在约一半的任务中输出质量已达到甚至超过人类水平,表现也显著优于 o3 和 o4-mini 模型。

在一个内部的投行建模任务基准中,ChatGPT 智能体的表现也显著优于 Deep Research 和 o3 模型。每个任务都基于数百项关于公式正确性、格式规范等评分标准进行评估。

此外,在公开评估模型信息查找能力的 BrowseComp 基准上,Agent 以 68.9% 的准确率刷新记录,较 Deep Research 高出 17.4 个百分点。在 WebArena 评估中,其网页任务执行能力也优于基于 o3 的 CUA 模型。

从平台视角看,Agent 能力的底层接口,正是浏览器。

在 Perplexity AI CEO Aravind Srinivas 最近的采访中,他表示浏览器将会是 AI 的「杀手级应用」。在他看来,浏览器天然具备让 AI 真正「动起来」的全部条件。

不同于传统聊天机器人,AI Agent 的理想形态不是停留在对话框中生成文本,而是具备实际行动力——从访问网页、提取信息、填写表单,到执行跨平台操作。而这一切,浏览器恰好具备所需的操作权限和上下文获取能力。

浏览器可以直接读取页面、模拟点击、自动执行任务,几乎无需额外授权。

在这个过程中,用户与 AI 共处于同一个交互空间:AI 可以自动执行任务,用户也能随时中断或接管,避免黑盒操作带来的不确定性。这种可控性与透明度,是当前许多上下文协议仍难实现的能力。

如今,随着 ChatGPT Agent 能力正式上线,所有声称要做 Agent 的厂商,恐怕都要重新审视自己的产品路径。

当 ChatGPT 从语言交互工具,转向具备协作、调度与承接任务能力的执行系统,开始接入用户的真实工作流,Agent 的可用性门槛,也在此刻被实质性地拉高。

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
荡绳项目调查:“拿到合法证件的,一个都没有”

荡绳项目调查:“拿到合法证件的,一个都没有”

中国新闻周刊
2026-05-12 22:37:10
中午 11 时,中美磋商准时开场,特朗普没想到:中国居然真这么强

中午 11 时,中美磋商准时开场,特朗普没想到:中国居然真这么强

桑启红原
2026-05-14 10:25:20
曼城还没放弃!3-0后差榜首2分,下周不赢英超前六=送阿森纳夺冠

曼城还没放弃!3-0后差榜首2分,下周不赢英超前六=送阿森纳夺冠

体育知多少
2026-05-14 06:08:01
美国国家公园来了5头新骡子:一头能驮200斤

美国国家公园来了5头新骡子:一头能驮200斤

像素与芯片
2026-05-13 06:20:56
起底 Token 中转黑色产业链:日赚 200 万美金!大佬扎堆入局,灰色套利套路碾压现金贷

起底 Token 中转黑色产业链:日赚 200 万美金!大佬扎堆入局,灰色套利套路碾压现金贷

新浪财经
2026-05-12 00:15:49
大瓜!许家印昔日恒大奢靡细节流出,丁玉梅海外包养30岁白人小伙

大瓜!许家印昔日恒大奢靡细节流出,丁玉梅海外包养30岁白人小伙

壹月情感
2026-05-09 00:00:07
《给阿嬷的情书》破亿,史上“最寒酸”赞助商赢麻了

《给阿嬷的情书》破亿,史上“最寒酸”赞助商赢麻了

首席品牌观察
2026-05-12 14:44:48
房产圈最近最大的瓜,当属贝壳2025年财报的发布——没有惊喜,全是惊吓

房产圈最近最大的瓜,当属贝壳2025年财报的发布——没有惊喜,全是惊吓

每日质量报道网
2026-05-11 12:04:19
87亿打水漂!当初抢的时候多嚣张,现在就多狼狈:荷兰大臣哭晕

87亿打水漂!当初抢的时候多嚣张,现在就多狼狈:荷兰大臣哭晕

观史搜寻着
2026-05-13 12:50:11
独属中国军人的气质,稳如泰山

独属中国军人的气质,稳如泰山

三叔的装备空间
2026-05-13 22:44:53
空袭或致乌克兰不再出售可口可乐!再次TACO:特朗普退出俄乌调停

空袭或致乌克兰不再出售可口可乐!再次TACO:特朗普退出俄乌调停

鹰眼Defence
2026-05-13 17:24:06
章子怡“泼墨门”主谋,叶剑英儿媳,离婚后转战商圈竟成资本大鳄

章子怡“泼墨门”主谋,叶剑英儿媳,离婚后转战商圈竟成资本大鳄

财叔
2026-05-11 08:40:12
中美谈妥,贝森特握紧中方的手,新的情况发生,外资加仓中国资产

中美谈妥,贝森特握紧中方的手,新的情况发生,外资加仓中国资产

芳芳历史烩
2026-05-14 10:16:47
5千万挥霍一空后,沦落超市打工,不敢见人!马蓉现状太落魄

5千万挥霍一空后,沦落超市打工,不敢见人!马蓉现状太落魄

明天后天大后天
2026-05-13 11:56:55
“老员工眼里的显眼包行为……”啊啊啊啊啊啊代入感太强了!!

“老员工眼里的显眼包行为……”啊啊啊啊啊啊代入感太强了!!

不二表姐
2026-05-13 22:30:39
穆帅若回皇马要买谁?四人引援名单曝光,老佛爷看完得破产!

穆帅若回皇马要买谁?四人引援名单曝光,老佛爷看完得破产!

仰卧撑FTUer
2026-05-13 13:13:03
哈登vs坎宁安:“詹姆斯”、活塞、命运的天王山

哈登vs坎宁安:“詹姆斯”、活塞、命运的天王山

张佳玮写字的地方
2026-05-14 11:54:53
骑士赢球仍存两隐患,哈登看清现实!米切尔两人救赎,一人该首发

骑士赢球仍存两隐患,哈登看清现实!米切尔两人救赎,一人该首发

鱼崖大话篮球
2026-05-14 11:45:56
广东一男子伪造学历同时入职5家企业领高薪,还虚构购销合同混业绩,被判刑

广东一男子伪造学历同时入职5家企业领高薪,还虚构购销合同混业绩,被判刑

极目新闻
2026-05-14 09:58:58
小宝与王某雷,谁探访花的数量更多?

小宝与王某雷,谁探访花的数量更多?

挪威森林
2026-01-31 12:15:26
2026-05-14 12:19:00
爱范儿 incentive-icons
爱范儿
消费科技第一媒体
38850文章数 2601668关注度
往期回顾 全部

科技要闻

马斯克:只有我和黄仁勋坐上了"空军一号"

头条要闻

媒体:特朗普开始访华 中方有一句话是说给全世界听的

头条要闻

媒体:特朗普开始访华 中方有一句话是说给全世界听的

体育要闻

哈登30+8+6创8纪录 第8次赢天王山

娱乐要闻

肖战提名金海燕奖,这一步走得太稳

财经要闻

片仔癀依旧困在“片仔癀”

汽车要闻

C级纯电轿跑 吉利银河"TT"申报图来了

态度原创

艺术
游戏
教育
时尚
亲子

艺术要闻

充满光感的花卉油画 | 亚历山大·沙巴德伊

索尼CEO警告:PS5未来可能涨价!不过今年库存充足

教育要闻

想让躺平的孩子少花钱,只需做到一件事!

T恤+低腰阔腿裤、衬衫+低腰半裙,今年夏天最时髦的搭配,谁穿谁好看!

亲子要闻

辅酶q10备孕是什么时间吃?39岁卵巢早衰还能怀孕吗?

无障碍浏览 进入关怀版