网易首页 > 网易号 > 正文 申请入驻

OpenAI发布综合代理ChatGPT Agent,能自动写代码+做PPT+订酒店

0
分享至

刚刚,OpenAI 发布新功能 ChatGPT Agent。

这项新功能的核心是统一的代理系统,一个能够代替用户完成多项复杂任务的综合 AI 代理工具。

ChatGPT Agent 的强大之处在于它整合了 OpenAI 此前推出的多个 AI 工具的能力。它结合了 Operator 与网站的交互能力、Deep Research 的信息整合能力,以及 ChatGPT 的智能和对话流畅性。

ChatGPT Agent 功能运行在虚拟机上。即使使用多种工具,该虚拟机也能保留任务所需的上下文。它可以选择使用文本浏览器或可视化浏览器打开页面,从网络下载文件,通过在终端中运行命令进行操作,然后在可视化浏览器中查看输出。

ChatGPT Agent 具备推理能力,能够自动搜索网页,浏览用户的日历,生成可编辑的 PPT,运行代码,甚至可以通过连接 Gmail 和 GitHub 等应用程序来查找与用户提示相关的信息。

更重要的是,ChatGPT Agent 拥有访问终端(Terminal)的能力,可以调用 API 完成访问特定应用程序、生成图片等任务。

OpenAI 的产品负责人亚什·库马尔(Yash Kumar)和研究负责人艾莎·富尔福德(Isa Fulford)在接受采访时表示,这个工具由一个专门为此产品开发的新模型驱动。该模型通过强化学习技术进行训练,能够处理需要多种工具配合的复杂任务。

从今天起,ChatGPT Pro、Plus 和 Team 计划的订阅者将可以使用 ChatGPT Agent。用户可以在 ChatGPT 的工具下拉菜单中选择"agent mode"或输入"/agent"来访问该工具。Pro 用户每月可发送 400 条消息,其他付费用户每月可发送 40 条消息。

OpenAI 表示,将在今年夏天晚些时候为 Enterprise 和 Education 用户提供此功能。

OpenAI 在直播中展示了它如何帮助用户执行一系列与参加婚礼有关的任务,包括挑选合适的衣服、挑选 500 美元以下的礼物、查找合适的酒店等等。

挑选合适的衣服,还可以看到 Agent 的思考过程:

Agent 还可以访问谷歌网盘:

调用终端写代码:

生成 PPT:

在 Agent 工作过程中,用户还可以打断它并添加新的要求,就像与人类助手交互一样。

为了开发这个新工具,OpenAI 将 Operator 和 Deep Research 背后的团队合并为一个统一团队。OpenAI 透露,这个新团队由 20 到 35 名产品和研究人员组成。

根据 OpenAI 提供的基准测试数据,该工具在多项评估中展现出了先进的性能。

在"人类最后考试"(Humanity's Last Exam)这个困难测试中,ChatGPT Agent 获得了 41.6% 的分数(pass@1)。这个测试包含数千个涵盖一百多个学科的问题,而 ChatGPT Agent 的表现大约是 OpenAI 的 o3 和 o4-mini 模型得分的两倍。

这个分数虽不及 xAI 刚推出的 Grok 4(Heavy 模式下 44.4%),但差距也只有不到 3%。

在被认为是最困难的数学基准测试 FrontierMath 中,当 ChatGPT Agent 可以访问工具(如用于代码执行的终端)时,它获得了 27.4% 的分数(Tier 1-3)。

相比之下,此前最先进的 o4-mini 模型仅获得 19.3% 的分数,Gemini Pro 2.5 仅有 11%。这种性能提升表明,得益于能更好地使用工具,ChatGPT Agent 在处理复杂数学问题方面有了质的飞跃。

在内部测试的实际应用场景中,ChatGPT Agent 展现出了惊人的实用性。

富尔福德表示,她特别喜欢用它来网购,因为 Deep Research 和 Operator 技术的结合比单独使用 Operator 更好、更全面。库马尔则开始使用 ChatGPT Agent 来自动化生活中的小事情,比如自动申请 OpenAI 的办公室停车位,避免到了公司才想起没有申请停车位。

虽然 ChatGPT Agent 功能强大,但在使用过程中也存在一些需要注意的地方。直播演示显示,该工具的运行速度较慢。OpenAI 对此表示,团队更专注于“优化困难任务”,在理想场景下,用户不需要坐着观看或监督 ChatGPT Agent 工作。

OpenAI 还使用以复杂的现实任务为模型的基准测试对 Agent 进行了评估。在一个旨在评估模型在“复杂且具有经济价值的知识工作任务”表现的内部基准测试中,在大约一半的情况下,Agent 的表现与人类相当或更好,同时明显优于 o3 和 o4-mini。

“即使需要 15 分钟、半小时,与你自己完成这些任务所需的时间相比,这仍然是相当大的加速。”富尔福德补充道,“我们更专注于低延迟用例。这是那种你可以在后台启动然后回来查看结果的工具。”

换言之,它不是为了实时交互而设计的,而是为了处理那些需要时间但用户不想亲自完成的复杂任务。

考虑到 ChatGPT Agent 增强的能力可能在恶意使用者手中变得更加危险,OpenAI 在开发过程中特别重视安全性。在 ChatGPT Agent 执行任何“不可逆”操作之前,如发送电子邮件或进行预订,它会首先请求用户许可。

由于该工具背后的模型具有增强的能力,OpenAI 已经激活了为“高级生物和化学能力”创建的保护措施,尽管公司表示它没有“直接证据表明该模型可以有意义地帮助新手创造严重的生物或化学武器伤害”。今年 5 月,Anthropic 在发布其 Claude 模型 Opus 4 时也激活了类似的保护措施。

同时,该工具暂不支持有关金融交易的操作,并且还有一个名为 Watch Mode 的额外保护功能。当用户导航到特定类别的网页(如金融网站)时,他们不能离开 ChatGPT Agent 正在运行的标签页,否则工具将停止工作。

最后,OpenAI 也提醒称,目前生成的 PPT 可能会略显简陋,Agent 展示的 PPT 偶尔会与用户下载的 PPT 出现差异。他们已经开始下一次迭代,以生成更精致、更复杂的输出,并具有更广泛的功能和改进的格式。

参考资料:

https://openai.com/index/introducing-chatgpt-agent/

https://epoch.ai/frontiermath

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
长春亚泰6比0成都蓉城!重返中超稳了?上演一天两胜,打出统治力

长春亚泰6比0成都蓉城!重返中超稳了?上演一天两胜,打出统治力

罗掌柜体育
2026-02-01 15:03:02
大破防!华裔二代怒撕父母:你们当初移民美国,我们错过中国发展

大破防!华裔二代怒撕父母:你们当初移民美国,我们错过中国发展

星星会坠落
2026-01-31 23:18:10
果然不出所料!委内瑞拉正式宣布了!

果然不出所料!委内瑞拉正式宣布了!

达文西看世界
2026-01-31 19:13:13
HWG!罗马诺:博加租借加盟尤文,含500万欧非强制买断条款

HWG!罗马诺:博加租借加盟尤文,含500万欧非强制买断条款

懂球帝
2026-02-01 11:35:10
90多岁日本奶奶连续在一家公司干了快70年!会长甚至还当她“小弟”?

90多岁日本奶奶连续在一家公司干了快70年!会长甚至还当她“小弟”?

日本通
2026-01-30 10:33:54
“硅基少女”现身上海,全球首款完全仿生具身智能机器人Moya发布

“硅基少女”现身上海,全球首款完全仿生具身智能机器人Moya发布

IT之家
2026-01-31 11:52:08
不查不知道一查吓一跳,坐拥北京60亩马场的于谦,私下到底有多壕

不查不知道一查吓一跳,坐拥北京60亩马场的于谦,私下到底有多壕

小熊侃史
2026-01-20 07:40:05
警惕!仙人跳3.0杀疯了,专坑老实人,一次私了就可能毁终身

警惕!仙人跳3.0杀疯了,专坑老实人,一次私了就可能毁终身

老特有话说
2026-01-29 23:44:15
中资港口双线告急!美式霸权“黑手”伸向全球,中国岂能坐视?

中资港口双线告急!美式霸权“黑手”伸向全球,中国岂能坐视?

无情有思ss
2026-02-01 15:23:37
77年邓华复出,叶剑英问他有何要求,邓华:让我老哥重回部队工作

77年邓华复出,叶剑英问他有何要求,邓华:让我老哥重回部队工作

兴趣知识
2026-02-01 08:24:57
终于是时候了!2026老旧小区加梯新规,1楼6楼都支持,不用再吵了

终于是时候了!2026老旧小区加梯新规,1楼6楼都支持,不用再吵了

老特有话说
2026-01-30 23:03:43
后悔也晚了!大批F35逼到家门口,伊朗却发现红旗9和歼10还未到位

后悔也晚了!大批F35逼到家门口,伊朗却发现红旗9和歼10还未到位

文雅笔墨
2026-01-25 03:11:20
“很晦气,这房子不敢住了!” 杭州夫妻买房2年后得知一个消息,想退房了

“很晦气,这房子不敢住了!” 杭州夫妻买房2年后得知一个消息,想退房了

潇湘晨报
2026-01-31 10:38:17
上海明确:今年确保新增就业60万人以上,帮助2万名长期失业人员实现再就业

上海明确:今年确保新增就业60万人以上,帮助2万名长期失业人员实现再就业

纵相新闻
2026-02-01 03:17:18
国产半导体,具备“唯一性”的10家公司,机构扎堆抢筹(附名单)

国产半导体,具备“唯一性”的10家公司,机构扎堆抢筹(附名单)

白浅娱乐聊
2026-02-01 14:55:44
最新民调:郑丽文信任度28.7%、不信任度53.5%。真是弱鸡一只

最新民调:郑丽文信任度28.7%、不信任度53.5%。真是弱鸡一只

我心纵横天地间
2026-01-31 13:20:47
“秦岚”也太凡尔赛了吧!穿一身瑜伽服凹凸有致,巴掌腰太抢镜

“秦岚”也太凡尔赛了吧!穿一身瑜伽服凹凸有致,巴掌腰太抢镜

巧手晓厨娘
2025-12-30 18:59:18
大量变压器工厂已经处于满产的状态 其中部分面向数据中心的业务订单已排到2027年

大量变压器工厂已经处于满产的状态 其中部分面向数据中心的业务订单已排到2027年

财联社
2026-01-31 19:20:12
牢A命中,被一窝端16人都是女留学生

牢A命中,被一窝端16人都是女留学生

雪中风车
2026-01-28 13:23:54
本书当年在地下被广泛传抄,影响了一代人(刺痛,却令人清醒!)

本书当年在地下被广泛传抄,影响了一代人(刺痛,却令人清醒!)

尚曦读史
2026-01-29 07:07:36
2026-02-01 16:08:49
DeepTech深科技 incentive-icons
DeepTech深科技
麻省理工科技评论独家合作
16205文章数 514576关注度
往期回顾 全部

科技要闻

腾讯元宝宣布:10亿现金红包,今日开抢

头条要闻

马斯克曾问爱泼斯坦:岛上哪一晚会有"最疯狂的派对"

头条要闻

马斯克曾问爱泼斯坦:岛上哪一晚会有"最疯狂的派对"

体育要闻

锁喉吃红牌+扇耳光 英超15人打群架

娱乐要闻

马年春晚第三次联排,多位明星现身

财经要闻

黄仁勋台北"夜宴":汇聚近40位台企高管

汽车要闻

岚图汽车1月交付10515辆 同比增长31%

态度原创

教育
数码
手机
本地
公开课

教育要闻

10秒钟学会绝对值

数码要闻

苹果改进线上商店购机流程 Mac订单全面改为“自选配置”模式

手机要闻

不忘中端机!华为畅享70X获鸿蒙OS 6公测,功能不输旗舰

本地新闻

云游中国|拨开云雾,巫山每帧都是航拍大片

公开课

李玫瑾:为什么性格比能力更重要?

无障碍浏览 进入关怀版