网易首页 > 网易号 > 正文 申请入驻

官方揭秘ChatGPTAgent背后原理!通过强化学习让模型自主探索工具

0
分享至

不圆 发自 凹非寺
量子位 | 公众号 QbitAI

ChatGPT Agent的技术内幕,被官方披露了。

就在OpenAI官方推出其最强智能体后,外界褒与贬的热议都没停过……但不论如何,都被视为智能体方向上标志性的一步,是OpenAI一个全新的开端。

关于更进一步的Agent Mode的工作原理,OpenAI开发团队在和投资方红杉资本的圆桌谈话中做了详细解析,还回答了几个值得关注的问题。

这是OpenAI官方首次详细解析ChatGPT Agent功能背后的原理。

ChatGPT Agent由以下四个部分组成:

  • Deep Research(基于文本的研究智能体)
  • Operator(基于GUI/操作的计算机智能体)
  • 其他新工具(终端、图像生成、API调用等)
  • 通过共享状态进行整合

然而,智能体也不是想要整合就能整合的,在这场谈话中,OpenAI透露了他们的训练方法,以及他们为ChatGPT Agent做出的组织调整

量子位提取并总结了一些关键信息,让我们一起来看。

歪打正着的起源

在正式走近ChatGPT Agent之前,让我们介绍一下这次谈话的几位主角,他们分别是OpenAI团队核心成员Isa FulfordCasey Chu孙之清

  • Isa Fulford,斯坦福大学计算机科学硕士(人机交互方向),2022年11月加入OpenAI,现主导ChatGPT Agent的交互范式设计。
  • Casey Chu,OpenAI资深员工,斯坦福数学硕士,领导GPT-4视觉输入初始原型开发,现为Operator/ChatGPT Agent技术负责人。
  • 孙之清,95后北大校友,DeepResearch负责人,去年6月博士还没毕业就加入了OpenAI,在后训练团队担任研究科学家,已参与OpenAI的诸多核心项目。

在这次的谈话中,他们介绍了ChatGPT Agent的起源:

  • 我们团队分别开发了Operator和Deep Research,在分析用户请求时发现,Deep Research的用户非常希望模型能够访问需要付费订阅的内容或有门槛的资源,而Operator恰好具备这种能力。
    通过分析Operator的用户提示发现,很多用户实际上试图用它执行Deep Research类型的任务。
    除了整合两个核心工具,我们还添加了终端、图像生成等多项功能。

原本两个功能不同的智能体,就这样在用户的“错用”下合二为一,变成了一个更通用的ChatGPT Agent。

1+1>2,怎么做到的?

简单地说,ChatGPT Agent是Deep Research和Operator合作的成果。

Deep Research擅长文本阅读与综合报告,而Operator擅长视觉交互(如点击、输入、滚动);在此基础上,ChatGPT Agent补足了Deep Research不擅长多轮对话的短板,能持续协作;又能在保持视觉交互的同时,执行研究类任务。

但它们是如何整合到一起的呢?

在这次圆桌谈话中,ChatGPT Agent团队首次披露了他们的训练方法:将所有工具集成至虚拟机,通过强化学习让模型自主探索最佳工具组合

具体来说,在训练过程中,模型被赋予所有可用的工具,例如文本浏览器、虚拟浏览器、终端工具和图像生成工具,它们都运行在同一个虚拟机(VM)环境中,并且所有工具都共享状态,类似于一台电脑上不同应用程序访问相同文件系统的方式。

这种设计使ChatGPT Agent能高效处理互联网、文件系统和代码等交互任务。研究团队没有预先定工具使用规则,而是让模型通过强化学习自行发现最佳策略。

研究团队会创建一系列难度较高的任务,而模型需要调用已有的工具来完成任务。通过奖励机制,如果模型能够高效且正确地完成任务,它就会得到奖励,从而学会如何更好地执行任务。

训练后的模型能够通过实验自主学习如何高效、正确地完成任务,并流畅地在各种工具之间切换,而无需被明确告知何时使用何种工具。

例如,如果任务要求研究餐厅并预订,模型可能会先使用文本浏览器进行研究,然后切换到图形用户界面(GUI)浏览器查看食物图片或预订可用性(这通常需要实际的GUI浏览器来处理JavaScript元素)。

ChatGPT Agent团队认为这种训练方法潜力巨大。ChatGPT Agent目前仅为最简可行产品(Minimum Viable Product,MVP),但已经展现出强大的能力。同样的强化学习算法也适用于Deep Research、Operator,研究团队在短时间内就取得了这些成果,未来还有很大提升空间。

在交互性方面,ChatGPT Agent团队主要关注端到端性能,从用户提示到任务完成。

ChatGPT Agent在与用户交互方面表现良好,部分原因是它在训练中纳入了多样化的任务轨迹,用户可随时干预,提供澄清或更正,它也能根据反馈调整行为。

ChatGPT Agent的开发可追溯到2017年的World of Bits项目,最大的变化是训练规模的提升,无论是预训练还是强化学习,计算量可能增加了数十万倍,使ChatGPT Agent的短时间开发得以实现。

小团队能成大事

OpenAI为了打造ChatGPT Agent,对其下的组织架构做出了调整。

比方说参与这次圆桌谈话的Isa Fulford和孙之清,是Deep Research团队的核心成员,而Casey Chu是Operator的技术负责人。

简单地讲,ChatGPT Agent团队由Deep Research和Operator的研究与应用团队合并而成。

这个团队的总人数并不多,Deep Research团队最初只有3-4人,Operator团队约6-8人,合并在一起,加上产品和设计人员,也就20到35人,但他们花几个月就完成了这个项目。

他们在谈话中表示,ChatGPT Agent团队对研究与应用的界限并不严格,应用工程师参与模型训练,研究人员也参与模型部署

研究与应用团队紧密合作,从定义产品功能到模型训练均以用户场景为导向。

这种跨职能合作使项目充满活力,团队氛围非常好。

虽然ChatGPT Agent尚未完全实现所有目标,但这种组织框架使他们能够快速迭代。

安全机制与未来发展

谈话还提到了ChatGPT Agent遇到的挑战,以及他们对未来的展望。

在训练过程中,ChatGPT Agent遇到的最大的挑战是训练的稳定性问题,ChatGPT Agent需同时处理多种新工具,且都在同一虚拟机环境中运行。这就需要同时运行成千上万的虚拟机访问网络,经常遇到网站宕机、API限制或网络容量不足等问题。

某些网站可能因流量过载而暂时不可用,或者API调用因速率限制而失败,这要求研究团队在训练中加入鲁棒性机制,确保ChatGPT Agent能处理这些异常情况。

另外,由于ChatGPT Agent能够执行具有外部副作用的操作(例如购买物品),研究团队在安全方面投入了大量精力,实施了多层次安全措施,包括以下四个方面:

  • 实时监控系统检测异常行为,若发现可疑操作会立即暂停任务
  • 执行敏感操作前强制用户确认
  • 生物风险专项防护
  • 支持用户随时接管操作

研究团队特别关注了生物风险等严重问题,例如防止ChatGPT Agent被用于创建生物武器。

对于未来的展望,ChatGPT Agent团队在这次谈话中表示,OpenAI倾向于打造一个通用的超级智能体

虽然单一智能体模型在扩展性和通用性上更具潜力,但研究团队希望通过持续优化,让ChatGPT Agent能够无缝处理从简单查询到复杂工作流的各种任务,减少用户对多个专用模型的依赖。

从市场价值的角度来看,定制化模型可能更优,但从训练角度看,通用智能体能更好地利用技能的可迁移特性。研究团队也在探索如何通过强化学习进一步提高ChatGPT Agent的泛化能力,在遇到全新任务时快速适应,而无需大量额外训练数据。

未来,ChatGPT Agent可能通过学习用户反馈,动态调整其行为模式,进一步提升任务完成的精准度

总的来说,ChatGPT Agent的未来发展方向如下:

  • 增强多轮对话与个性化记忆
  • 开发主动服务能力
  • 探索更自然的交互范式
  • 提升复杂任务(如数据分析)的完成度

目前ChatGPT Agent已开放使用,Plus用户每月有40次使用额度。

ChatGPT Agent的研究团队在采访中表示,他们有意设计了一个开放式的智能体,鼓励用户探索其潜力。

参考链接:
[1]https://x.com/sonyatweetybird/status/1947718831075693055?s=46
[2]https://www.youtube.com/watch?v=YNWWu0aZ5pY
[3]https://x.com/OpenAI/status/1945904743148323285

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
“勾引”女人最狠的一招:主动戳中她这3个崩溃的秘密

“勾引”女人最狠的一招:主动戳中她这3个崩溃的秘密

娱乐洞察点点
2026-03-27 00:09:32
德转列世预赛附加赛最贵11人:居莱尔领衔,意大利五人入选

德转列世预赛附加赛最贵11人:居莱尔领衔,意大利五人入选

懂球帝
2026-03-26 16:09:08
官方:CCTV5、央视频等平台将转播国足vs库拉索

官方:CCTV5、央视频等平台将转播国足vs库拉索

懂球帝
2026-03-26 17:12:06
伊朗正式回应“15点停火协议”

伊朗正式回应“15点停火协议”

澎湃新闻
2026-03-26 23:03:02
小区楼上天天晚上都有女的大声叫。。。

小区楼上天天晚上都有女的大声叫。。。

微微热评
2025-12-24 00:26:04
伊朗发动第82波打击

伊朗发动第82波打击

闪电新闻
2026-03-26 18:32:07
致命围堵!7500人强攻哈尔克岛计划曝光,伊朗的生死线要被掐断了

致命围堵!7500人强攻哈尔克岛计划曝光,伊朗的生死线要被掐断了

闻香阁
2026-03-25 22:07:27
广东3消息!徐杰胡明轩齐发声,徐昕无缘回归,焦泊乔伤愈复出

广东3消息!徐杰胡明轩齐发声,徐昕无缘回归,焦泊乔伤愈复出

多特体育说
2026-03-26 22:41:13
柯文哲怒喊 赖清德,我绝对不会投降!

柯文哲怒喊 赖清德,我绝对不会投降!

蓝色海边
2026-03-27 00:21:24
印度不装了!当中国武统台湾时,印度不仅要夺取西藏还要吞噬新疆

印度不装了!当中国武统台湾时,印度不仅要夺取西藏还要吞噬新疆

开着车去流浪
2026-02-12 05:35:21
李连杰当面一句“我刚换了心脏”,谢苗脸唰一下白了,气都不敢喘

李连杰当面一句“我刚换了心脏”,谢苗脸唰一下白了,气都不敢喘

西楼知趣杂谈
2026-02-28 21:36:48
别克gl8价格崩盘了,新车这样的落地价,大家觉得怎么样

别克gl8价格崩盘了,新车这样的落地价,大家觉得怎么样

西莫的艺术宫殿
2026-03-27 01:17:03
澳门国民党中将吕文贞突然说,我是李克农的人,该向组织报到了

澳门国民党中将吕文贞突然说,我是李克农的人,该向组织报到了

鹤羽说个事
2026-03-25 21:56:09
贾国龙59元焖面实测后,网友喊话罗永浩:当初骂西贝算是白骂了

贾国龙59元焖面实测后,网友喊话罗永浩:当初骂西贝算是白骂了

阿莱美食汇
2026-03-27 02:27:13
中国最有名的9条家训,读懂一条旺家三代,建议收藏反复背诵

中国最有名的9条家训,读懂一条旺家三代,建议收藏反复背诵

长风文史
2026-03-25 17:58:23
因妈妈姓氏太特殊,全家一致通过“随母姓”,网友:是我也随母姓

因妈妈姓氏太特殊,全家一致通过“随母姓”,网友:是我也随母姓

谭老师地理大课堂
2026-03-24 07:37:08
曾经搭档,结局两重天!柯文哲面临重罪下午宣判,侯友宜访澳回台

曾经搭档,结局两重天!柯文哲面临重罪下午宣判,侯友宜访澳回台

蓝色海边
2026-03-27 01:54:10
李金羽:邦本打替补纯是战术考量,我们很坦诚但外界过分解读

李金羽:邦本打替补纯是战术考量,我们很坦诚但外界过分解读

懂球帝
2026-03-26 21:28:17
反侦查能力太强!梅姨躲了20年,警方曾抛出“她或不存在”烟雾弹

反侦查能力太强!梅姨躲了20年,警方曾抛出“她或不存在”烟雾弹

火山詩话
2026-03-22 06:54:34
太心酸了!42岁著名女歌手江苏走穴,宾客只顾吃席没人搭理

太心酸了!42岁著名女歌手江苏走穴,宾客只顾吃席没人搭理

小徐讲八卦
2026-02-12 12:13:20
2026-03-27 03:47:00
量子位 incentive-icons
量子位
追踪人工智能动态
12348文章数 176425关注度
往期回顾 全部

科技要闻

美团发布外卖大战后成绩单:亏损超200亿

头条要闻

特朗普:伊朗允许10艘油轮通行霍尔木兹海峡

头条要闻

特朗普:伊朗允许10艘油轮通行霍尔木兹海峡

体育要闻

申京努力了,然而杜兰特啊

娱乐要闻

刘晓庆妹妹发声!称姐姐受身边人挑拨

财经要闻

油价"驯服"特朗普?一到100美元就TACO

汽车要闻

一汽奥迪A6L e-tron开启预售 CLTC最大续航815km

态度原创

健康
房产
家居
游戏
军事航空

转头就晕的耳石症,能开车上班吗?

房产要闻

突发,三亚又有大批征迁补偿方案出炉!

家居要闻

傍海而居 静观蝴蝶海

PS1大IP游戏藏私货!成人手绘与盗版马里奥ROM塞满

军事要闻

担心特朗普突然停战 以总理下令48小时尽力摧毁伊设施

无障碍浏览 进入关怀版