网易首页 > 网易号 > 正文 申请入驻

官方揭秘ChatGPTAgent背后原理!通过强化学习让模型自主探索工具

0
分享至

不圆 发自 凹非寺
量子位 | 公众号 QbitAI

ChatGPT Agent的技术内幕,被官方披露了。

就在OpenAI官方推出其最强智能体后,外界褒与贬的热议都没停过……但不论如何,都被视为智能体方向上标志性的一步,是OpenAI一个全新的开端。

关于更进一步的Agent Mode的工作原理,OpenAI开发团队在和投资方红杉资本的圆桌谈话中做了详细解析,还回答了几个值得关注的问题。

这是OpenAI官方首次详细解析ChatGPT Agent功能背后的原理。



ChatGPT Agent由以下四个部分组成:

  • Deep Research(基于文本的研究智能体)
  • Operator(基于GUI/操作的计算机智能体)
  • 其他新工具(终端、图像生成、API调用等)
  • 通过共享状态进行整合

然而,智能体也不是想要整合就能整合的,在这场谈话中,OpenAI透露了他们的训练方法,以及他们为ChatGPT Agent做出的组织调整

量子位提取并总结了一些关键信息,让我们一起来看。

歪打正着的起源

在正式走近ChatGPT Agent之前,让我们介绍一下这次谈话的几位主角,他们分别是OpenAI团队核心成员Isa FulfordCasey Chu孙之清

  • Isa Fulford,斯坦福大学计算机科学硕士(人机交互方向),2022年11月加入OpenAI,现主导ChatGPT Agent的交互范式设计。
  • Casey Chu,OpenAI资深员工,斯坦福数学硕士,领导GPT-4视觉输入初始原型开发,现为Operator/ChatGPT Agent技术负责人。
  • 孙之清,95后北大校友,DeepResearch负责人,去年6月博士还没毕业就加入了OpenAI,在后训练团队担任研究科学家,已参与OpenAI的诸多核心项目。

在这次的谈话中,他们介绍了ChatGPT Agent的起源:

  • 我们团队分别开发了Operator和Deep Research,在分析用户请求时发现,Deep Research的用户非常希望模型能够访问需要付费订阅的内容或有门槛的资源,而Operator恰好具备这种能力。
    通过分析Operator的用户提示发现,很多用户实际上试图用它执行Deep Research类型的任务。
    除了整合两个核心工具,我们还添加了终端、图像生成等多项功能。

原本两个功能不同的智能体,就这样在用户的“错用”下合二为一,变成了一个更通用的ChatGPT Agent。

1+1>2,怎么做到的?

简单地说,ChatGPT Agent是Deep Research和Operator合作的成果。

Deep Research擅长文本阅读与综合报告,而Operator擅长视觉交互(如点击、输入、滚动);在此基础上,ChatGPT Agent补足了Deep Research不擅长多轮对话的短板,能持续协作;又能在保持视觉交互的同时,执行研究类任务。

但它们是如何整合到一起的呢?

在这次圆桌谈话中,ChatGPT Agent团队首次披露了他们的训练方法:将所有工具集成至虚拟机,通过强化学习让模型自主探索最佳工具组合

具体来说,在训练过程中,模型被赋予所有可用的工具,例如文本浏览器、虚拟浏览器、终端工具和图像生成工具,它们都运行在同一个虚拟机(VM)环境中,并且所有工具都共享状态,类似于一台电脑上不同应用程序访问相同文件系统的方式。

这种设计使ChatGPT Agent能高效处理互联网、文件系统和代码等交互任务。研究团队没有预先定工具使用规则,而是让模型通过强化学习自行发现最佳策略。

研究团队会创建一系列难度较高的任务,而模型需要调用已有的工具来完成任务。通过奖励机制,如果模型能够高效且正确地完成任务,它就会得到奖励,从而学会如何更好地执行任务。

训练后的模型能够通过实验自主学习如何高效、正确地完成任务,并流畅地在各种工具之间切换,而无需被明确告知何时使用何种工具。

例如,如果任务要求研究餐厅并预订,模型可能会先使用文本浏览器进行研究,然后切换到图形用户界面(GUI)浏览器查看食物图片或预订可用性(这通常需要实际的GUI浏览器来处理JavaScript元素)。

ChatGPT Agent团队认为这种训练方法潜力巨大。ChatGPT Agent目前仅为最简可行产品(Minimum Viable Product,MVP),但已经展现出强大的能力。同样的强化学习算法也适用于Deep Research、Operator,研究团队在短时间内就取得了这些成果,未来还有很大提升空间。

在交互性方面,ChatGPT Agent团队主要关注端到端性能,从用户提示到任务完成。

ChatGPT Agent在与用户交互方面表现良好,部分原因是它在训练中纳入了多样化的任务轨迹,用户可随时干预,提供澄清或更正,它也能根据反馈调整行为。

ChatGPT Agent的开发可追溯到2017年的World of Bits项目,最大的变化是训练规模的提升,无论是预训练还是强化学习,计算量可能增加了数十万倍,使ChatGPT Agent的短时间开发得以实现。

小团队能成大事

OpenAI为了打造ChatGPT Agent,对其下的组织架构做出了调整。

比方说参与这次圆桌谈话的Isa Fulford和孙之清,是Deep Research团队的核心成员,而Casey Chu是Operator的技术负责人。

简单地讲,ChatGPT Agent团队由Deep Research和Operator的研究与应用团队合并而成。



这个团队的总人数并不多,Deep Research团队最初只有3-4人,Operator团队约6-8人,合并在一起,加上产品和设计人员,也就20到35人,但他们花几个月就完成了这个项目。

他们在谈话中表示,ChatGPT Agent团队对研究与应用的界限并不严格,应用工程师参与模型训练,研究人员也参与模型部署

研究与应用团队紧密合作,从定义产品功能到模型训练均以用户场景为导向。

这种跨职能合作使项目充满活力,团队氛围非常好。

虽然ChatGPT Agent尚未完全实现所有目标,但这种组织框架使他们能够快速迭代。

安全机制与未来发展

谈话还提到了ChatGPT Agent遇到的挑战,以及他们对未来的展望。

在训练过程中,ChatGPT Agent遇到的最大的挑战是训练的稳定性问题,ChatGPT Agent需同时处理多种新工具,且都在同一虚拟机环境中运行。这就需要同时运行成千上万的虚拟机访问网络,经常遇到网站宕机、API限制或网络容量不足等问题。

某些网站可能因流量过载而暂时不可用,或者API调用因速率限制而失败,这要求研究团队在训练中加入鲁棒性机制,确保ChatGPT Agent能处理这些异常情况。

另外,由于ChatGPT Agent能够执行具有外部副作用的操作(例如购买物品),研究团队在安全方面投入了大量精力,实施了多层次安全措施,包括以下四个方面:

  • 实时监控系统检测异常行为,若发现可疑操作会立即暂停任务
  • 执行敏感操作前强制用户确认
  • 生物风险专项防护
  • 支持用户随时接管操作

研究团队特别关注了生物风险等严重问题,例如防止ChatGPT Agent被用于创建生物武器。



对于未来的展望,ChatGPT Agent团队在这次谈话中表示,OpenAI倾向于打造一个通用的超级智能体

虽然单一智能体模型在扩展性和通用性上更具潜力,但研究团队希望通过持续优化,让ChatGPT Agent能够无缝处理从简单查询到复杂工作流的各种任务,减少用户对多个专用模型的依赖。

从市场价值的角度来看,定制化模型可能更优,但从训练角度看,通用智能体能更好地利用技能的可迁移特性。研究团队也在探索如何通过强化学习进一步提高ChatGPT Agent的泛化能力,在遇到全新任务时快速适应,而无需大量额外训练数据。

未来,ChatGPT Agent可能通过学习用户反馈,动态调整其行为模式,进一步提升任务完成的精准度

总的来说,ChatGPT Agent的未来发展方向如下:

  • 增强多轮对话与个性化记忆
  • 开发主动服务能力
  • 探索更自然的交互范式
  • 提升复杂任务(如数据分析)的完成度

目前ChatGPT Agent已开放使用,Plus用户每月有40次使用额度。



ChatGPT Agent的研究团队在采访中表示,他们有意设计了一个开放式的智能体,鼓励用户探索其潜力。

参考链接:
[1]https://x.com/sonyatweetybird/status/1947718831075693055?s=46
[2]https://www.youtube.com/watch?v=YNWWu0aZ5pY
[3]https://x.com/OpenAI/status/1945904743148323285

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
震撼!混乱、滥J、肮脏、卖Y…“牢A”揭露女留学生丑陋秘辛

震撼!混乱、滥J、肮脏、卖Y…“牢A”揭露女留学生丑陋秘辛

魔都囡
2026-01-21 08:30:18
餐饮界的“败家子”:4年输光百亿帝国,兜里竟然拿不出1块钱?

餐饮界的“败家子”:4年输光百亿帝国,兜里竟然拿不出1块钱?

青眼财经
2026-01-20 22:07:03
广东最大方舱医院旧址17.8亿挂牌拍卖,总投资261亿元

广东最大方舱医院旧址17.8亿挂牌拍卖,总投资261亿元

南方都市报
2026-01-21 11:14:12
跌破800万!现在生孩子,未来一定上大学、还是本科!你考虑生吗?

跌破800万!现在生孩子,未来一定上大学、还是本科!你考虑生吗?

小e教育
2026-01-20 18:52:18
越南一家中资企业,进口国内啤酒仓库被查,3000多箱被认定为来源不明的商品

越南一家中资企业,进口国内啤酒仓库被查,3000多箱被认定为来源不明的商品

越南语学习平台
2026-01-21 10:35:56
敢拦就开战?美国给“台独”递刀,中方:公海销毁没商量

敢拦就开战?美国给“台独”递刀,中方:公海销毁没商量

华山穹剑
2026-01-19 21:32:59
男子无偿献血2.2万毫升,持优待卡到指定景区旅游被告知不免票,当事人起诉要求退还50元门票

男子无偿献血2.2万毫升,持优待卡到指定景区旅游被告知不免票,当事人起诉要求退还50元门票

扬子晚报
2026-01-21 09:56:22
日本U23主帅:球员们经受住了考验,用任何阵容出战我们都能赢球

日本U23主帅:球员们经受住了考验,用任何阵容出战我们都能赢球

懂球帝
2026-01-21 11:43:35
越野跑山进入全球化时代,品牌如何入局?

越野跑山进入全球化时代,品牌如何入局?

懒熊体育
2024-10-17 09:36:36
谁能看出这是什么车?违停车遇上扫雪机作业成了这模样;网友:车主将收获一台“哥斯拉”

谁能看出这是什么车?违停车遇上扫雪机作业成了这模样;网友:车主将收获一台“哥斯拉”

极目新闻
2026-01-21 18:18:19
著名京剧演员孙彩虹逝世,曾参演并担任87版《红楼梦》剧务

著名京剧演员孙彩虹逝世,曾参演并担任87版《红楼梦》剧务

澎湃新闻
2026-01-21 15:55:20
斩杀线太狠了!揭秘:父母死了,国外定居的子女都不肯回参加葬礼

斩杀线太狠了!揭秘:父母死了,国外定居的子女都不肯回参加葬礼

火山诗话
2026-01-21 08:32:35
刘浩帆:对面7号赛前说踢我们3-0,3-0时我问他“你说话啊”

刘浩帆:对面7号赛前说踢我们3-0,3-0时我问他“你说话啊”

懂球帝
2026-01-21 10:07:11
山东省纪委监委网站通报:2人被查,1人系主动投案

山东省纪委监委网站通报:2人被查,1人系主动投案

齐鲁壹点
2026-01-21 17:13:13
人去楼空、资金链断裂!又一平台暴雷,老板疑跑路,有人刚充上万

人去楼空、资金链断裂!又一平台暴雷,老板疑跑路,有人刚充上万

品牌观察官
2026-01-20 17:53:37
低于-10℃!有冰冻!江苏升温时间定了

低于-10℃!有冰冻!江苏升温时间定了

南通攻略
2026-01-21 09:51:06
62岁男子行凶致邻居1死1伤,庭上拒绝悔罪赔偿还称“后悔未杀全家”,检方认为其不具有从轻量刑情节

62岁男子行凶致邻居1死1伤,庭上拒绝悔罪赔偿还称“后悔未杀全家”,检方认为其不具有从轻量刑情节

极目新闻
2026-01-21 16:09:26
赵露思在海南摆摊卖蛋烘糕,曾称未来愿摆摊谋生

赵露思在海南摆摊卖蛋烘糕,曾称未来愿摆摊谋生

深圳晚报
2026-01-21 14:41:54
李亚鹏房东回应来了!大反转看傻全网!

李亚鹏房东回应来了!大反转看傻全网!

广告创意
2026-01-19 18:23:10
让“吹哨人”敢吹哨!谨以此文致敬罗永浩

让“吹哨人”敢吹哨!谨以此文致敬罗永浩

社会日日鲜
2026-01-21 09:17:54
2026-01-21 18:48:49
量子位 incentive-icons
量子位
追踪人工智能动态
12044文章数 176360关注度
往期回顾 全部

科技要闻

给机器人做仿真训练 这家创企年营收破亿

头条要闻

欧盟被指有意将中企排除出欧洲移动通信网络 中方回应

头条要闻

欧盟被指有意将中企排除出欧洲移动通信网络 中方回应

体育要闻

只会防守反击?不好意思,我们要踢决赛了

娱乐要闻

李亚鹏2天获1291万网友力挺

财经要闻

西贝估值100亿?最新融资约13亿元

汽车要闻

2026款上汽大众朗逸正式上市 售价12.09万起

态度原创

旅游
数码
家居
亲子
公开课

旅游要闻

雪山“围雪收费”:别让模糊标价偷走游客选择权丨中听

数码要闻

错误还是解禁?技嘉H810M D2HX SI GEN5主板支持内存超频

家居要闻

褪去浮华 触达松弛与欣喜

亲子要闻

“A娃”越来越多?儿童神内专家秦炯详解“多动症”的误区与真相

公开课

李玫瑾:为什么性格比能力更重要?

无障碍浏览 进入关怀版