网易首页 > 网易号 > 正文 申请入驻

AGI时刻来临?奥特曼放出ChatGPT「统一智能体」,最卷打工人真的来了 |【经纬低调分享】

0
分享至

不久前,一位离职OpenAI的核心研究员发声,分享了他对AI未来的深刻思考:人工智能成为了个人能力的倍增器,也正在成为有史以来最强大的杠杆机制。

紧接着,2025年7月18日,OpenAI重磅发布ChatGPT「统一智能体」,标志着人工智能迈向真正的通用智能时代。

奥特曼亲自带队直播,将ChatGPT、Deep Research与Operator三大技术首次融合,打造出能自主思考决策、无缝衔接网页交互与深度分析的超级智能体。

这一智能体配备可视化浏览器、文本浏览器及终端工具,可独立完成网页浏览、数据筛选、代码运行,甚至直出PPT和Excel。在HLE测试中斩获41.6%高分,数学基准测试FrontierMath刷新SOTA,Excel操作能力远超同类模型,投行建模任务表现碾压前辈。

其核心优势在于端到端强化学习与灵活人机协作,人类可随时中断接管,支付等关键操作需主动确认。Pro用户每月享400次使用额度,Plus和Team用户为40次,支持婚礼策划、球场行程规划等多元场景。

被称为“最卷打工人”的AGI状态如何?以下,Enjoy:

来源:新智元

编辑:桃子 好困

ChatGPT agent诞生了!奥特曼深夜带队直播,首个统一智能体无缝融合三大AI,自主思考决策,还能上网直出PPT、Excel。2025年,作为全新AI杠杆,ChatGPT正在解锁「超级个体」新模式。

今晚,ChatGPT和Deep Research、Operator「三剑客」首度合体!

奥特曼亲自带队,25分钟高能直播重磅发布ChatGPT agent,开启人类和智能体协作全新时代。

ChatGPT agent的核心,是一个统一的智能体系统。

简言之,它融合了此前三大技术突破的优势:Operator与网站交互的能力,Deep Research整合信息的技巧,以及ChatGPT智能对话优势。

如今,ChatGPT可以直接使用计算机,全程自主为你工作。

从智能浏览网页、筛选结果,在需要时提醒安全登录、运行代码、进行分析,还能直出PPT和Excel汇总发现结果。

最最重要的是,一切尽在掌控之中。

人类随时可以中断任务、接管浏览器,或是完全停止。

在HLE测试中,ChatGPT agent拿下了41.6%高分;并在数学FrontierMath基准上,同样刷新SOTA,碾压o4-mini和o3模型。

顺便提一句,ChatGPT Agent在HLE上仍不及马斯克的Grok 4 Heavy

谁能想到,上面这张PPT,还是ChatGPT agent自己做的。在基准测试中,其操作办公软件的能力,几乎没给人类留下多少余地了。

网友辣评:打工人的好日子到头了

奥特曼感慨道,ChatGPT agent使用计算机执行复杂任务,对自己来说是一个真正「感受AGI」的时刻。

从今天起,Pro、Plus和Team用户直接可以开启体验,在对话框下拉栏中,选择「Agent mode」即可。

其中,Pro用户每月有400次的额度,Plus和Team为每月40次。

太长不看版:(节选自OpenAI研究员张熙堃的X)

  • Deep Research擅长做研究,Operator会执行操作,而ChatGPTagent则能同时完成所有这些任务!

  • 端到端强化学习的威力!基于RL Scaling,ChatGPT agent的高效性和数据利用率非常惊人。

  • 人机协作,依旧是核心!任务过程中可随时打断,引导ChatGPT完成新任务。在支付、删除文件等操作前,会向人类主动确认。只有在必要时,它才会提问以获取更清晰的指令。

  • 真实世界表现 > 追逐基准排名!ChatGPT agent确实横扫了很多榜单。但在模型开发过程中,OpenAI既不会一门心思去刷分,也不太在意最终在排行榜上的位置。


01

三强首度合体

ChatGPT agent正式登场

今年1月,OpenAI发布了首个智能体Operator,让AI像人类一样直接与GUI交互。

紧接着2月初,他们又推出了首个Deep Research,推理模型直接可以使用工具,开展研究。

这两个工具各有专长,Operator可以自主上网、点击和输入,而Deep Research则擅长分析和总结信息。

然而,前者无法开启深度分析、撰写详细报告;后者无法与网站交互获得精确结果。

今天,OpenAI正式将其合二为一——ChatGPT agent,「单一模型」即可解锁全新能力。

ChatGPT agent配备了一整套工具:

· 可视化浏览器:用于图形用户界面与网页交互 · 文本浏览器:用于处理简单推理和网页查询 · 终端+直接API访问权限:图像API

agent还能借助ChatGPT连接器,连接Gmail、Github等应用,便于根据提示找到相关信息并给出回复。

不仅如此,接管浏览器后登录任何网站,让ChatGPT agent进行更深入、更广泛的研究和任务执行。

由此,ChatGPT便能选择最佳路径,高效地执行任务。

  • 打工人的PPT,ChatGPT代劳了

为了展示ChatGPT agent能力,团队现场演示了一个真实场景:为朋友Minnie和Sarah策划一场婚礼。

根据提示,这项任务需要AI依据着装要求和天气情况,推荐精美价格合理的礼服、为参会者预订酒店,以及为新人准备婚礼礼物。

ChatGPT agent在理解提示后,并没有直出报告,而是再次重述确认任务要求,比如确切的婚礼日期。

当一切确认之后,接下来,它便自主打开浏览器,并在交互页面上显示逐步执行的每一个过程,即思维链。

需要注意的是,agent会在几秒内配置好的虚拟计算环境中,开始执行任务。

任务执行中,agent使用文本浏览器查询,并找到了合适的西装,然后切换到视觉浏览器,等待确认。

在ChatGPT执行婚礼策划任务同时,还可以让它做另一个任务:购买一双9.5码黑色鞋子。

也就意味着,ChatGPT agent不惧被打断。即便上一个任务规划时间很长,也不耽误接下来的事情。

最后,ChatGPT agent生成了一份非常全面的报告,包括礼服、酒店、鞋子、礼物全部给出了规划和建议。

在另一个演示中,团队用ChatGPT应用开启任务——上传一张团队吉祥物——可爱小狗的图片,做成笔记本贴纸,并订购500个。

然后,它便开始调用工具Imagen生成动漫版图片,并设计贴纸,从StickerMule订购500份寄到xxx。

更令人惊喜的是,ChatGPT agent还能通过连接器,比如Google Drive提取评估数据,自己生成PPT。

在此过程中,agent会编写代码,并将其编译成最终幻灯片。它还会借用图像工具,为PPT页面进行装饰。

不一会功夫,它就直接输出了第一张HLE、FrontierMath的PPT,但不够精致,然后它再次通过RL不断优化。

最终,就得到了一个优美的PPT文件,可以在办公软件中直接打开。

不得不说,ChatGPT agent太强了。

甚至,你还可以让ChatGPT agent制定一个参观30+美国职棒大联盟球场的最佳行程。

耗时25分钟,它迅速生成一个直观可视化的Excel,以后做数据也彻底解放了双手。


02

HLE拿下41.6%高分

多项基准破纪录

统一后的agent,大幅提升了ChatGPT在日常和专业领域的实用性。

不仅在网页浏览,还是现实任务完成能力的评估中,ChatGPT agent全部刷新了SOTA。

如上提及的,在人类最后考试(HLE)中,ChatGPT agent以41.6%的得分,刷新了pass@1最高纪录。

当研究团队采用并行策略后,即同时运行最多8次并选取自信度最高结果,HLE得分直接刷到了44.4%。

在最难的数学基准测试FrontierMath中,ChatGPT agent借助代码终端等工具,实现了27.4%准确率,大幅超越o3和o4-mini。

不仅如此,在内部设计的「高经济价值知识工作」测试中,ChatGPT agent在半数案例中,输出质量与人类相当,甚至碾压人类。

任务来自真实专业工作场景,比如为按需紧急护理服务商撰写竞品分析、编制详细的摊销表,以及为新的绿色氢能设施寻找可行的水源

在评估数据科学生产力任务的DSBench中,ChatGPT agent以显著优势超越了人类表现。

在Excel编辑能力的SpreadsheetBench测试中,其表现同样远超现有模型。

当获得直接编辑权限时,ChatGPT agent以45.5%的得分显著超越Excel Copilot的20.0%。

在投行分析师1-3年级建模任务的内部评估中,ChatGPT agent底层模型碾压Deep Research和o3模型。

此外,在OpenAI发布的BrowseComp基准测试中,ChatGPT agent以68.9%的准确率刷爆纪录,比Deep Research高出17.4%。

在WebArena基准测试中,其表现也优于基于o3的CUA(即Operator背后的底层模型)。

BrowseComp基准专门评估浏览智能体在网络上定位难寻信息的能力;WebArena用于评估网页浏览智能体完成现实网络任务的能力


03

2025下一个热点

AI智能体「杠杆」

ChatGPT agent这么强,能为我们带来什么价值?

最近,刚刚离职OpenAI研究员Hyung Won Chung分享演讲视频中表示,「AI正成为有史以来最强大的『杠杆』」。

他表示,AI智能体结合了两种杠杆:人力和代码。

它就像雇了个帮手,替你干活(人力杠杆);而且它又是软件,能无限复制(代码杠杆)。


1. 人力杠杆 :AI智能体可以替人类完成工作,就像一个人AI助理。 2. 代码杠杆:当前的AI智能体是纯软件形式,可以轻松复制。如果你想要10倍的产出,就运行10个智能体;想要12倍,就再加两个。这种杠杆不需要许可,可以随意扩展。

在这场发布会上,OpenAI重提了「AI杠杆」这一核心话题。

他们同样认为,2025年之后,AI智能体将成为一种全新的杠杆机制。

它不仅能代替人类完成工作,还能通过「复制粘贴」无限扩展。不论是10个,还是更多智能体,不需要额外的许可,即可一键部署。

研究人员举例称,Deep Research发布之后近半年里,极大地提升了个体和小团队的产出。

过去,团队规模化需要依赖「人力杠杆」,但人类协作的沟通成本,甚至包括摩擦,往往成为了瓶颈。

而现在,ChatGPT agent的出现一个重大意义在于,让小团队创造巨大的价值。

一个10人或20人的初创公司,借助AI杠杆,可能创造出媲美科技巨头的成就。

这种「超级个体」模式,或许在未来将重塑企业的组织架构,凭借AI实现指数级增长。


04

北大校友领衔出镜

值得一提的是,这次直播中,有两位华人学者同时出镜。

Zhiqing Sun(孙之清)

孙之清于2024年6月加入OpenAI,担任研究科学家。

他于2025年在卡内基梅隆大学获得计算机科学博士学位,于2019年在北京大学获得计算机科学学士学位。

在OpenAI期间,他不仅参与到了o3/o4-mini、计算机使用智能体,以及Deep Research这几个关键项目当中,而且还是Deep Research的研究负责人。

Casey Chu

Casey Chu于2020年4月加入OpenAI,担任研究员。

此前,他于2019年在斯坦福大学获得计算数学硕士学位,并于2016年在哈维穆德学院获得数学学士学位。

后来他曾尝试攻读斯坦福大学的计算数学博士学位,但中途选择了退学。

别看他的title只是研究员,但他不仅是DALL·E 2的共同一作,而且还主导了GPT-4视觉输入的初始原型的开发。

参考资料:

https://openai.com/index/introducing-chatgpt-agent/

https://x.com/xikun_zhang_/status/1945895070269583554

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
若下轮西甲巴萨赢球且皇马不胜,巴萨将在国家德比前锁定冠军

若下轮西甲巴萨赢球且皇马不胜,巴萨将在国家德比前锁定冠军

懂球帝
2026-04-26 00:30:25
我在日本生活了15年,娶过三任妻子,日本女人大多数都很物质

我在日本生活了15年,娶过三任妻子,日本女人大多数都很物质

千秋文化
2026-04-22 20:21:49
FREELANDER神行者亮相北京车展华为乾崑展台

FREELANDER神行者亮相北京车展华为乾崑展台

贝壳财经
2026-04-26 00:04:20
碧桂园裁员89%

碧桂园裁员89%

新浪财经
2026-04-23 13:30:37
央国企的几大乱象:关系户横行、巨大的虚假繁荣......

央国企的几大乱象:关系户横行、巨大的虚假繁荣......

灯锦年
2026-04-22 17:16:25
川崎前锋官方:原中国籍19岁后卫关德晴已正式取得日本国籍

川崎前锋官方:原中国籍19岁后卫关德晴已正式取得日本国籍

懂球帝
2026-04-24 18:27:06
没想到!劣迹艺人张敬轩风波持续发酵,过往言论被一一扒出

没想到!劣迹艺人张敬轩风波持续发酵,过往言论被一一扒出

一盅情怀
2026-04-24 14:30:35
2026 年机关事业单位改革后,公务员和事业编的差距更大了

2026 年机关事业单位改革后,公务员和事业编的差距更大了

细说职场
2026-04-25 13:26:51
五连胜,成都蓉城追平队史中超最长连胜纪录

五连胜,成都蓉城追平队史中超最长连胜纪录

懂球帝
2026-04-25 22:02:54
3-0大冷门,中甲第15掀翻中甲第2,深圳青年人3连胜终结

3-0大冷门,中甲第15掀翻中甲第2,深圳青年人3连胜终结

凌空倒钩
2026-04-25 17:54:21
弗格森力挺!曼联新帅人选浮出水面,这次可能真选对了

弗格森力挺!曼联新帅人选浮出水面,这次可能真选对了

澜归序
2026-04-25 06:49:21
贵阳花果园:共有311栋高层,房价从3000涨到14000,如今价格分化

贵阳花果园:共有311栋高层,房价从3000涨到14000,如今价格分化

专业聊房君
2026-04-24 19:28:34
且看当年东莞有多疯狂?

且看当年东莞有多疯狂?

慧翔百科
2026-04-01 11:26:09
摸景甜胸侧,抱李雪琴胳膊,31岁的他综艺翻车,为何如此没分寸感

摸景甜胸侧,抱李雪琴胳膊,31岁的他综艺翻车,为何如此没分寸感

草莓解说体育
2026-04-15 04:23:51
40集《蜜语纪》大结局!纪封或许到死都不知,他全力扶持许蜜语,却输给薛睿的小动作

40集《蜜语纪》大结局!纪封或许到死都不知,他全力扶持许蜜语,却输给薛睿的小动作

可乐谈情感
2026-04-25 11:42:15
重庆医科大学附属儿童医院发布情况通报

重庆医科大学附属儿童医院发布情况通报

医学界
2026-04-23 15:51:28
长的太漂亮了,真正的珠圆玉润,标准的东方美

长的太漂亮了,真正的珠圆玉润,标准的东方美

生活新鲜市
2026-03-27 07:21:32
暴雨,大暴雨!明起,新一轮强降雨来袭

暴雨,大暴雨!明起,新一轮强降雨来袭

新浪财经
2026-04-25 17:01:34
多艘船通过霍尔木兹海峡!海峡通行步骤曝光:共分4步,伊朗审查设5档国籍分级,“越友好越宽松”,收多少钱取决于是哪国的船

多艘船通过霍尔木兹海峡!海峡通行步骤曝光:共分4步,伊朗审查设5档国籍分级,“越友好越宽松”,收多少钱取决于是哪国的船

扬子晚报
2026-04-25 07:09:10
房子遭人强拆,因反抗坐3年牢!出狱后扬言:不赢官司就杀人

房子遭人强拆,因反抗坐3年牢!出狱后扬言:不赢官司就杀人

就一点
2026-04-24 17:46:47
2026-04-26 01:43:00
经纬创投 incentive-icons
经纬创投
经纬创投公众平台
2503文章数 7283关注度
往期回顾 全部

科技要闻

DeepSeek V4发布!黄仁勋预言的"灾难"降临

头条要闻

媒体:美军在中东罕见高密度集结 伊朗开始调整战术

头条要闻

媒体:美军在中东罕见高密度集结 伊朗开始调整战术

体育要闻

那一刻开始,两支球队的命运悄然改变了

娱乐要闻

《我们的爸爸2》第一季完美爸爸翻车了

财经要闻

90%订单消失,中东旺季没了

汽车要闻

2026款乐道L90亮相北京车展 乐道L80正式官宣

态度原创

时尚
教育
本地
手机
公开课

这些穿搭适合春天!外套彩色内搭白色、裤子穿基础款,舒适大方

教育要闻

一根风筝线,牵起一个校长的教育梦

本地新闻

云游中国|逛世界风筝都 留学生探秘中国传统文化

手机要闻

iPhone Ultra机模上手:11mm厚、无长焦,苹果第一折就这?

公开课

李玫瑾:为什么性格比能力更重要?

无障碍浏览 进入关怀版