AGI时刻来临？奥特曼放出ChatGPT「统一智能体」，最卷打工人真的来了 |【经纬低调分享】|agi|agent|深度思考模型

AGI时刻来临？奥特曼放出ChatGPT「统一智能体」，最卷打工人真的来了 |【经纬低调分享】

2025-07-18 11:56:27　来源: 经纬创投

北京举报

分享至

不久前，一位离职OpenAI的核心研究员发声，分享了他对AI未来的深刻思考：人工智能成为了个人能力的倍增器，也正在成为有史以来最强大的杠杆机制。

紧接着，2025年7月18日，OpenAI重磅发布ChatGPT「统一智能体」，标志着人工智能迈向真正的通用智能时代。

奥特曼亲自带队直播，将ChatGPT、Deep Research与Operator三大技术首次融合，打造出能自主思考决策、无缝衔接网页交互与深度分析的超级智能体。

这一智能体配备可视化浏览器、文本浏览器及终端工具，可独立完成网页浏览、数据筛选、代码运行，甚至直出PPT和Excel。在HLE测试中斩获41.6%高分，数学基准测试FrontierMath刷新SOTA，Excel操作能力远超同类模型，投行建模任务表现碾压前辈。

其核心优势在于端到端强化学习与灵活人机协作，人类可随时中断接管，支付等关键操作需主动确认。Pro用户每月享400次使用额度，Plus和Team用户为40次，支持婚礼策划、球场行程规划等多元场景。

被称为“最卷打工人”的AGI状态如何？以下，Enjoy：

来源：新智元

编辑：桃子好困

ChatGPT agent诞生了！奥特曼深夜带队直播，首个统一智能体无缝融合三大AI，自主思考决策，还能上网直出PPT、Excel。2025年，作为全新AI杠杆，ChatGPT正在解锁「超级个体」新模式。

今晚，ChatGPT和Deep Research、Operator「三剑客」首度合体！

奥特曼亲自带队，25分钟高能直播重磅发布ChatGPT agent，开启人类和智能体协作全新时代。

ChatGPT agent的核心，是一个统一的智能体系统。

简言之，它融合了此前三大技术突破的优势：Operator与网站交互的能力，Deep Research整合信息的技巧，以及ChatGPT智能对话优势。

如今，ChatGPT可以直接使用计算机，全程自主为你工作。

从智能浏览网页、筛选结果，在需要时提醒安全登录、运行代码、进行分析，还能直出PPT和Excel汇总发现结果。

最最重要的是，一切尽在掌控之中。

人类随时可以中断任务、接管浏览器，或是完全停止。

在HLE测试中，ChatGPT agent拿下了41.6%高分；并在数学FrontierMath基准上，同样刷新SOTA，碾压o4-mini和o3模型。

顺便提一句，ChatGPT Agent在HLE上仍不及马斯克的Grok 4 Heavy

谁能想到，上面这张PPT，还是ChatGPT agent自己做的。在基准测试中，其操作办公软件的能力，几乎没给人类留下多少余地了。

网友辣评：打工人的好日子到头了

奥特曼感慨道，ChatGPT agent使用计算机执行复杂任务，对自己来说是一个真正「感受AGI」的时刻。

从今天起，Pro、Plus和Team用户直接可以开启体验，在对话框下拉栏中，选择「Agent mode」即可。

其中，Pro用户每月有400次的额度，Plus和Team为每月40次。

太长不看版：（节选自OpenAI研究员张熙堃的X）

Deep Research擅长做研究，Operator会执行操作，而ChatGPTagent则能同时完成所有这些任务！
端到端强化学习的威力！基于RL Scaling，ChatGPT agent的高效性和数据利用率非常惊人。
人机协作，依旧是核心！任务过程中可随时打断，引导ChatGPT完成新任务。在支付、删除文件等操作前，会向人类主动确认。只有在必要时，它才会提问以获取更清晰的指令。
真实世界表现 > 追逐基准排名！ChatGPT agent确实横扫了很多榜单。但在模型开发过程中，OpenAI既不会一门心思去刷分，也不太在意最终在排行榜上的位置。

01

三强首度合体

ChatGPT agent正式登场

今年1月，OpenAI发布了首个智能体Operator，让AI像人类一样直接与GUI交互。

紧接着2月初，他们又推出了首个Deep Research，推理模型直接可以使用工具，开展研究。

这两个工具各有专长，Operator可以自主上网、点击和输入，而Deep Research则擅长分析和总结信息。

然而，前者无法开启深度分析、撰写详细报告；后者无法与网站交互获得精确结果。

今天，OpenAI正式将其合二为一——ChatGPT agent，「单一模型」即可解锁全新能力。

ChatGPT agent配备了一整套工具：

· 可视化浏览器：用于图形用户界面与网页交互 · 文本浏览器：用于处理简单推理和网页查询 · 终端+直接API访问权限：图像API

agent还能借助ChatGPT连接器，连接Gmail、Github等应用，便于根据提示找到相关信息并给出回复。

不仅如此，接管浏览器后登录任何网站，让ChatGPT agent进行更深入、更广泛的研究和任务执行。

由此，ChatGPT便能选择最佳路径，高效地执行任务。

打工人的PPT，ChatGPT代劳了

为了展示ChatGPT agent能力，团队现场演示了一个真实场景：为朋友Minnie和Sarah策划一场婚礼。

根据提示，这项任务需要AI依据着装要求和天气情况，推荐精美价格合理的礼服、为参会者预订酒店，以及为新人准备婚礼礼物。

ChatGPT agent在理解提示后，并没有直出报告，而是再次重述确认任务要求，比如确切的婚礼日期。

当一切确认之后，接下来，它便自主打开浏览器，并在交互页面上显示逐步执行的每一个过程，即思维链。

需要注意的是，agent会在几秒内配置好的虚拟计算环境中，开始执行任务。

任务执行中，agent使用文本浏览器查询，并找到了合适的西装，然后切换到视觉浏览器，等待确认。

在ChatGPT执行婚礼策划任务同时，还可以让它做另一个任务：购买一双9.5码黑色鞋子。

也就意味着，ChatGPT agent不惧被打断。即便上一个任务规划时间很长，也不耽误接下来的事情。

最后，ChatGPT agent生成了一份非常全面的报告，包括礼服、酒店、鞋子、礼物全部给出了规划和建议。

在另一个演示中，团队用ChatGPT应用开启任务——上传一张团队吉祥物——可爱小狗的图片，做成笔记本贴纸，并订购500个。

然后，它便开始调用工具Imagen生成动漫版图片，并设计贴纸，从StickerMule订购500份寄到xxx。

更令人惊喜的是，ChatGPT agent还能通过连接器，比如Google Drive提取评估数据，自己生成PPT。

在此过程中，agent会编写代码，并将其编译成最终幻灯片。它还会借用图像工具，为PPT页面进行装饰。

不一会功夫，它就直接输出了第一张HLE、FrontierMath的PPT，但不够精致，然后它再次通过RL不断优化。

最终，就得到了一个优美的PPT文件，可以在办公软件中直接打开。

不得不说，ChatGPT agent太强了。

甚至，你还可以让ChatGPT agent制定一个参观30+美国职棒大联盟球场的最佳行程。

耗时25分钟，它迅速生成一个直观可视化的Excel，以后做数据也彻底解放了双手。

02

HLE拿下41.6%高分

多项基准破纪录

统一后的agent，大幅提升了ChatGPT在日常和专业领域的实用性。

不仅在网页浏览，还是现实任务完成能力的评估中，ChatGPT agent全部刷新了SOTA。

如上提及的，在人类最后考试（HLE）中，ChatGPT agent以41.6%的得分，刷新了pass@1最高纪录。

当研究团队采用并行策略后，即同时运行最多8次并选取自信度最高结果，HLE得分直接刷到了44.4%。

在最难的数学基准测试FrontierMath中，ChatGPT agent借助代码终端等工具，实现了27.4%准确率，大幅超越o3和o4-mini。

不仅如此，在内部设计的「高经济价值知识工作」测试中，ChatGPT agent在半数案例中，输出质量与人类相当，甚至碾压人类。

任务来自真实专业工作场景，比如为按需紧急护理服务商撰写竞品分析、编制详细的摊销表，以及为新的绿色氢能设施寻找可行的水源

在评估数据科学生产力任务的DSBench中，ChatGPT agent以显著优势超越了人类表现。

在Excel编辑能力的SpreadsheetBench测试中，其表现同样远超现有模型。

当获得直接编辑权限时，ChatGPT agent以45.5%的得分显著超越Excel Copilot的20.0%。

在投行分析师1-3年级建模任务的内部评估中，ChatGPT agent底层模型碾压Deep Research和o3模型。

此外，在OpenAI发布的BrowseComp基准测试中，ChatGPT agent以68.9%的准确率刷爆纪录，比Deep Research高出17.4%。

在WebArena基准测试中，其表现也优于基于o3的CUA（即Operator背后的底层模型）。

BrowseComp基准专门评估浏览智能体在网络上定位难寻信息的能力；WebArena用于评估网页浏览智能体完成现实网络任务的能力

03

2025下一个热点

AI智能体「杠杆」

ChatGPT agent这么强，能为我们带来什么价值？

最近，刚刚离职OpenAI研究员Hyung Won Chung分享演讲视频中表示，「AI正成为有史以来最强大的『杠杆』」。

他表示，AI智能体结合了两种杠杆：人力和代码。

它就像雇了个帮手，替你干活（人力杠杆）；而且它又是软件，能无限复制（代码杠杆）。

1. 人力杠杆：AI智能体可以替人类完成工作，就像一个人AI助理。 2. 代码杠杆：当前的AI智能体是纯软件形式，可以轻松复制。如果你想要10倍的产出，就运行10个智能体；想要12倍，就再加两个。这种杠杆不需要许可，可以随意扩展。

在这场发布会上，OpenAI重提了「AI杠杆」这一核心话题。

他们同样认为，2025年之后，AI智能体将成为一种全新的杠杆机制。

它不仅能代替人类完成工作，还能通过「复制粘贴」无限扩展。不论是10个，还是更多智能体，不需要额外的许可，即可一键部署。

研究人员举例称，Deep Research发布之后近半年里，极大地提升了个体和小团队的产出。

过去，团队规模化需要依赖「人力杠杆」，但人类协作的沟通成本，甚至包括摩擦，往往成为了瓶颈。

而现在，ChatGPT agent的出现一个重大意义在于，让小团队创造巨大的价值。

一个10人或20人的初创公司，借助AI杠杆，可能创造出媲美科技巨头的成就。

这种「超级个体」模式，或许在未来将重塑企业的组织架构，凭借AI实现指数级增长。

04

北大校友领衔出镜

值得一提的是，这次直播中，有两位华人学者同时出镜。

Zhiqing Sun（孙之清）

孙之清于2024年6月加入OpenAI，担任研究科学家。

他于2025年在卡内基梅隆大学获得计算机科学博士学位，于2019年在北京大学获得计算机科学学士学位。

在OpenAI期间，他不仅参与到了o3/o4-mini、计算机使用智能体，以及Deep Research这几个关键项目当中，而且还是Deep Research的研究负责人。

Casey Chu

Casey Chu于2020年4月加入OpenAI，担任研究员。

此前，他于2019年在斯坦福大学获得计算数学硕士学位，并于2016年在哈维穆德学院获得数学学士学位。

后来他曾尝试攻读斯坦福大学的计算数学博士学位，但中途选择了退学。

别看他的title只是研究员，但他不仅是DALL·E 2的共同一作，而且还主导了GPT-4视觉输入的初始原型的开发。

参考资料：

https://openai.com/index/introducing-chatgpt-agent/

https://x.com/xikun_zhang_/status/1945895070269583554

特别声明：以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布，本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.