网易首页 > 网易科技 > 网易科技 > 正文

凌晨,OpenAI卷进“通用Agent”,Manus们算白忙活吗?

0
分享至

出品 | 网易科技《态度》栏目

作者 | 袁宁

编辑 | 丁广胜

OpenAI 终于交Agent 答卷了。

7月18日凌晨,Sam Altman 亲自登台,正式发布了 ChatGPT 的通用型Agent:不只是对话,而是直接完成任务。

在直播演示中,Agent 模式可以自己访问网页、调用终端、自动下单,执行从旅行规划、PPT 制作到图像生成与在线购物的整套流程。

是的,似乎是Manus几个月前就在做的事情。但这次,不同在于,OpenAI 直接将这套流程变成了自身的系统能力。

据介绍, ChatGPT Agent即日起向 Pro、Plus 和 Team 版用户开放,Enterprise 和 Education 版用户将于7月获得使用权限。Pro 版用户每月400次,Plus 和 Team用户每月40次。

毫无疑问,Agent是继 Chatbot 之后,AI 应用范式的又一次重大转变。AI 正从“会说话的助手”,迈向“真正能做事的代理人”,而Agent 能力似乎也成了大模型进步的“第二曲线”。

然而,OpenAI发布后,出现了评价冰火两重天的情况,一边是不少媒体的“吹爆”,一边是不少从业者和网友的“下头”——也不过如此啊,雷声大雨点小。所以,至于新产品实际效果和体验如何,还需要进一步测试。

随着Manus 的出走,以及OpenAI 的进场。一个悬而未决的问题被推向台前:留给Manus 们的时间还有多少?

01与 Manus 高度相似,但这次是ChatGPT原生

用户发出一个跨步骤请求,Agent 自动开启浏览器,定位网页、滚动查找、点击链接、填表下单,一气呵成。

如果你还对几个月前 Manus 爆火时的演示有印象,那么再见这种“AI 动手”的画面,你可能并不会觉得意外。

而OpenAI 这次的关键在于,用系统级重构,把 Manus 想做的事,做成了基础设施能力。

OpenAI 的 Agent,并非某个工具的单次调用,而是由两项核心研究成果深度融合而来:Operator(视觉层交互代理)和 Deep Research(多步骤网页推理)

前者解决“怎么动手”,后者擅长“怎么动脑”,这两者的融合,让 Agent 不再只是执行动作,而是具备了真正的任务理解、信息整合与策略优化能力。

再加上三大模块工具的支持:

  • 文本浏览器 (Text-based Browser):处理密集型网页阅读任务,提取信息;
  • 可视化浏览器 (Text-based Browser):在图形界面中操作鼠标点击、输入、截图等;
  • 终端工具 (Terminal):运行代码、生成文件、调用 API、与其他系统集成。

最重要的是,这一切都在 ChatGPT 内置的虚拟计算环境中统一调度运行,状态与上下文持续保留,任务之间无缝衔接。

也就是说,不只是自动点网页,而是具备了跨工具协同、自主策略选择的智能。

据OpenAI介绍,它不仅能执行,还能评估执行效果,并在每一步中动态选择最优路径。而用户可以随时插话调整指令,或临时接管任务进程。

02 Agent能力成大模型进步的“第二曲线”

在多个基准测试中,OpenAI Agent 展现出显著优势:

在人类最后的测试( Humanities Last Exam) 中,模型在覆盖历史、哲学、经济等学科的复杂问题上取得43.1分,相比不带工具的 o3提高一倍。

在 DSBench 测试中,Agent 能完成数据分析、建模与图表生成等任务,整体表现超过以往所有开源和闭源模型,尤其在数据分析类项目中已明显优于人类中位水平。

在 SpreadsheetBench 表格操作测试中,Agent 对复杂电子表格的编辑、函数使用、格式规范处理能力均有显著进步,得分达到45.5%,是 GPT‑4o 的两倍,也首次接近 Excel Copilot 的商用水准。

网页操作方面,Agent 在 WebArena 中成功执行包括账号登录、页面跳转、数据采集等真实世界任务,其表现已接近人类平均水平。

同时,在信息检索能力上,Agent 在 BrowseComp 基准中获得68.9分,创下当前记录。这一指标直接关系到其自主执行任务时的可靠性。

03留给 Manus 们的窗口期可能比预期更短

OpenAI 的正式下场,或许正在改写整个 Agent 创业叙事。

就在几个月前,Manus 还被视为“国产 Agent 的希望”:的确在大家还未理解Agent的时候,率先把未来摆在了大家面前,展示出 AI 执行复杂任务的真实潜力。

但7月初,Manus 官网悄然关闭,中国大陆业务暂停,仅保留海外产品线——也让外界开始重新审视 Agent 初创的现实处境。

前几天,朱啸虎还曾公开表示:大模型会吃掉90%的Agent。

当然,Manus的离开背后有监管、合规、资本多重因素。但现在的问题又来到了:当 OpenAI 亲自下场,初创通用型 Agent 的机会还有多大?

延伸阅读
相关推荐
热点推荐
布斯克茨和阿尔巴结束球员生涯,巴萨官方发文祝福

布斯克茨和阿尔巴结束球员生涯,巴萨官方发文祝福

懂球帝
2025-12-08 03:17:08
爆笑经典糗事冷笑话,昨晚我去酒吧喝酒一妹子过来搭讪:大哥请我喝杯酒我答应你一个无理的要求!

爆笑经典糗事冷笑话,昨晚我去酒吧喝酒一妹子过来搭讪:大哥请我喝杯酒我答应你一个无理的要求!

天天明星
2025-12-07 12:31:48
记者:萨拉赫是主动在混合区接受采访的,队友们感到震惊

记者:萨拉赫是主动在混合区接受采访的,队友们感到震惊

懂球帝
2025-12-07 16:40:06
内线被浓眉打爆!火箭轮休酿苦果?乌度卡用人欠妥,自降内线实力

内线被浓眉打爆!火箭轮休酿苦果?乌度卡用人欠妥,自降内线实力

熊哥爱篮球
2025-12-08 12:20:04
卢秀燕低头,侯友宜彻底没辙!郑丽文只用两张纸就夺回大权

卢秀燕低头,侯友宜彻底没辙!郑丽文只用两张纸就夺回大权

前沿天地
2025-12-07 13:00:53
6个领土大国只有3个是"天选之地"?看完才懂中国有多幸运!

6个领土大国只有3个是"天选之地"?看完才懂中国有多幸运!

素衣读史
2025-12-06 18:02:37
《疯狂动物城2》票房破30亿,这是一个信号:情感消费已成趋势!

《疯狂动物城2》票房破30亿,这是一个信号:情感消费已成趋势!

老方
2025-12-07 20:58:41
越来越多的设计院员工开始掀桌子、罢工!

越来越多的设计院员工开始掀桌子、罢工!

黯泉
2025-12-05 18:04:59
农村马上要挨家挨户,将严查这3件事,件件都和老百姓有关系

农村马上要挨家挨户,将严查这3件事,件件都和老百姓有关系

三农雷哥
2025-12-06 16:08:14
斯普利特评杨瀚森首发!爆赞末节发挥,发布会不满裁判为其抱不平

斯普利特评杨瀚森首发!爆赞末节发挥,发布会不满裁判为其抱不平

篮球资讯达人
2025-12-08 11:18:15
没SGA仍30分大胜,豪取15连胜!霍姆格伦25分9板,杰威25分8助

没SGA仍30分大胜,豪取15连胜!霍姆格伦25分9板,杰威25分8助

无术不学
2025-12-08 11:52:45
北京:部分电动自行车门店无车可售

北京:部分电动自行车门店无车可售

中工网
2025-12-08 09:20:02
局势升级!中日战机冲绳对峙,两个信号证明日本离挨揍不远了

局势升级!中日战机冲绳对峙,两个信号证明日本离挨揍不远了

爱史纪
2025-12-08 11:54:39
俄罗斯已无力支付军饷,地方财政告急

俄罗斯已无力支付军饷,地方财政告急

桂系007
2025-12-05 21:32:16
中央考核巡查组询问,现场人员迅速把手机装进兜里,躲躲闪闪

中央考核巡查组询问,现场人员迅速把手机装进兜里,躲躲闪闪

极目新闻
2025-12-07 13:39:53
就在今天!12月8日,WTT香港总决赛赛程出炉,CCTV5直播 附赛程表

就在今天!12月8日,WTT香港总决赛赛程出炉,CCTV5直播 附赛程表

皮皮观天下
2025-12-08 04:59:13
陪玩陪睡不够!集体开嫖、舔手指、目无王法,阴暗面彻底藏不住了

陪玩陪睡不够!集体开嫖、舔手指、目无王法,阴暗面彻底藏不住了

好贤观史记
2025-11-09 21:58:39
周涛怒了!“行了可以了,跟你说了很多遍,差不多行了啊”

周涛怒了!“行了可以了,跟你说了很多遍,差不多行了啊”

都市快报橙柿互动
2025-12-07 17:43:27
得分后卫名不副实?NBA总得分前10的榜单里,只有3个是得分后卫

得分后卫名不副实?NBA总得分前10的榜单里,只有3个是得分后卫

摸神drose
2025-12-08 08:48:48
一将无能,累死三军!皇马0:2不敌塞尔塔,这四点事实不得不说!

一将无能,累死三军!皇马0:2不敌塞尔塔,这四点事实不得不说!

田先生篮球
2025-12-08 09:47:51
2025-12-08 13:47:01

科技要闻

外面有人挖,家里有人跑:苹果乱成了一锅粥

头条要闻

牛弹琴:对日斗争突发新情况 中国军方回应火力全开

头条要闻

牛弹琴:对日斗争突发新情况 中国军方回应火力全开

体育要闻

厉害的后卫何其多 想想还少了哪一个

娱乐要闻

郭麒麟也救不了的德云社了?

财经要闻

养牛场未见一头牛 每天开采矿石倒卖

汽车要闻

挑战深圳地狱级路况 魏牌蓝山VLA上车会思考听得懂人话

态度原创

旅游
教育
艺术
游戏
军事航空

旅游要闻

宁远:旅发大会赋能焕新 九嶷山景区旅游持续升温

教育要闻

重磅!27年起,绵阳中考总分变为700分!明年执行过渡方案!征求意见中

艺术要闻

50亿美元!迪拜真能建成一个“月球”?

破次元壁的集结号!国内首款二次元RTS《无限幻想战线》正式公开,战略的浪漫由此启程

军事要闻

日本称中方雷达照射日战机 国防部回应

无障碍浏览 进入关怀版
×