网易首页 > 网易号 > 正文 申请入驻

OpenAI 会杀死 Manus 们吗?

0
分享至


文 | 山上,作者|薛星星,编辑|张文

和三月份发布文生图更新一样,OpenAI 又一次试图提前结束 AI Agent 的创业竞赛。

北京时间 7 月 18 日凌晨,OpenAI 发布 ChatGPT Agent。它可以根据用户的指令,自动规划执行步骤,调用多种工具,并完成从抓取数据到生成表格、规划行程到预订酒店等多环节任务。


OpenAI 推文截图

这也是目前多数 AI Agent 创业项目正在尝试的方向。4 个月前你在 Manus 那场号称首个通用 AI Agent 宣传片中看到了什么,ChatGPT Agent 就完成了什么。

OpenAI 创始人山姆·阿尔特曼(Sam Altman)说,这是他第一次“真正感受到 AGI(通用人工智能)”。OpenAI 的研究人员则表示,ChatGPT Agent 是目前为止最强的 AI Agent 模型。

——是的,OpenAI 将 ChatGPT Agent 称为一个模型,而不是产品。与 Manus 等依赖上下文管理、工具链编排的系统不同,OpenAI 训练了一个专用模型,能够在单一系统中完成任务规划、跨工具调用和文档生成等复杂流程。该模型目前被归入 o3 系列,但尚未被单独命名。

AI 时代的创业者们面临着比任何历史时期都更快速的技术迭代,一次底层模型更新往往就能毁掉一个垂直领域的创新产品。

理想汽车创始人李想此前在朋友圈说,to C 层面,OpenAI 在内的掌握最强基座模型的企业,不会留下什么垂直应用的创业空间。“软件的本质是功能,需要场景化、垂直化。人工智能的本质是能力,能力强就可以吃掉一切,也是用户最方便的。”

就连一直高喊 AI 应用创新的朱啸虎也在社交媒体上表示,大模型会吃掉 90%的 Agent。X 平台上也有用户发问,如果 OpenAI 后续开放 ChatGPT Agent 模型的 API,其他创业者该如何与其竞争?

“Listen-that's the sound of a great many startups evaporating into the void.”(听——那是无数初创公司悄然蒸发的声音。)

OpenAI 发布会视频下的一条高赞评论写道。

Manus 们选择正面硬刚

至少在目前,Manus 们还没有表现出任何退让迹象。

OpenAI 发布会刚结束,Manus 就在 X 上转发推文称,“Welcome to the game.”同属于华人 AI Agent 创业公司的 flowith 也转发强调,他们早在一年前就推出了 AI Agent 产品。

作为过去半年最早对外喊出通用 AI Agent 口号的创业公司,Manus 的反应要比其他公司强烈得多。发布会结束仅 3 个小时,Manus 就一口气对外放出了 10 条与 ChatGPT Agent 的对比测试,宣称要和 OpenAI 正面较量。

这些对比内容部分来自 OpenAI 当日展示的演示片段,部分则来自用户在社交平台上的真实使用。涵盖场景包括数据整理、路线规划、在线购物、财务分析、餐厅预订等,Manus 发出的测试结果几乎全面占优——不仅响应更快,也更强调“任务完成度”,如表格更整洁、图示更丰富、PPT 更接近成品。

比如 OpenAI 演示的“计划一次为期三天的棕榈泉网球之旅”,OpenAI 给出的是一张简单的行程表,而 Manus 生成的则是一张带有目的地风格设计的行程海报。



Manus 发布的测试对比

又如分析旧金山市过去四年的财务报告,OpenAI 输出的是 Excel 文件,而 Manus 给出的是包含图表与要点总结的完整演示文档。“Manus 完成的是整个项目,而不仅仅是提供数据。”Manus 评价说。

另一家华人公司 Genspark 的反应同样高调。创始人景鹏(Eric Jing)在 X 上写道:“我从未想过有一天——作为一家只有 24 人的小公司,我们竟然可以领先……领先于 OpenAI。”他表示,用同样的提示词,Genspark 的响应时间更短、成本更低,生成结果的质量也“高出好几倍”。

7 月 19 日,Genspark 也在社交平台上分享了 9 个与 ChatGPT Agent 的对比实例,显示他们输出的文档数据维度更丰富,排版更加美观。除了与 Manus 对比测试中类似的旅游行程制定、财务数据分析等案例外,他们还分享了一则视频生成能力的对比,指出 ChatGPT Agent 未能完成任务。


Genspark 分享的视频生成案例

社交媒体上用户们的反馈也不如此前 OpenAI 更新文生图功能那样强烈。一些批评声音指出 ChatGPT Agent 任务的完成度不高,任务生成速度也比较缓慢,部分复杂任务需要 20 分钟乃至更长时间才能完成。

OpenAI 似乎也意识到当前的 ChatGPT Agent 的速度问题,他们拍摄的几条宣传视频里,员工往往在下达指令后就合上笔记本,等到稍晚再返回查看结果。

“即便耗时 15 分钟或半个小时,相比你自己手动完成也已经是显著的提速了。”OpenAI 的研究员 Isa Fulford 说。她表示,这是一种“可以在后台发起任务,过一会儿再回来查看结果”的使用方式,而 OpenAI 的搜索团队则更专注于低延迟场景。

OpenAI 或许更强调模型能够持续推理和思考的时间,OpenAI 的研究员张熙堃说,ChatGPT Agent 在内部测试中的最长连续推理时间达到了 2 小时,“我们应该有一个排行榜来记录模型能持续思考多久。”

针对外界诟病的生成文档或 PPT 不够美观的问题,OpenAI 的研究员们在 X 上建议,先让 ChatGPT Agent 把研究工作做完,再让它输出 PPT 文件。ChatGPT 生成的是标准 pptx 格式,用户也可以在 PowerPoint 中统一套用想要的设计模板。

虽然 OpenAI 强调他们专门为 ChatGPT Agent 训练了专用模型,但部分批评声音亦指责它更像是将此前已经推出的 Operator(浏览器交互能力)与 Deep Research(深入研究能力)组合在一起的产物。Operator 可以支持 ChatGPT 通过浏览器与网站直接互动、阅读并理解网页内容,Deep Research 则擅长分析和总结信息。

事实上,ChatGPT Agent 目前团队成员正是来自于此前的 Operator 与 Deep Research 部门,目前团队规模大约在 20-35 人。OpenAI 对外表示,ChatGPT Agent 是 Operator 和 Deep Research 功能自然延续,“我们发现用户通过 Operator 尝试的许多查询实际上更适合 Deep Research,因此我们将两者的优势结合在一起。”

OpenAI 表示,这次发布仅标志着他们将智能体功能直接集成到 ChatGPT 中的第一步,他们计划定期逐步更新更多功能。

两种技术路线

相较于初创公司们过去半年来围绕输出质量和交付体验不断工程迭代和提示优化,OpenAI 刚刚发布的 ChatGPT Agent 在任务的最终呈现上可以称得上是粗糙。

初创公司们试图为用户呈现一个完成度更高且上手难度更低的 Agent 产品。以 Manus 为例,过去 2 个月来这家公司先后为产品加入了包括 PPT 生成、视频生成、音频生成等诸多不同能力,官网还列举出了诸多现成的模板分享以及用户案例分享。即便这些能力的实现都依托于外部模型,但至少在上手难度上,初创公司们都做得比 OpenAI 更好一些。


Manus 官网分享的模板

但抛去这些应用体验创新,在基础模型的能力比拼维度上,ChatGPT Agent 通过端到端训练的统一模型显然更有优势。OpenAI 为 ChatGPT Agent 做了诸多学术测试,部分测试结果甚至领先于 OpenAI o3 或 GPT 4o,达到行业最高水平。

比如在《人类的最后考试》(Humanity’s Last Exam)评估中,ChatGPT Agent 取得了取得了 41.6%(pass@1)的新高,大约是 OpenAI o3 的两倍。DSBench 测试中,ChatGPT Agent 大幅度领先于 GPT-4o,在数据分析任务中的表现更是明显优于人类水平。


Humanity’s Last Exam 测试结果

在专门衡量电子表格编辑能力的 SpreadsheetBench 平台上,ChatGPT Agent 创下行业新高,性能较 GPT-4o 领先一倍。OpenAI 称,在他们的内部基准测试中,ChatGPT Agent 的能力大致相当于 1 至 3 年经验的投资银行分析师水平。

简单来说,OpenAI 更强调 ChatGPT Agent 带来的底层模型能力的提高,而初创公司们受限于技术及资金则更倾向于应用创新。

7 月 19 日凌晨,Manus 联合创始人季逸超发文称,Manus 仍将继续押注于上下文工程(in-context learning)而非端到端智能体。

他说,早在 Mannus 项目初期,他们就在思考是使用开源模型训练一个端到端的智能体,还是基于前沿模型的上下文学习能力构建智能体。GPT-3 等模型的出现让他们意识到,上下文工程才是正确的方向,因为这些模型的能力远高于他们此前的内部模型。

“如果模型进步是上涨的潮水,我们希望 Manus 成为那条船,而不是固定在海床上的柱子。”季逸超说,这可以使他们能够在几小时而非几周内交付改进,并始终让他免费产品与底层面模型保持正交。

他在这篇技术文档中分享了不少 Manus 在上下文工程上的经验,比如需要围绕 KV 缓存进行设计、要使用系统文件作为上下文等等。这些工程创新显著提升了 Manus 的响应速度以及成本优势。

季逸超举例,使用 KV 缓存可以大幅度提升首个 token 的生成时间和推理成本,例如使用 Claude Sonnet 时,缓存的输入 token 成本比未缓存的成本降低 10 倍。


季逸超分享的技术文档

上下文工程的创新的确也可以使智能体拥有更好的性能效果。非盈利人工智能研究机构 Epoch AI 测试了 ChatGPT Agent 在 FrontierMath 数学试题集中的表现,称 ChatGPT Agent 在 Tier 1-3 的数学题上只得到了 27% 的正确率,且难度越高得分越低。

但当每道题允许 ChatGPT Agent 尝试 16 次之后,它的得分就从 27% 大幅度提升至 49%。Epoch AI 说,这表明更好的更好的提示词设计(prompting)或任务结构支持(scaffolding),可能会显著提升当前模型的性能。


Epoch AI 测试结果

换句话说,即便是相同的模型,创业公司们依然可以通过更好的提示工程与上下文设计,来达到远超基准模型的效果。

“你如何塑造上下文最终决定了你的智能体的行为方式:它运行的速度、恢复的效果以及扩展的范围。”季逸超说。

如何与 Agent 的未来共处

ChatGPT Agent 的正式推出,标志着 AI Agent 正式进入巨头博弈的时代。它带给人类的社会的影响不会比大模型爆发之初的影响小,让 AI 抢夺人类工作真正成了现实。

这种改变已经在悄然发生。微软和亚马逊等科技巨头们都在密集裁员,微软 CEO 萨蒂亚·纳德拉今年初表示,微软 20% 到 30% 的代码都由 AI 生成。一家金融科技公司 Klarna 更是早在去年初就对外宣布,他们的 AI Agent 仅投入使用一个月,就处理了公司 2/3 的客服聊天工作,相当于 700 名全职人工客服的工作量。

市场研究机构 MarketsandMarkets 表示,全球的 AI Agent 市场将从 2024 年的 51 亿美元增长至 2030 年的 471 亿美元,年均复合增长率(CAGR)达 44.8%。Deloitte 预测,到 2025 年,使用生成式 AI 的公司将有 25% 开始试点智能体,到 2027 年将增长至 50%。

AI Agent 的快速应用也让行业人士产生担忧。和过去大模型仅仅只是提供信息不同,AI Agent 真正具备了从思考到行动的完整能力。比如 ChatGPT Agent 现在已经可以访问网站帮助用户下单购物、自动填写信用卡地址,也可以访问用户的日历、电子邮件、云盘等隐私信息。对于使用 AI Agent 的人们来说,这意味着他们将自己的私人信息交给了一个“黑盒”,也更容易受到攻击。

发布会上,OpenAI 也专门强调了 ChatGPT Agent 的风险。他们强调,ChatGPT Agent 在执行所有重要操作前都会征得用户同意,“用户始终拥有控制权。”同时,OpenAI 还加入了包括主动监督(Watch Mode)、主动风险缓解(Proactive risk mitigation)等安全措施。


OpenAI 发布的声明

山姆·阿尔特曼在 ChatGPT Agent 推出后专门发布长篇推文警告用户,要求用户审慎地使用 ChatGPT Agent。

“Agent 代表着 AI 系统能力的新高度,它可以用自己的计算机完成一些令人惊叹且复杂的任务。它融合了 Deep Research(深度研究)和 Operator(任务执行者)的理念,但远比这些字面描述更强大 —— 它可以长时间思考,使用各种工具,再继续思考,再采取行动,如此往复。”山姆·阿尔特曼说。

山姆表示,虽然他们还不确定这些影响具体是什么,但也许会有人试图恶意“欺骗” 用户的 AI Agent,使其提供不应该提供的隐私信息,并做出无法预测的不当操作。“我们建议用户只授予 Agent 完成任务所必需的最低限度访问权限,以降低隐私和安全风险。”山姆强调,他不会将 ChatGPT Agent 用于高风险的用户或涉及大量个人信息的场景。

但对于已经演变成了一家商业盈利公司的 OpenAI 来说,它并不会因为隐私或者安全风险而减缓 AI Agent 迭代的步伐。

在 ChatGPT Agent 推出之前,《金融时报》就报道称 OpenAI 正计划在 ChatGPT 中开发支付结账系统,通过 ChatGPT 完成订单的商家需要向 OpenAI 支付佣金。《金融时报》称,OpenAI 已经向部分合作伙伴电商平台 Shopify 等展示了系统的早期版本。

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
“最帅展昭”离世,享年58岁!

“最帅展昭”离世,享年58岁!

黎兜兜
2025-11-08 21:22:56
《四喜》直到冯美奇爬上沈明辉的床,才知,沈明辉藏了8年的秘密

《四喜》直到冯美奇爬上沈明辉的床,才知,沈明辉藏了8年的秘密

观察鉴娱
2025-11-10 10:39:34
从三件事看俄乌战争胜负天平的倾斜

从三件事看俄乌战争胜负天平的倾斜

刘耘博士
2025-11-10 08:00:16
体内有癌,夜里有感觉?睡觉时有6种不适,可能不是大病就是癌

体内有癌,夜里有感觉?睡觉时有6种不适,可能不是大病就是癌

健康八条
2025-11-10 22:36:33
吴亦凡现状曝光!在监狱度过14年自由时光,出狱后将面临化学阉割

吴亦凡现状曝光!在监狱度过14年自由时光,出狱后将面临化学阉割

八星人
2025-11-10 15:30:59
非全日制博士学费78万元,上海交大回应

非全日制博士学费78万元,上海交大回应

大象新闻
2025-11-10 18:50:03
27分横扫山东,辽宁挺进4强,与广东会师,辽粤大战开球时间定了

27分横扫山东,辽宁挺进4强,与广东会师,辽粤大战开球时间定了

萌兰聊个球
2025-11-10 21:32:50
荒野求生挑战赛仅剩16人,冷美人雨天乔迁新居,有选手搭3层豪宅

荒野求生挑战赛仅剩16人,冷美人雨天乔迁新居,有选手搭3层豪宅

恪守原则和底线
2025-11-10 06:58:01
女高中生发明“咯噔字体”,被老师0分警告:别挑战考试的底线

女高中生发明“咯噔字体”,被老师0分警告:别挑战考试的底线

妍妍教育日记
2025-11-10 18:21:35
45岁殷桃比基尼照火辣出圈,丰满身材吸睛无数,冻龄状态完美?

45岁殷桃比基尼照火辣出圈,丰满身材吸睛无数,冻龄状态完美?

娱乐领航家
2025-11-08 00:00:03
薄一波晚年反省,当年不该支持此人上台,他给国家带来大麻烦

薄一波晚年反省,当年不该支持此人上台,他给国家带来大麻烦

扬平说史
2025-11-06 20:22:42
中国共产党中央军事委员会副主席张升民简历

中国共产党中央军事委员会副主席张升民简历

上观新闻
2025-10-23 18:17:07
京东抢跑!今晚8点买最便宜,2025年iPhone17最后一波最低价!

京东抢跑!今晚8点买最便宜,2025年iPhone17最后一波最低价!

太和在线
2025-11-10 18:59:33
终于见到本人了 没有传说中那么漂亮 不是保安护驾 感觉就是一路人甲

终于见到本人了 没有传说中那么漂亮 不是保安护驾 感觉就是一路人甲

阿燕姐说育儿
2025-11-10 06:29:53
敢为人先!上海鼓励事业单位人员创业,全职兼职都行,亏钱可回岗

敢为人先!上海鼓励事业单位人员创业,全职兼职都行,亏钱可回岗

火山诗话
2025-11-09 10:01:43
31岁章泽天素颜现身日本!路人偶遇直呼:瘦到发光像大学生

31岁章泽天素颜现身日本!路人偶遇直呼:瘦到发光像大学生

日不西沉
2025-11-10 16:58:13
跌停!北向资金逆市抄底

跌停!北向资金逆市抄底

数据宝
2025-11-10 22:32:03
武统、和统都没希望了?台湾军事专家:中国已经走上了第三条路

武统、和统都没希望了?台湾军事专家:中国已经走上了第三条路

芳芳历史烩
2025-11-09 01:44:44
郑丽文参加纪念后,邱毅落泪反思,蔡正元彻底不演了!卢秀燕沉默

郑丽文参加纪念后,邱毅落泪反思,蔡正元彻底不演了!卢秀燕沉默

李博世财经
2025-11-09 14:13:44
突击清查“三非”人员,印度人这事闹大后,深圳的反应速度封神!

突击清查“三非”人员,印度人这事闹大后,深圳的反应速度封神!

华史谈
2025-11-09 12:32:00
2025-11-10 23:20:49
钛媒体APP incentive-icons
钛媒体APP
独立财经科技媒体
126058文章数 861367关注度
往期回顾 全部

科技要闻

荷兰“玩脱”后,大众本田终于拿到芯片了

头条要闻

25岁东北女孩参加海岛求生赛35天瘦28斤:吃了50只老鼠

头条要闻

25岁东北女孩参加海岛求生赛35天瘦28斤:吃了50只老鼠

体育要闻

战绩崩盘!东契奇交易余震撕裂独行侠

娱乐要闻

51岁周迅的现状 给中年女性提了个醒?

财经要闻

北大医药董事长被抓 巨额资金去向不明

汽车要闻

智能又务实 奇瑞瑞虎9X不只有性价比

态度原创

家居
本地
数码
游戏
公开课

家居要闻

四方食事 不过人间烟火

本地新闻

这届干饭人,已经把博物馆吃成了食堂

数码要闻

华为 FreeBuds Pro 5 悦彰耳机首过星闪 L2HC 编解码测试

GTA6跳票致敬主角原型?雌雄大盗11月19日首次抢银行

公开课

李玫瑾:为什么性格比能力更重要?

无障碍浏览 进入关怀版