网易首页 > 网易号 > 正文 申请入驻

OpenAI发布ChatGPT智能体,却被批“鸡肋”

0
分享至

记者丨孔海丽 实习生郑子涵

编辑丨张伟贤

AI Agent竞赛进入白热化阶段,但能力与实用性的鸿沟仍待弥合。

继年初发布专注于浏览器交互的Operator和精于深度研究的DeepResearch之后,OpenAI终于打出了组合拳。7月18日凌晨,集二者之长的ChatGPT Agent正式上线,试图打造一个能处理端到端复杂任务的“全能助理”。

然而,相较于xAI发布Grok 4时的万众瞩目,此次OpenAI的更新在社区却引发了褒贬不一的讨论。一方面,其在多项基准测试中再次“屠榜”,展现了强大的技术实力;另一方面,用户初期的失望情绪、对其实用性的质疑以及服务器的例行崩溃,都让这款被寄予厚望的Agent显得有些“平淡”。

OpenAI此次更像是一次“内部整合”的常规升级,而非颠覆性创新。AI巨头们的产品迭代,似乎正从追求“暴力美学”的技术突破,转向解决自身产品短板的精细化运营。

不过也要注意到,相比于当初引起巨大讨论的Manus,公众对于已经成长为AI巨头的OpenAI显然有更高期待和要求。

“全能助理”能打几分?

从官方演示和技术博客来看,ChatGPT Agent的能力覆盖了从办公到生活的诸多场景。

其核心逻辑是将Operator的视觉交互能力与DeepResearch的信息合成能力融为一体。简单来说,Operator不擅长阅读长文,而DeepResearch无法与动态网页互动,ChatGPT Agent则试图“取长补短”,在一个虚拟机内同时调度视觉浏览器、文本浏览器和代码终端。

理论上,它可以完成相当复杂的任务链。

比如,办公自动化,自动分析日历,结合最新新闻为即将到来的会议生成简报;进行竞品分析,并直接生成一份可编辑的PPT演示文稿。

生活助手,可以根据用户喜好规划一周菜单,并完成在线采购。

深度研究,可以创建研究报告、电子表格或其他详细文档。

性能数据也相当亮眼。在被誉为“人类最后的考试”(HLE)测试中,ChatGPT Agent的pass@1得分达到41.6%,刷新了纪录。在电子表格处理测试SpreadsheetBench中,其总体准确率达到45.54%,远超微软自家Copilot in Excel的20%。

不同AI模型在SpreadsheetBench评估中处理软限制的性能对比表格(来自OpenAI官网公告)

用户不买账?争议与现实落差

然而,漂亮的跑分并未完全转化为完美的用户体验。

“你永远可以对OpenAI的发布会,保持失望。”一位资深用户在体验后直言。这种情绪在交流社区中并不少见。

争议主要集中在以下几个方面:

准确性与效率的矛盾。尽管内部测试称其在约50%的知识工作任务中表现比肩甚至超越人类,但用户反馈的实际任务完成率也恰好在50%左右。有用户抱怨,一个手动操作仅需15秒的任务,Agent却花费了35分钟,并且最终结果中的数据还需要花费2-3倍的时间来核对,效率不升反降。

备受期待的PPT生成功能,其成品被吐槽“被各家其他的通用Agent秒杀”,美观度严重不足。

此外,Agent可以连接用户的Google Drive、Gmail等私密数据源,也引发了巨大的安全担忧。有用户评论,即使是99.99%的成功率,也意味着每周可能在美国产生7200次错误,如果涉及金融交易或敏感邮件,后果不堪设想。

高门槛与低配额。目前该功能仅向Pro、Plus和Team用户开放,且Plus与Team用户每月仅40次的使用配额,与其“全能助理”的定位似乎并不匹配。

伴随新功能发布的,还有ChatGPT雷打不动的服务器崩溃,这几乎成了OpenAI发布会的“保留节目”。

从“暴力美学”到“精耕细作”

如果说马斯克的Grok 4上演的是一场算力碾压的“暴力美学”,那么OpenAI的这次更新更像是一次“精耕细作”的产品迭代。它没有试图发明新科学,而是回头修补了现有产品的短板。

AI竞赛正进入下半场。上半场,巨头们用不断刷新的跑分和令人惊叹的演示争夺眼球;下半场,焦点则回归到最朴素的问题,如何让用户真正用起来,并愿意为之付费?

ChatGPT Agent的发布,伴随着对付费用户严格的次数限制,更像是一场大规模的公开测试,而非成熟商业产品的全面铺开。OpenAI似乎也在摸索,在强大的能力与高昂的运行成本之间,如何找到一个可持续的商业模式。

与此同时,能力越大,风险越大。OpenAI在报告中坦承,该模型在生物和化学武器等领域被评估为具有“高能力”,这触发了内部最高级别的安全预警。为此,公司采取了包括实时监控、禁用记忆功能在内的一系列预防措施。在执行发送邮件等关键操作前,Agent也会主动请求用户许可。

只有服务器不再崩溃、生成的内容无需反复核查、用户能放心地将邮箱和日程表交给它时,AI Agent的时代才算真正到来。在此之前,无论是OpenAI还是其他玩家,都还有很长的路要走。

不过那个时候,人类是否真的会被AI夺走工作,也将变成更加严峻的现实问题。

SFC

出品丨21财经客户端 21世纪经济报道

编辑丨黎雨桐 实习生郑莹莹

21君荐读

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
中东战火纷飞,150多件伊朗国宝正在中国巡展

中东战火纷飞,150多件伊朗国宝正在中国巡展

封面新闻
2026-04-06 21:39:04
突传死讯!58岁香港知名男星去世,2年前醉酒摔倒做了开颅手术

突传死讯!58岁香港知名男星去世,2年前醉酒摔倒做了开颅手术

叨唠
2026-04-06 01:48:09
丧心病狂!珠峰脚下惊天骗局:导游给游客食物下药,3年骗2000万

丧心病狂!珠峰脚下惊天骗局:导游给游客食物下药,3年骗2000万

天气观察站
2026-04-03 14:01:29
把情报局当私器、向俄罗斯泄密,一场匈牙利版水门事件如何收场呢

把情报局当私器、向俄罗斯泄密,一场匈牙利版水门事件如何收场呢

环球格局观
2026-04-05 21:57:54
李镇全疑似辱骂米特里策!视频曝光,2次口吐脏话,米神揪发染红

李镇全疑似辱骂米特里策!视频曝光,2次口吐脏话,米神揪发染红

奥拜尔
2026-04-06 18:31:55
美股芯片股爆发,希捷科技涨7%创新高,中国资产深夜大涨,原油短线拉升

美股芯片股爆发,希捷科技涨7%创新高,中国资产深夜大涨,原油短线拉升

21世纪经济报道
2026-04-06 22:45:30
人民日报13字锐评全红婵事件,国家体育总局果断行动

人民日报13字锐评全红婵事件,国家体育总局果断行动

吃青菜长高
2026-04-04 06:08:45
中国共产党中央军事委员会副主席张升民简历

中国共产党中央军事委员会副主席张升民简历

上观新闻
2025-10-23 18:17:07
这招太狠,美国撤销伊朗高级官员亲属居留权并将其驱逐出境

这招太狠,美国撤销伊朗高级官员亲属居留权并将其驱逐出境

山河路口
2026-04-05 00:00:03
徐静蕾在洛杉矶的近况,看得人心里五味杂陈。

徐静蕾在洛杉矶的近况,看得人心里五味杂陈。

南权先生
2026-03-09 15:52:48
她带弟弟进入娱乐圈,没想到如今自己无人问津,弟弟却红透半边天

她带弟弟进入娱乐圈,没想到如今自己无人问津,弟弟却红透半边天

看尽落尘花q
2026-03-05 19:53:18
雷军晒新一代SU7设计师手稿:全新进气格栅+内置4D毫米波雷达

雷军晒新一代SU7设计师手稿:全新进气格栅+内置4D毫米波雷达

IT之家
2026-04-05 17:16:11
4月起,物业5项收费彻底取消!业主千万别再当冤大头!

4月起,物业5项收费彻底取消!业主千万别再当冤大头!

老特有话说
2026-04-06 14:03:19
为什么领导在大领导面是前背手,在小领导面前是后背手?

为什么领导在大领导面是前背手,在小领导面前是后背手?

深度报
2026-04-03 21:40:01
足总杯半决赛抽签引争议:切尔西避开曼城被指“有剧本”?

足总杯半决赛抽签引争议:切尔西避开曼城被指“有剧本”?

星耀国际足坛
2026-04-06 21:43:37
心源性猝死的人越来越多?医生强调:宁可打打牌,建议别做这7事

心源性猝死的人越来越多?医生强调:宁可打打牌,建议别做这7事

医学原创故事会
2026-03-29 23:50:13
这个男士是郭延军,他的鼻子的宽度、面积、体积为普通人2倍以上

这个男士是郭延军,他的鼻子的宽度、面积、体积为普通人2倍以上

岁月有情1314
2026-04-01 11:25:58
史上最漂亮的违章,没有之一

史上最漂亮的违章,没有之一

今日搞笑分享
2026-04-06 19:36:28
眼睛是“心梗”的放大镜?医生说:眼睛若有这5个异常,及时检查

眼睛是“心梗”的放大镜?医生说:眼睛若有这5个异常,及时检查

白话电影院
2026-04-03 23:57:17
轻断食再次封神!复旦大学研究证实:让肝脏脂肪在3月内少20.5%?

轻断食再次封神!复旦大学研究证实:让肝脏脂肪在3月内少20.5%?

医学科普汇
2026-04-05 13:15:10
2026-04-07 02:32:49
21世纪经济报道 incentive-icons
21世纪经济报道
中国商业新闻领导者
241573文章数 744003关注度
往期回顾 全部

科技要闻

折叠屏iPhone要来了,富士康已在试产!

头条要闻

特朗普:一夜就能拿下伊朗 可能就是周二晚上

头条要闻

特朗普:一夜就能拿下伊朗 可能就是周二晚上

体育要闻

官方:中国女足球员邵子钦加盟本菲卡

娱乐要闻

唐嫣罗晋新加坡遛娃,6岁女儿身高抢镜

财经要闻

史诗级暴跌"一周年" A股接下来如何走?

汽车要闻

阿维塔06T快上市了 旅行车还能这么玩?

态度原创

手机
数码
亲子
房产
公开课

手机要闻

OPPO Find X9s Pro真机现身,还有银色哈苏专业增距镜

数码要闻

玄派玄机16 2026笔记本上架:锐龙AI Max+ 395,128GB + 2TB

亲子要闻

哪款儿童祛疤膏好用又不刺激?2026温和修护祛疤好物分析:舒缓疤痕不适

房产要闻

小阳春全面启动!现房,才是这波行情里最稳的上车票

公开课

李玫瑾:为什么性格比能力更重要?

无障碍浏览 进入关怀版