网易首页 > 网易号 > 正文 申请入驻

OpenAI发布ChatGPT智能体,却被批“鸡肋”

0
分享至

记者丨孔海丽 实习生郑子涵

编辑丨张伟贤

AI Agent竞赛进入白热化阶段,但能力与实用性的鸿沟仍待弥合。

继年初发布专注于浏览器交互的Operator和精于深度研究的DeepResearch之后,OpenAI终于打出了组合拳。7月18日凌晨,集二者之长的ChatGPT Agent正式上线,试图打造一个能处理端到端复杂任务的“全能助理”。

然而,相较于xAI发布Grok 4时的万众瞩目,此次OpenAI的更新在社区却引发了褒贬不一的讨论。一方面,其在多项基准测试中再次“屠榜”,展现了强大的技术实力;另一方面,用户初期的失望情绪、对其实用性的质疑以及服务器的例行崩溃,都让这款被寄予厚望的Agent显得有些“平淡”。

OpenAI此次更像是一次“内部整合”的常规升级,而非颠覆性创新。AI巨头们的产品迭代,似乎正从追求“暴力美学”的技术突破,转向解决自身产品短板的精细化运营。

不过也要注意到,相比于当初引起巨大讨论的Manus,公众对于已经成长为AI巨头的OpenAI显然有更高期待和要求。


“全能助理”能打几分?

从官方演示和技术博客来看,ChatGPT Agent的能力覆盖了从办公到生活的诸多场景。

其核心逻辑是将Operator的视觉交互能力与DeepResearch的信息合成能力融为一体。简单来说,Operator不擅长阅读长文,而DeepResearch无法与动态网页互动,ChatGPT Agent则试图“取长补短”,在一个虚拟机内同时调度视觉浏览器、文本浏览器和代码终端。

理论上,它可以完成相当复杂的任务链。

比如,办公自动化,自动分析日历,结合最新新闻为即将到来的会议生成简报;进行竞品分析,并直接生成一份可编辑的PPT演示文稿。

生活助手,可以根据用户喜好规划一周菜单,并完成在线采购。

深度研究,可以创建研究报告、电子表格或其他详细文档。

性能数据也相当亮眼。在被誉为“人类最后的考试”(HLE)测试中,ChatGPT Agent的pass@1得分达到41.6%,刷新了纪录。在电子表格处理测试SpreadsheetBench中,其总体准确率达到45.54%,远超微软自家Copilot in Excel的20%。


不同AI模型在SpreadsheetBench评估中处理软限制的性能对比表格(来自OpenAI官网公告)


用户不买账?争议与现实落差

然而,漂亮的跑分并未完全转化为完美的用户体验。

“你永远可以对OpenAI的发布会,保持失望。”一位资深用户在体验后直言。这种情绪在交流社区中并不少见。

争议主要集中在以下几个方面:

准确性与效率的矛盾。尽管内部测试称其在约50%的知识工作任务中表现比肩甚至超越人类,但用户反馈的实际任务完成率也恰好在50%左右。有用户抱怨,一个手动操作仅需15秒的任务,Agent却花费了35分钟,并且最终结果中的数据还需要花费2-3倍的时间来核对,效率不升反降。

备受期待的PPT生成功能,其成品被吐槽“被各家其他的通用Agent秒杀”,美观度严重不足。

此外,Agent可以连接用户的Google Drive、Gmail等私密数据源,也引发了巨大的安全担忧。有用户评论,即使是99.99%的成功率,也意味着每周可能在美国产生7200次错误,如果涉及金融交易或敏感邮件,后果不堪设想。

高门槛与低配额。目前该功能仅向Pro、Plus和Team用户开放,且Plus与Team用户每月仅40次的使用配额,与其“全能助理”的定位似乎并不匹配。

伴随新功能发布的,还有ChatGPT雷打不动的服务器崩溃,这几乎成了OpenAI发布会的“保留节目”。


从“暴力美学”到“精耕细作”

如果说马斯克的Grok 4上演的是一场算力碾压的“暴力美学”,那么OpenAI的这次更新更像是一次“精耕细作”的产品迭代。它没有试图发明新科学,而是回头修补了现有产品的短板。

AI竞赛正进入下半场。上半场,巨头们用不断刷新的跑分和令人惊叹的演示争夺眼球;下半场,焦点则回归到最朴素的问题,如何让用户真正用起来,并愿意为之付费?

ChatGPT Agent的发布,伴随着对付费用户严格的次数限制,更像是一场大规模的公开测试,而非成熟商业产品的全面铺开。OpenAI似乎也在摸索,在强大的能力与高昂的运行成本之间,如何找到一个可持续的商业模式。

与此同时,能力越大,风险越大。OpenAI在报告中坦承,该模型在生物和化学武器等领域被评估为具有“高能力”,这触发了内部最高级别的安全预警。为此,公司采取了包括实时监控、禁用记忆功能在内的一系列预防措施。在执行发送邮件等关键操作前,Agent也会主动请求用户许可。

只有服务器不再崩溃、生成的内容无需反复核查、用户能放心地将邮箱和日程表交给它时,AI Agent的时代才算真正到来。在此之前,无论是OpenAI还是其他玩家,都还有很长的路要走。

不过那个时候,人类是否真的会被AI夺走工作,也将变成更加严峻的现实问题。

SFC

出品丨21财经客户端 21世纪经济报道

编辑丨黎雨桐 实习生郑莹莹

21君荐读

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
广东16岁女儿被父亲过度宠溺,被母亲回家撞见后,失控将其砍死

广东16岁女儿被父亲过度宠溺,被母亲回家撞见后,失控将其砍死

晓艾故事汇
2024-11-04 10:55:36
赵丽颖挺孕肚疑怀二胎!冯妈送上珠宝,冯绍峰放下工作陪伴左右

赵丽颖挺孕肚疑怀二胎!冯妈送上珠宝,冯绍峰放下工作陪伴左右

八星人
2025-11-06 11:01:48
细眉小眼,双目无神,鼻孔外露,长相好普

细眉小眼,双目无神,鼻孔外露,长相好普

娘娘不想上班
2025-10-09 14:49:02
总理是叛徒?俄罗斯“最大内鬼”浮出水面,竟然一直藏在普京身边

总理是叛徒?俄罗斯“最大内鬼”浮出水面,竟然一直藏在普京身边

小lu侃侃而谈
2025-06-10 20:06:43
前央视主持人为爱情放弃国籍,婚姻失败回国捞金,如今过的怎样了

前央视主持人为爱情放弃国籍,婚姻失败回国捞金,如今过的怎样了

君笙的拂兮
2025-11-06 00:36:03
云南曲靖一男子发布欲跳楼视频,万千网友在线劝阻,当地:已被消防员救下

云南曲靖一男子发布欲跳楼视频,万千网友在线劝阻,当地:已被消防员救下

极目新闻
2025-11-06 16:25:44
神舟二十号飞船疑遇碎片撞击,如果修不成,神舟二十二或火速升天

神舟二十号飞船疑遇碎片撞击,如果修不成,神舟二十二或火速升天

策略述
2025-11-06 17:10:48
一个都跑不掉!华为600万年薪高管,带13人偷芯片,如今下场解气

一个都跑不掉!华为600万年薪高管,带13人偷芯片,如今下场解气

文史旺旺旺
2025-11-05 20:44:04
全红婵未夺冠并不意外,教练陈若琳到场为爱徒加油,满眼都是心疼

全红婵未夺冠并不意外,教练陈若琳到场为爱徒加油,满眼都是心疼

喜欢历史的阿繁
2025-11-07 01:00:07
女企业竟嫁19岁体育生,一天5次性生活,8年后得知丈夫隐藏身份

女企业竟嫁19岁体育生,一天5次性生活,8年后得知丈夫隐藏身份

今天说故事
2025-09-12 18:14:21
女孩每天去超市货架偷面包,老板装没看见,10年后老板收到快递哭了

女孩每天去超市货架偷面包,老板装没看见,10年后老板收到快递哭了

悬案解密档案
2025-11-03 10:58:58
黄晓明前任叶珂,穿鲨鱼裤直播,身材曲线太惊艳?

黄晓明前任叶珂,穿鲨鱼裤直播,身材曲线太惊艳?

娱乐领航家
2025-11-06 17:00:03
英媒:曼联想在冬窗签下布兰斯韦特,但埃弗顿不会放走他

英媒:曼联想在冬窗签下布兰斯韦特,但埃弗顿不会放走他

懂球帝
2025-11-06 11:26:14
该醒了!就算台湾愿意和平统一,台湾也不可能允许解放军对台驻军

该醒了!就算台湾愿意和平统一,台湾也不可能允许解放军对台驻军

来科点谱
2025-10-25 09:25:44
巴黎世家3.6万的一分裤长这样!衣服已经颠到让人怀疑人生

巴黎世家3.6万的一分裤长这样!衣服已经颠到让人怀疑人生

80后房车生活
2025-09-28 23:27:33
取钱新规出来了!2025开始,死者的存款不再受银行的气!

取钱新规出来了!2025开始,死者的存款不再受银行的气!

巢客HOME
2025-11-04 11:40:03
武汉物业领域真的要变天了!《武汉市物业管理条例》最新细则公布!

武汉物业领域真的要变天了!《武汉市物业管理条例》最新细则公布!

江洲城记
2025-11-06 10:29:30
潮汕姑娘被邻居围殴后续:无法正常生活,已立案,施暴者或被拘留

潮汕姑娘被邻居围殴后续:无法正常生活,已立案,施暴者或被拘留

以茶带书
2025-11-06 15:59:13
纳指跌幅扩大至1.5%

纳指跌幅扩大至1.5%

每日经济新闻
2025-11-07 00:00:32
相当炸裂!网传某大厂领导裁掉一个边缘员工,然后和她结婚了

相当炸裂!网传某大厂领导裁掉一个边缘员工,然后和她结婚了

星河也灿烂
2025-10-30 16:46:24
2025-11-07 03:59:00
21世纪经济报道 incentive-icons
21世纪经济报道
中国商业新闻领导者
218969文章数 743259关注度
往期回顾 全部

科技要闻

小鹏机器人里藏真人?何小鹏发一镜到底视频

头条要闻

美参议员提议:政府不“开门”国会议员就停薪

头条要闻

美参议员提议:政府不“开门”国会议员就停薪

体育要闻

送走两位全明星,公牛成了东部第一

娱乐要闻

“黑料缠身”的白百何 谁给她的勇气?

财经要闻

南银法巴加速发展背后:资金饥渴症待解

汽车要闻

是我眼花了么?怎么大猩猩都来参加新车发布了?

态度原创

本地
时尚
亲子
健康
旅游

本地新闻

这届干饭人,已经把博物馆吃成了食堂

大衣别这么穿,显黑又显胖!

亲子要闻

宝宝爱用大合集丨愿将一切美好献上

超声探头会加重受伤情况吗?

旅游要闻

11月6日最佳情报|济南郎茂山日出美如画,三媳妇山奇峰峻美!

无障碍浏览 进入关怀版