网易首页 > 网易号 > 正文 申请入驻

OpenAI发布ChatGPT智能体,却被批“鸡肋”

0
分享至

记者丨孔海丽 实习生郑子涵

编辑丨张伟贤

AI Agent竞赛进入白热化阶段,但能力与实用性的鸿沟仍待弥合。

继年初发布专注于浏览器交互的Operator和精于深度研究的DeepResearch之后,OpenAI终于打出了组合拳。7月18日凌晨,集二者之长的ChatGPT Agent正式上线,试图打造一个能处理端到端复杂任务的“全能助理”。

然而,相较于xAI发布Grok 4时的万众瞩目,此次OpenAI的更新在社区却引发了褒贬不一的讨论。一方面,其在多项基准测试中再次“屠榜”,展现了强大的技术实力;另一方面,用户初期的失望情绪、对其实用性的质疑以及服务器的例行崩溃,都让这款被寄予厚望的Agent显得有些“平淡”。

OpenAI此次更像是一次“内部整合”的常规升级,而非颠覆性创新。AI巨头们的产品迭代,似乎正从追求“暴力美学”的技术突破,转向解决自身产品短板的精细化运营。

不过也要注意到,相比于当初引起巨大讨论的Manus,公众对于已经成长为AI巨头的OpenAI显然有更高期待和要求。

“全能助理”能打几分?

从官方演示和技术博客来看,ChatGPT Agent的能力覆盖了从办公到生活的诸多场景。

其核心逻辑是将Operator的视觉交互能力与DeepResearch的信息合成能力融为一体。简单来说,Operator不擅长阅读长文,而DeepResearch无法与动态网页互动,ChatGPT Agent则试图“取长补短”,在一个虚拟机内同时调度视觉浏览器、文本浏览器和代码终端。

理论上,它可以完成相当复杂的任务链。

比如,办公自动化,自动分析日历,结合最新新闻为即将到来的会议生成简报;进行竞品分析,并直接生成一份可编辑的PPT演示文稿。

生活助手,可以根据用户喜好规划一周菜单,并完成在线采购。

深度研究,可以创建研究报告、电子表格或其他详细文档。

性能数据也相当亮眼。在被誉为“人类最后的考试”(HLE)测试中,ChatGPT Agent的pass@1得分达到41.6%,刷新了纪录。在电子表格处理测试SpreadsheetBench中,其总体准确率达到45.54%,远超微软自家Copilot in Excel的20%。

不同AI模型在SpreadsheetBench评估中处理软限制的性能对比表格(来自OpenAI官网公告)

用户不买账?争议与现实落差

然而,漂亮的跑分并未完全转化为完美的用户体验。

“你永远可以对OpenAI的发布会,保持失望。”一位资深用户在体验后直言。这种情绪在交流社区中并不少见。

争议主要集中在以下几个方面:

准确性与效率的矛盾。尽管内部测试称其在约50%的知识工作任务中表现比肩甚至超越人类,但用户反馈的实际任务完成率也恰好在50%左右。有用户抱怨,一个手动操作仅需15秒的任务,Agent却花费了35分钟,并且最终结果中的数据还需要花费2-3倍的时间来核对,效率不升反降。

备受期待的PPT生成功能,其成品被吐槽“被各家其他的通用Agent秒杀”,美观度严重不足。

此外,Agent可以连接用户的Google Drive、Gmail等私密数据源,也引发了巨大的安全担忧。有用户评论,即使是99.99%的成功率,也意味着每周可能在美国产生7200次错误,如果涉及金融交易或敏感邮件,后果不堪设想。

高门槛与低配额。目前该功能仅向Pro、Plus和Team用户开放,且Plus与Team用户每月仅40次的使用配额,与其“全能助理”的定位似乎并不匹配。

伴随新功能发布的,还有ChatGPT雷打不动的服务器崩溃,这几乎成了OpenAI发布会的“保留节目”。

从“暴力美学”到“精耕细作”

如果说马斯克的Grok 4上演的是一场算力碾压的“暴力美学”,那么OpenAI的这次更新更像是一次“精耕细作”的产品迭代。它没有试图发明新科学,而是回头修补了现有产品的短板。

AI竞赛正进入下半场。上半场,巨头们用不断刷新的跑分和令人惊叹的演示争夺眼球;下半场,焦点则回归到最朴素的问题,如何让用户真正用起来,并愿意为之付费?

ChatGPT Agent的发布,伴随着对付费用户严格的次数限制,更像是一场大规模的公开测试,而非成熟商业产品的全面铺开。OpenAI似乎也在摸索,在强大的能力与高昂的运行成本之间,如何找到一个可持续的商业模式。

与此同时,能力越大,风险越大。OpenAI在报告中坦承,该模型在生物和化学武器等领域被评估为具有“高能力”,这触发了内部最高级别的安全预警。为此,公司采取了包括实时监控、禁用记忆功能在内的一系列预防措施。在执行发送邮件等关键操作前,Agent也会主动请求用户许可。

只有服务器不再崩溃、生成的内容无需反复核查、用户能放心地将邮箱和日程表交给它时,AI Agent的时代才算真正到来。在此之前,无论是OpenAI还是其他玩家,都还有很长的路要走。

不过那个时候,人类是否真的会被AI夺走工作,也将变成更加严峻的现实问题。

SFC

出品丨21财经客户端 21世纪经济报道

编辑丨黎雨桐 实习生郑莹莹

21君荐读

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
车还在,厂没了,40 万哪吒车主的尴尬

车还在,厂没了,40 万哪吒车主的尴尬

科技狐
2026-04-26 22:54:06
上海地铁互殴最新后续!双双被行拘,客服发声,知情人曝更多细节

上海地铁互殴最新后续!双双被行拘,客服发声,知情人曝更多细节

爱写的樱桃
2026-04-26 21:38:12
触目惊心!央视曝光上海一中医馆:从医生到病人全是演员!

触目惊心!央视曝光上海一中医馆:从医生到病人全是演员!

人间颂
2026-04-20 10:16:00
广东人狂喜!全国最长跨市“地铁”来了,横跨5座城市

广东人狂喜!全国最长跨市“地铁”来了,横跨5座城市

小怪吃美食
2026-04-27 12:44:55
列宁曾派特工来到中国,专门暗杀一个人:脑袋至今保存在俄博物馆

列宁曾派特工来到中国,专门暗杀一个人:脑袋至今保存在俄博物馆

抽象派大师
2026-04-25 18:39:46
南方黑芝麻创始人,被立案调查

南方黑芝麻创始人,被立案调查

第一财经资讯
2026-04-27 09:28:28
曝杨子新女友已产子!与黄圣依婚姻存续期疑云重重,去年否定关系

曝杨子新女友已产子!与黄圣依婚姻存续期疑云重重,去年否定关系

一盅情怀
2026-04-27 14:27:14
执行董事被曝“在美疑涉性侵指控”,知名公司紧急公告

执行董事被曝“在美疑涉性侵指控”,知名公司紧急公告

南方都市报
2026-04-27 14:57:10
张军被查,才看懂林丹有多狠!

张军被查,才看懂林丹有多狠!

情感大头说说
2026-04-27 13:26:29
上高环,见真章!谁是新能源车省电之王?

上高环,见真章!谁是新能源车省电之王?

Autolab
2026-04-11 23:12:59
美国已收到伊朗谈判新方案

美国已收到伊朗谈判新方案

界面新闻
2026-04-27 11:28:26
重磅!中国DDR5价格大跌!

重磅!中国DDR5价格大跌!

EETOP半导体社区
2026-04-27 08:09:41
田亮儿子照片炸锅!确实很蹊跷,网友集体催去医院

田亮儿子照片炸锅!确实很蹊跷,网友集体催去医院

南万说娱26
2026-04-27 09:22:43
上海迪士尼一男子劝阻另一男子吸烟,反被连扇巴掌、拳打脚踢!当事人删帖称“对方赔了五位数”,警方已介入

上海迪士尼一男子劝阻另一男子吸烟,反被连扇巴掌、拳打脚踢!当事人删帖称“对方赔了五位数”,警方已介入

都市快报橙柿互动
2026-04-27 14:53:19
斯诺克赛程:决出4席8强,吴宜泽生死战,火箭冲8冠,5虎变3虎?

斯诺克赛程:决出4席8强,吴宜泽生死战,火箭冲8冠,5虎变3虎?

刘姚尧的文字城堡
2026-04-27 07:56:16
太扎心!400万炒到剩20万,三年半亏掉380万

太扎心!400万炒到剩20万,三年半亏掉380万

财经智多星
2026-04-26 11:02:55
伟伟道来 | 伊朗为什么越来越强硬

伟伟道来 | 伊朗为什么越来越强硬

经济观察报
2026-04-27 12:08:53
67岁迟志强现状:出狱37年后,定居黑龙江,儿子工作令人泪目

67岁迟志强现状:出狱37年后,定居黑龙江,儿子工作令人泪目

蹲坑看世界
2026-04-25 19:10:38
科尔:我主张直接取消三分线 詹姆斯没有乔丹的威慑力和统治气场

科尔:我主张直接取消三分线 詹姆斯没有乔丹的威慑力和统治气场

罗说NBA
2026-04-27 10:09:08
芬兰外长突然发难:不和中国签自贸协定!中方一句话淡定回应

芬兰外长突然发难:不和中国签自贸协定!中方一句话淡定回应

闻识
2026-04-27 12:07:18
2026-04-27 16:08:49
21世纪经济报道 incentive-icons
21世纪经济报道
中国商业新闻领导者
245067文章数 744166关注度
往期回顾 全部

科技要闻

DeepSeek V4上线三天,第一批实测出来了

头条要闻

美国白宫记协晚宴突发枪击事件 外交部回应

头条要闻

美国白宫记协晚宴突发枪击事件 外交部回应

体育要闻

最抽象的天才,正在改变瓜迪奥拉

娱乐要闻

黄杨钿甜为“耳环风波”出镜道歉:谣言已澄清

财经要闻

DeepSeek融资、字节加码 AI开始真烧钱了

汽车要闻

在不确定中寻找确定性:大众汽车的中国解法

态度原创

家居
数码
本地
旅游
公开课

家居要闻

江景风格 流动的秩序

数码要闻

内存降50%就心动想买了吗!报告:DRAM和NAND价格或在2027年见顶

本地新闻

云游中国|逛世界风筝都 留学生探秘中国传统文化

旅游要闻

“宝藏”小城,何以宁国?

公开课

李玫瑾:为什么性格比能力更重要?

无障碍浏览 进入关怀版