网易首页 > 网易号 > 正文 申请入驻

OpenAI的Agent来了,被批“鸡肋”升级?

0
分享至

21世纪经济报道记者孔海丽、实习生郑子涵

AI Agent竞赛进入白热化阶段,但能力与实用性的鸿沟仍待弥合。

继年初发布专注于浏览器交互的Operator和精于深度研究的DeepResearch之后,OpenAI终于打出了组合拳。7月18日凌晨,集二者之长的ChatGPT Agent正式上线,试图打造一个能处理端到端复杂任务的“全能助理”。

然而,相较于xAI发布Grok 4时的万众瞩目,此次OpenAI的更新在社区却引发了褒贬不一的讨论。一方面,其在多项基准测试中再次“屠榜”,展现了强大的技术实力;另一方面,用户初期的失望情绪、对其实用性的质疑以及服务器的例行崩溃,都让这款被寄予厚望的Agent显得有些“平淡”。

OpenAI此次更像是一次“内部整合”的常规升级,而非颠覆性创新。AI巨头们的产品迭代,似乎正从追求“暴力美学”的技术突破,转向解决自身产品短板的精细化运营。

不过也要注意到,相比于当初引起巨大讨论的Manus,公众对于已经成长为AI巨头的OpenAI显然有更高期待和要求。

从官方演示和技术博客来看,ChatGPT Agent的能力覆盖了从办公到生活的诸多场景。

其核心逻辑是将Operator的视觉交互能力与DeepResearch的信息合成能力融为一体。简单来说,Operator不擅长阅读长文,而DeepResearch无法与动态网页互动,ChatGPT Agent则试图“取长补短”,在一个虚拟机内同时调度视觉浏览器、文本浏览器和代码终端。

理论上,它可以完成相当复杂的任务链。

比如,办公自动化,自动分析日历,结合最新新闻为即将到来的会议生成简报;进行竞品分析,并直接生成一份可编辑的PPT演示文稿。

生活助手,可以根据用户喜好规划一周菜单,并完成在线采购。

深度研究,可以创建研究报告、电子表格或其他详细文档。

性能数据也相当亮眼。在被誉为“人类最后的考试”(HLE)测试中,ChatGPT Agent的pass@1得分达到41.6%,刷新了纪录。在电子表格处理测试SpreadsheetBench中,其总体准确率达到45.54%,远超微软自家Copilot in Excel的20%。

不同AI模型在SpreadsheetBench评估中处理软限制的性能对比表格(来自OpenAI官网公告)

然而,漂亮的跑分并未完全转化为完美的用户体验。

“你永远可以对OpenAI的发布会,保持失望。”一位资深用户在体验后直言。这种情绪在交流社区中并不少见。

争议主要集中在以下几个方面:

准确性与效率的矛盾。尽管内部测试称其在约50%的知识工作任务中表现比肩甚至超越人类,但用户反馈的实际任务完成率也恰好在50%左右。有用户抱怨,一个手动操作仅需15秒的任务,Agent却花费了35分钟,并且最终结果中的数据还需要花费2-3倍的时间来核对,效率不升反降。

备受期待的PPT生成功能,其成品被吐槽“被各家其他的通用Agent秒杀”,美观度严重不足。

此外,Agent可以连接用户的Google Drive、Gmail等私密数据源,也引发了巨大的安全担忧。有用户评论,即使是99.99%的成功率,也意味着每周可能在美国产生7200次错误,如果涉及金融交易或敏感邮件,后果不堪设想。

高门槛与低配额。目前该功能仅向Pro、Plus和Team用户开放,且Plus与Team用户每月仅40次的使用配额,与其“全能助理”的定位似乎并不匹配。

伴随新功能发布的,还有ChatGPT雷打不动的服务器崩溃,这几乎成了OpenAI发布会的“保留节目”。

如果说马斯克的Grok 4上演的是一场算力碾压的“暴力美学”,那么OpenAI的这次更新更像是一次“精耕细作”的产品迭代。它没有试图发明新科学,而是回头修补了现有产品的短板。

AI竞赛正进入下半场。上半场,巨头们用不断刷新的跑分和令人惊叹的演示争夺眼球;下半场,焦点则回归到最朴素的问题,如何让用户真正用起来,并愿意为之付费?

ChatGPT Agent的发布,伴随着对付费用户严格的次数限制,更像是一场大规模的公开测试,而非成熟商业产品的全面铺开。OpenAI似乎也在摸索,在强大的能力与高昂的运行成本之间,如何找到一个可持续的商业模式。

与此同时,能力越大,风险越大。OpenAI在报告中坦承,该模型在生物和化学武器等领域被评估为具有“高能力”,这触发了内部最高级别的安全预警。为此,公司采取了包括实时监控、禁用记忆功能在内的一系列预防措施。在执行发送邮件等关键操作前,Agent也会主动请求用户许可。

只有服务器不再崩溃、生成的内容无需反复核查、用户能放心地将邮箱和日程表交给它时,AI Agent的时代才算真正到来。在此之前,无论是OpenAI还是其他玩家,都还有很长的路要走。

不过那个时候,人类是否真的会被AI夺走工作,也将变成更加严峻的现实问题。

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
你听过最劲爆的瓜是啥?网友:被大八岁的补习班老师表白了

你听过最劲爆的瓜是啥?网友:被大八岁的补习班老师表白了

带你感受人间冷暖
2025-11-26 00:10:06
中俄罕见出现严重分歧!俄罗斯借美国之手摆脱孤立!中方态度谨慎

中俄罕见出现严重分歧!俄罗斯借美国之手摆脱孤立!中方态度谨慎

笑谈历史阿晡
2026-01-24 02:57:00
万科突然撤回

万科突然撤回

地产微资讯
2026-01-23 22:36:20
农民把10头猪赶到无人岛,12年后再次登岛,眼前画面让他不敢信

农民把10头猪赶到无人岛,12年后再次登岛,眼前画面让他不敢信

白云故事
2026-01-22 17:30:05
领先34%!台中要提前大结局?郑丽文已经交底 江启臣必须放低姿态

领先34%!台中要提前大结局?郑丽文已经交底 江启臣必须放低姿态

爱下厨的阿酾
2026-01-24 03:16:09
中产家庭一次冲动购房,几年后生活返贫,存款清零只剩房贷

中产家庭一次冲动购房,几年后生活返贫,存款清零只剩房贷

晓艾故事汇
2025-11-05 17:19:17
中央定调,延迟退休继续实施!公务员和事业单位员工不能向后延?

中央定调,延迟退休继续实施!公务员和事业单位员工不能向后延?

王五说说看
2026-01-18 08:23:52
81岁老人被送养老院,悄悄清空700万股票账户,2个月后女儿傻眼了

81岁老人被送养老院,悄悄清空700万股票账户,2个月后女儿傻眼了

兰姐说故事
2025-06-17 10:00:07
不到24小时,格兰陵岛被卖,特朗普来不及高兴,就收到一个坏消息

不到24小时,格兰陵岛被卖,特朗普来不及高兴,就收到一个坏消息

一口娱乐
2026-01-24 03:02:42
胡宗南明知熊向晖是中共卧底却不抓他,沈醉晚年回忆说出背后原因

胡宗南明知熊向晖是中共卧底却不抓他,沈醉晚年回忆说出背后原因

饭小妹说历史
2026-01-07 09:30:45
事实证明,吃完贾玲红利的张小斐,又回到了她的怪圈,黄渤没说错

事实证明,吃完贾玲红利的张小斐,又回到了她的怪圈,黄渤没说错

小白兔YY
2026-01-24 03:57:01
香烟热度榜!烟民贡献万亿税收,年度销冠竟是这个品牌…

香烟热度榜!烟民贡献万亿税收,年度销冠竟是这个品牌…

慧翔百科
2025-12-24 09:14:14
美国专家也看不懂!中国为何又把顶尖材料,给干成“白菜价”了?

美国专家也看不懂!中国为何又把顶尖材料,给干成“白菜价”了?

爱史纪
2026-01-22 09:50:37
赵丽颖被港媒曝怀二胎!冯绍峰为了和她复婚,放下工作在剧组陪同

赵丽颖被港媒曝怀二胎!冯绍峰为了和她复婚,放下工作在剧组陪同

八卦王者
2026-01-23 14:03:18
大衣哥跳楼身亡、赵本山灵堂、宋佳知三当三,造谣的越来越离谱了

大衣哥跳楼身亡、赵本山灵堂、宋佳知三当三,造谣的越来越离谱了

黄谋仕
2025-12-20 17:54:00
第一集就得打码,这部HBO美剧太生猛了

第一集就得打码,这部HBO美剧太生猛了

来看美剧
2026-01-21 23:45:23
上海110-80福建4利好!弗格终于回暖,2小将进步,古德温立竿见影

上海110-80福建4利好!弗格终于回暖,2小将进步,古德温立竿见影

篮球资讯达人
2026-01-24 01:45:05
保时捷女销冠真容曝光,肤白貌美!同事曝卖车多原因,果然有情况

保时捷女销冠真容曝光,肤白貌美!同事曝卖车多原因,果然有情况

花心电影
2025-10-12 11:16:50
84年出生的两位直辖市县长,均是09年的选调生

84年出生的两位直辖市县长,均是09年的选调生

黎禾梨财经人物
2026-01-23 22:01:32
为何女性进入更年期后会变胖?医生:坚持4个好习惯,身材不走样

为何女性进入更年期后会变胖?医生:坚持4个好习惯,身材不走样

健康科普365
2026-01-23 10:30:12
2026-01-24 05:19:00
21世纪经济报道 incentive-icons
21世纪经济报道
中国商业新闻领导者
230329文章数 743602关注度
往期回顾 全部

科技要闻

TikTok守住了算法"灵魂" 更握紧了"钱袋子"

头条要闻

疑在达沃斯受挫 79岁的特朗普转发超80条帖子发泄怒气

头条要闻

疑在达沃斯受挫 79岁的特朗普转发超80条帖子发泄怒气

体育要闻

杜兰特鏖战44分钟累瘫 轰36+7却致命失误

娱乐要闻

演员孙涛澄清闫学晶言论 落泪维护妻子

财经要闻

2026年,消费没有新故事?

汽车要闻

主打家庭大六座 奕境首款SUV将北京车展亮相

态度原创

教育
健康
亲子
数码
军事航空

教育要闻

天大在津招生680人!历史新高必看

耳石脱落为何让人天旋地转+恶心?

亲子要闻

“一个桃就拐走了!”宝妈在水果店频频拒绝女儿,评论区太真实!

数码要闻

大疆Osmo Pocket 4手持云台相机包装曝光,新增变焦与自定义键

军事要闻

美军首艘“高超导弹战舰”出海测试

无障碍浏览 进入关怀版