网易首页 > 网易号 > 正文 申请入驻

ChatGPT Agent口碑两极化,Manus隔空对战:赢了

0
分享至


智东西AI前瞻(公众号:zhidxcomAI)
作者 江宇
编辑 漠影

智东西AI前瞻7月18日报道,今日凌晨,OpenAI正式推出了ChatGPT Agent,一个整合了网页交互、深度检索和代码能力的全新“AI助手形态”。

从产品逻辑上看,网络交互工具Operator和深度信息检索工具DeepResearch不再分家,ChatGPT内部出现了一个能够“查找-思考-执行”一体化的Agent,用户能直接让AI跨网页、代码、个人数据源完成完整任务。

相较于OpenAI接连被挖角引发的舆论热度,ChatGPT Agent的发布似没达到“革命性Agent”的期许,略显反应平淡。社区用户体验后褒贬不一,有人认为“初见AGI的雏形”,但也有人指出PPT排版简陋、复杂逻辑易中断和幻觉等问题。

ChatGPT Agent发布后,竞品Manus第一时间接招,放出10个实测案例,试图通过财务建模、生活规划、行程安排、消费购物、航班筛选等不同场景任务,证明ChatGPT Agent在任务闭环和可视化交付上并不占优。


▲(图源:Manus X平台)

回过头来看,ChatGPT Agent在网页浏览、执行任务等多个测评中实现了SOTA,在“人类的最后考试”(Humanity’s Last Exam)测试中取得了41.6的高分。这一成绩证明了其能力,也同时需要进一步在真实场景中验证。


ChatGPT Agent将首先向Pro、Plus和Team用户推出,Pro用户每月可获得400次查询,其他付费用户每月40次。面向企业和教育用户的版本,预计将在本月底前上线。

目前,ChatGPT Pro版的订阅价格为每月200美元,包含Agent和终端功能。相比之下,xAI的Grok 4最新的Agent产品定价高达每月300美元,两者价格相差1.5倍。

一、一次“功能拼图”的交付,ChatGPT Agent有哪些升级?

ChatGPT Agent的定位可以简单理解为“把Operator和DeepResearch合并”,并补上了一个“终端”和“图像生成API”的工具栈。

1、文本浏览器(DeepResearch功能)负责批量搜索网页、阅读长文本;

2、可视化浏览器(Operator功能)负责网页点击、拖拽和表单填写;

3、终端可以跑Python脚本、生成和分析文件(Excel表格、PPT幻灯片)和调用API,甚至接入Google Drive、GitHub等外部数据;

4、图像生成API补足基础的可视化内容生成,可以为报告或幻灯片创建视觉素材。

这套“工具箱”搭载在一个虚拟机环境下,由经过强化学习训练的模型调度,能实现从自动检索、分析、生成文档,到最终下单、预约的完整闭环。

在发布演示中,OpenAI选择了一个贴近生活的案例:用Agent帮用户策划一场婚礼行程。


▲婚礼策划实测(图源:OpenAI)


ChatGPT团队提供婚礼网站链接,提出“帮忙推荐服装、选酒店、挑礼物”三个需求。Agent先自动抓取婚礼时间、地点和着装要求,再查询天气并推荐适合的服装,随后跳转到Booking.com查找酒店选项,最后搜索礼物推荐。最终,Agent生成一份“婚礼准备报告”,按服装、酒店、礼物分类整理,附带来源链接和截图,完整交付给用户。


▲ChatGPT Agent所生成的婚礼策划(图源:OpenAI)

二、Manus隔空叫板:十大对比,功能对齐,体验分化

ChatGPT Agent发布后,作为竞品的Manus第一时间在X平台发布多轮实测对比,主动“迎战”。

从展示效果来看,Manus通过可视化呈现、跨平台操作和交付形式展示了自身优势,试图证明其在任务闭环和最终输出上的完整度优于ChatGPT Agent;相比之下,ChatGPT Agent更多聚焦于基础信息检索和文本型交付,功能覆盖相近,但在交互体验上呈现出不同方向。

具体案例呈现:

1、案例1:新加坡公司选址与政府资助

Manus输出完整调研资料和资助方案PPT,含生态概览、政策详情与图片;ChatGPT Agent只生成基础幻灯片,缺少要点总结与可视化呈现。


▲(图源:Manus)

案例2:高收入FIRE模型

Manus完成包含城市生活成本、税务规划的完整PPT,含关键图表和视觉元素;ChatGPT Agent只列出基础生活成本清单,税务信息方面并不完善,且无投资策略或可视化分析。


▲(图源:Manus)

案例3:三日网球行程制定

Manus生成含每日日程、预算及订票链接的可视化行程卡片;ChatGPT Agent输出纯文字行程,排版单调无整合。


▲(图源:Manus)

案例4:旧金山ACFR财务表格

Manus整理2020-2024年财务数据并生成可视化预算趋势PPT;ChatGPT Agent只生成无视觉呈现的财务表格。


▲(图源:Manus)

案例5:电动车行业研究

Manus制作5页完整PPT,包含行业增速图表、旗帜等定制视觉元素;ChatGPT Agent停留在信息收集,未完成PPT交付。


▲(图源:Manus)

案例6:筛选500美元以下风衣

Manus整理符合条件的商品清单并生成对比文档;ChatGPT Agent只停留在电商页面截图,无完整输出。


▲(图源:Manus)

案例7:英伟达估值建模(DCF模型)

Manus完成全流程,包括历史财务数据抓取、WACC估算、现金流预测、敏感性分析和完整图表输出;ChatGPT Agent仅停留在搜索公开年报信息,未完成建模和分析。


▲(图源:Manus)

案例8:季度财报拆分更新

Manus完成季度表格更新和PPT生成,ChatGPT Agent只完成基础表格更新,无季度拆分和PPT。


▲(图源:Manus)

案例9:预订高评分寿司餐厅

Manus全流程完成订座并返回确认页面,ChatGPT Agent只完成基础餐厅信息检索,无预订动作。


▲餐厅预定成功界面(上)和Manus实操界面(下)(图源:Manus)

案例10:查询机票并筛选优选航班

Manus完成可视化航班票价对比卡片,ChatGPT Agent仅展示网页搜索信息,无可视化总结和筛选逻辑。


▲(图源:Manus)

作为“参赛选手”,Manus的展示更侧重自身产品优势,ChatGPT Agent实际效果如何,还需持续观察更多用户的真实体验反馈。

三、体验有惊喜也有槽点:效率在线,复杂检索还需人类兜底

社区实测也迅速给出了“褒贬对半开”的反馈。

X平台用户用Agent在20分钟内完成了FIRE计划,称相同服务在人类顾问处花费可能高达5000美元。

ChatGPT Agent首先查找了本地税收政策(温哥华),分析了用户的月均开支,测算出在30岁退休所需的储蓄金额,接着生成了投资组合建议,并梳理出用户此前未接触过的税务优化策略,最后构建了多个退休方案的对比情景,生成了一份完整的可下载PPT文件。


▲(图源:X平台)

他还补充道,Agent在生成电子表格和PPT上的能力最让人印象深刻,但整体结果与他用Manus、Genspark等其他Agent工具的体验“差异不大”。在他看来,对没用过这些工具的大多数人而言,ChatGPT Agent的能力“依然足够震撼”。


▲(图源:X平台)

不过,ChatGPT Agent在社区的用户反馈中也暴露出不少实际体验上的短板。不少用户吐槽,在网页交互过程中经常出现卡顿或404错误,生成的PPT排版简陋、审美效果较差,遇到稍微复杂的逻辑需求时,任务流程也往往需要频繁中断和人工修正。

沃顿商学院教授、AI研究者Ethan Mollick也分享了类似感受。他在X平台称,自己用ChatGPT Agent分析了Kaggle上的数据集,虽然Agent能够顺利完成分析流程并生成PPT和Excel文件,但初步结果中存在明显的数据异常。只有在他提供反馈后,Agent才成功识别出问题并修正结果。


▲(图源:X平台)

Agent在执行流程上已经具备高效率,但在数据判断和逻辑把控上仍然离不开人类监督。

从跑分和社区反馈来看,ChatGPT Agent擅长处理指令明确、路径清晰的任务,比如生成婚礼准备清单或根据财务数据制作PPT,在这类标准化流程中,Agent能够高效执行,显著节省人工操作。

但遇到模糊指令或需要开放式判断的任务,比如整理行业隐性趋势或挖掘未被报道的新闻线索时,Agent往往难以给出有效结果,容易陷入“找不到”或“请明确需求”的反复循环。

四、跑分成绩亮眼:擅长流程跑通,难在开放推理

在数据测评上,Agent模式在人文学科推理、金融分析、网页交互和电子表格四大维度上对o3有不同程度领先,最高实现翻倍提升。

ChatGPT Agent在“人类的最后考试”(Humanity’s Last Exam)评估中取得41.6%的最高分,相比o3无工具模式(20.3%)实现翻倍提升,在跨学科专家级问题上展现了推理与工具调用能力。


▲Humanity’s Last Exam(来源:OpenAI)

DSBench聚焦数据分析类实际任务,Agent在数据分析子任务中准确率达到87.9%,显著高于o3(64.1%),首次超越人类参考水平。在DSBench的数据建模子任务中,Agent准确率达到85.5%,优于o3(77.1%)和GPT-4o(45.5%),接近人类表现。


▲DSBench数据分析任务与DSBench数据建模任务(来源:OpenAI)

SpreadsheetBench测试Agent对电子表格的编辑操作,ChatGPT Agent在直接访问.xlsx文件时,准确率提升至45.5%,显著优于Copilot in Excel(20.0%),但与人类水平(71.3%)存在较大差距


▲电子表格任务(来源:OpenAI)

在投行分析师任务中,Agent完成复杂财务建模的准确率达到71.3%,大幅领先o3(48.6%)和DeepResearch(55.9%)。


▲内部投资银行分析师任务评估(来源:OpenAI)

WebArena测试Agent在网页交互任务的操作能力,ChatGPT Agent准确率达到65.4%,超越o3和CUA模型,接近人类水平(78.2%)。


▲WebArena网页交互基准(58.1%)(来源:OpenAI)

BrowseComp用于评估Agent对长尾信息检索任务的处理能力,ChatGPT Agent准确率达到68.9%,比DeepResearch高出17.4个百分点。


▲复杂网页信息检索任务BrowseComp(来源:OpenAI)

ChatGPT Agent在DSBench、SpreadsheetBench、BrowseComp等流程化任务中表现亮眼,数据分析、表格编辑和网页检索准确率大幅提升,部分任务超越人类水平。各类型任务相较于o3模型,Agent都实现了从10%到30%不同程度的提升。

结语:Agent潮起,OpenAI稳步迈进

ChatGPT Agent的发布再次证明Agent赛道正在加速进化。整合多工具、接入个人数据、具备基础执行力,正逐渐成为Agent产品进化的主流方向,但距离真正行业普及仍有不小距离。

这次,OpenAI并没有交付一个“划时代”版本,仅在个人助理和办公场景迈出了一步稳健但平淡的更新。

对用户来说,ChatGPT Agent值得体验,它确实让一部分琐碎事务可以交给AI代劳。但要说AI“重塑工作流”,显然还为时尚早。OpenAI还在路上,Agent也还在半成品阶段。它是一场值得肯定的进步,但并不是一场值得兴奋的飞跃。

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
女子因钾过低不幸离世!医生:平时宁愿少吃点肉,也要多吃这5物

女子因钾过低不幸离世!医生:平时宁愿少吃点肉,也要多吃这5物

牛锅巴小钒
2025-08-16 09:58:36
肌肉少了,血糖就不听话!注意这5个肌肉减少的信号,教你3招改善

肌肉少了,血糖就不听话!注意这5个肌肉减少的信号,教你3招改善

蜡笔小小子
2025-08-31 14:29:03
37岁演员于朦胧坠楼身亡,生前挣扎细节曝光,好友透露最后平静令人破防

37岁演员于朦胧坠楼身亡,生前挣扎细节曝光,好友透露最后平静令人破防

草莓解说体育
2025-09-15 13:15:50
九三阅兵一周后,我们躲过了一场世界大战

九三阅兵一周后,我们躲过了一场世界大战

罗列思维
2025-09-10 18:44:59
浙江女子去非洲婆家,买8台苹果手机做见面礼,却连泡面都吃不起

浙江女子去非洲婆家,买8台苹果手机做见面礼,却连泡面都吃不起

小蜜情感说
2025-09-15 16:10:06
“大幅降息”要来了?美联储,突发!

“大幅降息”要来了?美联储,突发!

每日经济新闻
2025-09-15 18:38:10
他接受纪律审查和监察调查

他接受纪律审查和监察调查

锡望
2025-09-15 13:35:33
正式官宣!2米04山东大汉加盟首钢男篮,身披22号,未来值得期待

正式官宣!2米04山东大汉加盟首钢男篮,身披22号,未来值得期待

璞玉话体坛
2025-09-14 20:59:19
事业单位改革动真格了!这6类岗位将退出编制体系,铁饭碗被打了

事业单位改革动真格了!这6类岗位将退出编制体系,铁饭碗被打了

牛锅巴小钒
2025-08-29 07:53:12
好闺蜜!迪亚兹晒与孙颖莎头对头照片,配文:澳门冠军,明年见

好闺蜜!迪亚兹晒与孙颖莎头对头照片,配文:澳门冠军,明年见

十点街球体育
2025-09-15 20:10:57
日子过久了发现:破壁机才是“厨房神器”,看谁还在傻乎乎闲置!

日子过久了发现:破壁机才是“厨房神器”,看谁还在傻乎乎闲置!

装修秀
2025-09-14 11:00:04
丢人!广东女子带孩吃自助,浪费大量肉还拒绝扣钱,店里泄愤撒泼

丢人!广东女子带孩吃自助,浪费大量肉还拒绝扣钱,店里泄愤撒泼

小兰聊历史
2025-09-15 15:12:10
女行长痴迷“阴阳补术”,荒唐敛财1.5亿,情人队伍竟达60人

女行长痴迷“阴阳补术”,荒唐敛财1.5亿,情人队伍竟达60人

行长男朋友
2025-09-15 11:10:11
1945年,2万日军携1万妇女躲进长白山,80年间下落不明,去哪了?

1945年,2万日军携1万妇女躲进长白山,80年间下落不明,去哪了?

小豫讲故事
2025-09-15 06:00:17
超铁的铁哥们!欠中国81亿全额还清,还赠送了一份百亿能源大礼!

超铁的铁哥们!欠中国81亿全额还清,还赠送了一份百亿能源大礼!

特特农村生活
2025-09-14 21:00:44
罗永浩:决定放弃进一步追究西贝,放弃送10万现金到西贝

罗永浩:决定放弃进一步追究西贝,放弃送10万现金到西贝

21世纪经济报道
2025-09-15 21:08:51
广州的廖一帆爸爸火了,因为他揭开了家委会的真相

广州的廖一帆爸爸火了,因为他揭开了家委会的真相

清晖有墨
2025-09-05 19:24:18
南沙二手房跌 48.3%,增城跌 55.2%,广州外围区房价还没触底?

南沙二手房跌 48.3%,增城跌 55.2%,广州外围区房价还没触底?

爱看剧的阿峰
2025-09-15 17:04:45
西贝二次公关疑抄麻六记作业员工哭到哽咽:老板超好给他们 买鞋

西贝二次公关疑抄麻六记作业员工哭到哽咽:老板超好给他们 买鞋

花心电影
2025-09-14 11:08:08
演员李勤勤发文:愿意兜底,收留于朦胧爱犬,为这么优秀的孩子离去惋惜,此前曾收养周海媚的爱犬

演员李勤勤发文:愿意兜底,收留于朦胧爱犬,为这么优秀的孩子离去惋惜,此前曾收养周海媚的爱犬

极目新闻
2025-09-14 19:11:54
2025-09-15 23:28:49
智东西 incentive-icons
智东西
聚焦智能变革,服务产业升级。
10466文章数 116855关注度
往期回顾 全部

科技要闻

官方:英伟达违反反垄断法 将施进一步调查

头条要闻

游客质疑上博"良渚大石凿"太精致:埋了5000年没腐蚀

头条要闻

游客质疑上博"良渚大石凿"太精致:埋了5000年没腐蚀

体育要闻

诺维茨基退役十年后,德国篮球走向巅峰

娱乐要闻

60岁张曼玉定居法国:瘦成皮包骨?

财经要闻

华与华秒怂 罗永浩称已接到对方道歉

汽车要闻

后轮转向和5C 2026款梦想家把想到的都给了

态度原创

游戏
亲子
艺术
时尚
数码

LPL季后赛:还是不行!BLG五局击败TES,拿到全球总决赛门票

亲子要闻

突发!北京一所幼儿园刚开学就闭园了

艺术要闻

故宫珍藏的墨迹《十七帖》,比拓本更精良,这才是地道的魏晋写法

女人过了50岁真该像她一样打扮,不装嫩、不老气,得体有气质

数码要闻

英韧科技邀您共聚GMIF2025,见证企业级SSD全栈创新突破

无障碍浏览 进入关怀版