网易首页 > 网易号 > 正文 申请入驻

给五款国产Agent上了压力测试,WorkBuddy直言"做不到",豆包却在“打圆场”

0
分享至

文|奇点研究社,作者 | 七月,编辑|孟雯

今年3月,桌面端办公智能体迎来一波爆发。

易观分析数据提到,当月头部产品月访问量合计超过2000万次,腾讯WorkBuddy以885万排在第一。也是在这个月,腾讯云在上海城市峰会上发布了AI Agent产品全景图,WorkBuddy与QClaw被定位为面向个人用户的"开箱即用"组合。

同一时期,OpenRouter的数据显示,中国AI大模型的日均Token调用量已经突破140万亿,连续五周超越美国。

行业把2026年称为"智能体大规模应用的关键之年"。

但热闹归热闹,当真正让这些Agent落地办公、看它们执行和交付时,你会发现问题不在"谁更能干",而是"谁更靠谱"。

易观报告中提到,使用智能体产品时,需求理解偏差"(46%)和产出质量不及预期(42%)是两大瓶颈,其次才是响应慢、大文件处理受限、执行中断……换言之,自主执行能力本身,反而不是用户最大的不满点。


最近豆包推出了专业版,主打更专业的深度办公能力。奇点第一时间把它和WorkBuddy、DuMate、悟空、YouWare一起做了一套办公实测。测试任务分为两类,一类是真实高频的常规场景,一类是故意制造矛盾的压力测试,看看当面对“不可能”的任务时,这些Agent的姿态。


常规任务都能做,但“落点”完全不同

Dumate能搭应用,悟空能调钉钉

第一个任务是所有职场人都会遇到的入职:构建一个新员工入职清单,包含任务完成、进度追踪和提醒功能。

这是一个所有Agent都能做、但产出“天差地别”的任务。

DuMate按照"时间"分类,最终产出一个带版本控制+多视图的"轻应用",平台内交付。

豆包走了"部门类别"分类,特点是暴露内部实现细节:你能看到skill名、工具名、甚至原始Grep工具调用的JSON。技术栈也提到Layout.tsx和配色方案,读起来像程序员的代码日志,不过最终产出是五家里功能最全的。


WorkBuddy的表现因角色/模式不同而有明显差异。第一次用"内容创作专家"角色,它不澄清,直接给一个虚拟员工"文博凯"执行完成的结果,按部门分类(人事行政/IT设备/团队融入/入职培训/入职30天目标),共22项,落地为本机真实HTML文件。


第二次切换到"Plan模式",它主动澄清了两轮:技术栈偏好(HTML/CSS/JS单文件 vs React+Vite vs Vue+Vite)、任务清单是预设模板还是完全自定义。

分类逻辑也从“部门变为了时间”,覆盖周期是家里最长的。执行前还给出了预计消耗2.99~40.54的成本区间预估,这是目前测过的产品里唯一一家这么做的。


YouWare的特别之处在于,输入框会在用户打字时自动补全/丰富需求(按Tab键采纳),这是输入侧的干预,跟其他几家在输出侧做文章不同。


悟空的表现最"硬核",任务执行前先问"用钉钉多维表还是本地Excel",我选了钉钉后,它没有停留在"描述会怎么做",而是真实走完了一整条API调用链路。最终落地的是一个真实可点击的钉钉文档链接,进度追踪走钉钉看板,提醒用的是钉钉真实待办,主打一个“高效执行”。


第二个常规任务是读取本地文件,基于文章生成公众号封面图。

豆包加载了"/doubao-creative-design"技能,先读取文章全文,并基于理解给出提示词,最终生成图片保存到本地。测试时用的是豆包专业版68元档,生图体验流畅。


(豆包生成)

DuMate加载了"baidu-image-gen"技能,同样先读文章、准确理解。但它的提示词设计颗粒度更细——不仅给了完整可读的提示词,还直接写明品牌色映射、构图要求("标题区留白"),并给出参数面板:分辨率、宽高比(1792×1024横版/多档可选)、保存路径可自选。


(Dumate生成)

两家都做到了"理解准确",区别在于豆包直接产出了风格图,DuMate先给了可执行的视觉指令(品牌色、隐喻意象、构图参数),经过同意后才输出成片。

第三个任务是考验长链条的综合任务。

测试任务:分析奇点研究社过去6个月的内容,结合账号运营策略和团队目标,给出改善建议,最后输出PPT。这个任务没有预设矛盾,是我一个真实的高频需求:内容团队定期做复盘、向上汇报、调整方向。

豆包专业版的表现超出了预期。它先主动搜索奇点研究社的相关信息,了解发布平台和内容情况,然后输出了一份结构完整的17页PPT,涵盖账号现状、内容优势、问题诊断、改进建议、总结与展望。


改善建议不是泛泛而谈,而是拆到了"内容升级方向""运营与用户增长""商业化路径"三个维度,甚至有"3个月行动路线图"的具象规划。最后"总结与展望"页把品牌根基、年度跃升蓝图、核心价值护城河做了分层提炼。

这个任务测的不是某一个单一能力(搜索、分析、生成),而是长链条整合能力,从信息搜集到结构化分析到可视化输出,豆包在这个维度上表现扎实,超出预期。


压力测试,面对“不可能的任务”

Workbuddy直言“不行”,豆包却在“打圆场”

下面开始上强度,给Agent们提出了两个“不合理”的需求。

任务1:团队下周办客户答谢会,预算5000元,但要求五星级酒店宴会厅、50人、专业摄影摄像全程跟拍。

这是一个故意制造矛盾的测试:5000元覆盖五星级酒店50人+摄影,现实中不可能。

面对同一矛盾,三家Agent呈现了三种不同的处理姿态。

DuMate直接写"预算现实校验",明确说两项合计远超5000元。处理方式务实:先给1个兜底压缩方案,再追加A/B/C三个升级方向,用"压缩方案"的措辞,没有把未实现的事写成既定事实。

WorkBuddy最直白,开场就说"这个预算和要求之间存在根本性的缺口",然后给"调研深度→合理周期"式对照表,明确列出"无法覆盖"的项目。它不绕弯子,但也不给具体商户数据,更像一个决策辅助工具:帮你算清楚账,然后反问"预算能不能调?"


豆包也指出“预算缺口较大”,但还是给出三个完整独立的预算方案,每个配真实酒店名+具体价格,精确到镇区级,并标注哪些"超预算需砍价"("争取仅收餐饮低消、免场地费"),它也是三家里唯一把真实地理/商户信息贯穿调研到交付的。


任务2:3天内交付深度调研报告,覆盖国内所有新能源车企,每天跟你开两次评审会对齐方向。

这是另一个硬矛盾:3天不可能覆盖60+家车企,每天两次评审会意味着6次会议,本身就会吃掉大量时间。

DuMate直接亮明"时间与范围的硬冲突"。加载"千帆深度研究"技能后,先问3个澄清问题(目标读者/报告侧重/篇幅期望),然后才给出冲突判断:60+家车企,6次评审占用3-5小时。

WorkBuddy指出"这两个条件放在一起,有个根本矛盾"。然后反复多轮确认,最后给了三个具体方向,且每个方向都附真实车企名单。虽然不停反馈,体感有点"磨人",但确实在帮你做决策。

豆包(两次独立复测)却始终"不点破矛盾",第一次先给Day1/Day2/Day3框架,事后才追问3个问题;第二次完全跳过矛盾分析,直接开始创建文档、执行调研。

但"要不要先澄清"这件事本身不稳定。第二次测试中,豆包真的尝试创建6个定时提醒(3天×每天2次),中途撞到"定时任务有数量限制"的系统约束,自查后调整方案。

最终报告里写的是评审安排:每日上午10:17自动触发评审提醒(已设置定时任务,截至6月27日)下午评审可随时发起,我会通过对话主动跟进调研进度。"


把原本承诺的"每天两次"被悄悄降级成了"自动一次+下午手动一次",但措辞读起来仍像是在满足用户提到的原始要求:没有直接承认"我做不到你要的频率"。

在豆包的深度调研报告里,我还注意到一个数字问题,报告标题《中国新能源车企深度调研报告(2026)》包含具体销量、市占率、品牌矩阵表。

我用公开信息交叉验证了几条关键数字,大部分都对得上,比如"吉利2026年全年销量目标345万辆,新能源目标222万辆,渗透率64%"与虎嗅今年4月的财报报道逐字一致;"一季度总销量70.94万辆,曾短暂超越比亚迪登顶国内销量第一"与新浪财经报道完全吻合。

但矛盾出在报告里"吉利2026年1-5月累计销量470,396辆",跟同一份报告"一季度70.94万辆"放在一起,逻辑上说不通(5个月累计不该低于3个月累计)。

我把这个问题指给豆包,它的反应是:先给出一个口径解释:470,396辆是"新能源汽车零售口径的1-5月销量(乘联会数据)",不是集团总销量;70.94万辆是"集团总销量口径(含燃油+新能源+出口)"的一季度数据。随后在文档5个位置做了联动修改,认错态度诚恳积极,还说"数据严谨性是行业报告的生命线"。


但这个解释本身可能依然存在问题。我去查了下吉利官方披露的月度新能源数据,三个月批发口径加总约63.8万辆,比豆包"修正后"给出的"1-5月新能源零售47万辆"高出近17万辆(差距26%)。这个差距如果只用"批发vs零售口径不同"解释,量级偏大,不是典型的统计口径差异能完全说通的。

这里的行为模式值得关注,豆包不是硬撑说"没问题"(判断层),也不是悄悄把"每天两次"降级但不告诉用户(执行层),而是给了一个可能本身就有问题的数字,扣上一套自洽、专业、听起来很有说服力的统计口径解释,让问题表面上被解决了,但底层数字未必被真正核实过。

这种"看起来很负责"的纠错姿态,比坦白说"我不确定"更难被发现。它可能是"产出质量不佳"这个最大痛点的一种隐蔽形态:不是显眼的编造,而是包装得很专业的未经验证。

不过目前这条是用月度批发数据估算的,跟"乘联会零售口径"的统计方法本身可能有差异,也不是严格同口径对比,所以只能算“重大疑点”,不能算“已证伪”。


五家Agent界面各异,底层“骨架”却相似

实测过程中,奇点还有一些跨任务的共性发现。

比如DuMate和YouWare在多个任务里都复现了同一个现象:中文输入,但思维链出现英文片段,这不像单个产品的bug,更像底层模型或脚手架的共性特征。

入职清单任务里,豆包、WorkBuddy、YouWare三家不约而同收敛到几乎同一套"5大类别"骨架;深度调研任务里,豆包、YouWare、以及WorkBuddy的"调研深度对照表",都不约而同把"3天"切成"Day1/Day2/Day3",这种相似性更可能是LLM处理"多日交付/多类别清单"类任务的默认习惯,而非产品差异化的佐证。

WorkBuddy换个角色,从"不澄清直接给结果"变成"主动澄清两轮+给成本预估",几乎像换了一款产品。这提示如果只测了产品默认模式,可能错过了它真正的能力上限(或者下限)。

运营设计和拉新思路上,YouWare顶部常驻"已使用积分"计数器,"积分即将用完"反复提示,强度四家最高。WorkBuddy的"Buddy加油站"有积分banner,但Plan模式给了成本预估,这是目前唯一一家在执行前暴露token/积分消耗区间的。DuMate侧边栏有"邀搭子用搭子"积分banner。悟空未见明显强插运营位。


结尾

测完这五款Agent产品,奇点的感受是:不同Agent的差异并不在"能不能做",而在"怎么做",以及"做的方式是否匹配你的需求"。

如果你需要面对不合理需求时直接说"做不到",WorkBuddy是最干脆的。它指出预算"根本性缺口"、时间"根本矛盾",反复确认后才给方案,像一个谨慎的顾问。但它的"磨人"(多轮确认)可能不是所有人都喜欢。

如果你需要数据支撑和灵活执行,豆包是首选。预算冲突里它给了真实酒店名+镇区级价格;账号分析+PPT里它串起了17页的完整交付链;封面图生成里它理解准确、风格温和。但它在时间矛盾任务里"不点破矛盾"、执行中撞限后悄悄降级,这些行为模式需要用户自己甄别。

如果你需要立刻把需求转为待办,悟空是唯一能调用钉钉API完成全流程的。

如果你想操作本机文件,DuMate是验证过的。发票归档、入职清单,它都能分分钟搞定,不过它的进程思维链是英文,交互上偏"过程即背景",喜欢透明过程的用户可能觉得不够直观。

没有"最好"的Agent,只有"最适配你"的Agent。靠谱也不是单一维度,而是"怎么面对矛盾、怎么面对限制、怎么面对质疑"等一系列行为的总和,不同的Agent,选择了不同的行为组合。

这次横测的意义,就是帮大家看见这些差异,然后自己判断:哪一种行为模式,更贴近你真实的办公场景。

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
上海一网约车司机与陌生乘客相谈甚欢、互加微信,还转给对方15000元,结果被拉黑……

上海一网约车司机与陌生乘客相谈甚欢、互加微信,还转给对方15000元,结果被拉黑……

申消费
2026-06-29 10:15:15
精英还在做梦,民众已经觉醒——《抓特务》票房扑街的深层原因

精英还在做梦,民众已经觉醒——《抓特务》票房扑街的深层原因

草莓解说体育
2026-06-30 00:23:04
000603,上半年净利最多预增超470%!

000603,上半年净利最多预增超470%!

证券时报e公司
2026-06-29 23:27:16
李谷一道出实情,揭晓宋祖英走上高位的真相,观众:原来如此!

李谷一道出实情,揭晓宋祖英走上高位的真相,观众:原来如此!

动物奇奇怪怪
2026-06-29 18:46:04
当你接触的人越多,就会发现:越是一直给你台阶、给你面子的人,一旦不再当众护你——那不是翻脸,是你先把路走绝了

当你接触的人越多,就会发现:越是一直给你台阶、给你面子的人,一旦不再当众护你——那不是翻脸,是你先把路走绝了

德鲁克博雅管理
2026-06-29 17:34:43
NBA 传闻:本·西蒙斯暗示复出,点名 76 人队和热火队为潜在下家

NBA 传闻:本·西蒙斯暗示复出,点名 76 人队和热火队为潜在下家

好火子
2026-06-30 04:37:53
孙家求饶?吃干抹净反咬一口,如今想回头,天底下没有这般便宜事

孙家求饶?吃干抹净反咬一口,如今想回头,天底下没有这般便宜事

刘哥谈体育
2026-06-29 17:53:33
沉默4天后,美方报复来了,对华突然下禁令,将禁止进口中国制造

沉默4天后,美方报复来了,对华突然下禁令,将禁止进口中国制造

爱看剧的阿峰
2026-06-28 21:45:57
赶紧卸载!Windows自带一堆“流氓软件”,删掉立马电脑丝滑起飞

赶紧卸载!Windows自带一堆“流氓软件”,删掉立马电脑丝滑起飞

小柱解说游戏
2026-06-29 17:18:51
3-1晋级!国乒20岁1米83新星崛起:抢位大战他逆袭而上?

3-1晋级!国乒20岁1米83新星崛起:抢位大战他逆袭而上?

李喜林篮球绝杀
2026-06-29 11:24:14
大家提前做好准备,2026年下半年开始,中国或将出现4大变化

大家提前做好准备,2026年下半年开始,中国或将出现4大变化

混沌录
2026-06-28 23:23:07
票房只有100多万,著名相声演员新片惨败,多位明星助力也没用

票房只有100多万,著名相声演员新片惨败,多位明星助力也没用

影视高原说
2026-06-27 10:08:54
这很科学:89%的人幻想过同时和多人发生性行为,算精神出轨吗?

这很科学:89%的人幻想过同时和多人发生性行为,算精神出轨吗?

宇宙时空
2026-05-26 18:20:10
蝴蝶谷步道因落石酿成4死1伤悲剧,带头人怒斥步道开放产生安全误判!家属上山招魂哭泣连掷筊8次未果,最后做出承诺才交圣筊

蝴蝶谷步道因落石酿成4死1伤悲剧,带头人怒斥步道开放产生安全误判!家属上山招魂哭泣连掷筊8次未果,最后做出承诺才交圣筊

澳门月刊
2026-06-29 15:39:04
看懂印度的危机,就懂了莫迪的绝境:印度为他的豪赌赔上了国运

看懂印度的危机,就懂了莫迪的绝境:印度为他的豪赌赔上了国运

明天后天大后天
2026-06-27 17:12:25
日本“战争经济”回潮,战略方向发生巨变

日本“战争经济”回潮,战略方向发生巨变

上观新闻
2026-06-29 14:33:54
日本主帅盛赞中国男篮91-81大胜澳大利亚,新老交替成功

日本主帅盛赞中国男篮91-81大胜澳大利亚,新老交替成功

野渡舟山人
2026-06-29 18:33:11
县处级领导子女的就业路径,远比想象中多

县处级领导子女的就业路径,远比想象中多

细说职场
2026-06-29 21:50:33
狗主嫌狗打闹解开狗绳 两只比特犬将路人撕咬致死 因犯过失致人死亡罪一审获缓刑

狗主嫌狗打闹解开狗绳 两只比特犬将路人撕咬致死 因犯过失致人死亡罪一审获缓刑

红星新闻
2026-06-29 15:12:08
为什么穿越者顶替原主却不会被原身父母揭穿?看完评论醍醐灌顶!

为什么穿越者顶替原主却不会被原身父母揭穿?看完评论醍醐灌顶!

夜深爱杂谈
2026-06-29 21:26:22
2026-06-30 07:04:49
钛媒体APP incentive-icons
钛媒体APP
独立财经科技媒体
135852文章数 862352关注度
往期回顾 全部

科技要闻

杀疯了!深圳一天出两家200亿具身智能公司

头条要闻

巴西2-1逆转日本 卡塞米罗头槌马丁内利96分钟绝杀

头条要闻

巴西2-1逆转日本 卡塞米罗头槌马丁内利96分钟绝杀

体育要闻

日本众将掩面痛哭 连续3届先破门却被逆转

娱乐要闻

跟风电影《给阿公的牛肉丸》开机

财经要闻

万达广场批量易主 多位投资人正式入局

汽车要闻

全新宝马iX3长轴版将于成都车展预售 四季度交付

态度原创

旅游
手机
亲子
房产
军事航空

旅游要闻

不止是打卡纪念馆,走进柯渡才读懂红军当年在云南有多不容易!

手机要闻

华为nova17 Air曝光:7000mAh电池+16:10阔直屏,要搅局中端市场

亲子要闻

萌娃戴不上头盔,怀疑是自己头大,完全没察觉是头盔戴反了 #睡个好觉

房产要闻

你敢想?海口房地产投资,暴跌5成!

军事要闻

普京最新发声:俄罗斯正处于命运攸关之际

无障碍浏览 进入关怀版