网易首页 > 网易号 > 正文 申请入驻

从智能体到赛博员工,生产力智能涌现

0
分享至



机器之心发布

最近一两年,AI 行业有一个很微妙的变化:大家不再满足于问 “模型会不会回答”,也不再只关心 “Agent 能不能调用工具”。越来越多的讨论开始回到一个更终极的问题:AI 到底能不能完全自动化接管工作区,理解个性化需求,像一个真实的人类劳动力一样,把一件事情从头到尾做完?

这个问题并不新。过去,每一轮模型升级都会带来一批令人惊艳的 Demo:写代码、做 PPT、总结文档、整理会议纪要,甚至在浏览器中代替人完成流程。然而,一旦将其放入真实的个人或企业工作流中,差距很快显现出来:Demo 中的 AI 像一个聪明的助手,真实工作中的 AI 却常常像一个健忘、不了解组织上下文的新同事。以图中的案例为例,许多 Agent 表面上能够 “完成表格”,但实际结果中仍存在结构错误、统计偏差、关键字段缺失等问题。



相关链接:https://huggingface.co/Workspace-Bench

我们在分析飞书内部 100+ 个真实案例后发现,当前 Agent 已经进入大量工作流,但大多数仍停留在 “行动层”,比如写一段话、打开一些文件。它们可以执行任务,却难以理解任务背后的真实工作世界。其中一个关键挑战是,当一个任务背后有一整套长期积累的工作空间时,AI 能不能知道该看什么、信什么、忽略什么,以及最后如何把这些材料组织成一个可交付的结果。

这也是我们在实践中越来越强烈感受到的转折:Agent 的下一站,不只是更强的模型,也不只是更强的 Agent Harness,而是生产力智能。

需求:从 “演示干活” 到 “进入岗位”

想象一个很普通的工作场景。你刚加入一个团队,老板对你说:“帮我整理一份明年全球产品策略报告。”

如果这是一个传统 AI 任务,用户可能会把三份材料上传给模型,并明确告诉它:“请基于这三份文件写一份报告。” 这时,AI 需要做的事情相对清楚:读取文件、抽取要点、生成文本。

但真实工作不是这样发生的。真实情况往往是,你面对的是一个团队多年沉淀下来的工作站:旧版方案、最终版方案、会议纪要、表格数据、客户反馈、邮件导出、PPT 草稿、竞品分析、临时截图、历史复盘,全都散落在不同目录、不同命名规则和不同版本里。更麻烦的是,很多关键关系并不会写在文件名里。某个图表可能来自三个月前的 Excel,某个结论可能来自一次没有归档好的会议,某个 “最终版” 旁边还躺着一个其实更新的 “final_v3”。

从这个角度看,我们真正需要的不是一个 “万能聊天机器人”,也不是一个能把工具链串起来的自动化脚本,而是一种新的生产力单位:它要拥有自己的工作站,理解岗位职责,能够面对任务目标自主探索、持续学习,并以可验证的方式交付结果。我们把这种形态称为赛博员工

这就是 Workspace-Bench 试图揭示的问题。它不是为了再造一个 “谁分数更高” 的榜单,而是把 AI Agent 放回真实员工的办公环境中,测试它们是否具备一种更接近生产现场的能力:Workspace Learning,工作空间学习

工作空间学习,指的是 AI Agent 能够在复杂工作空间中识别、推理、利用并更新异构文件之间显性与隐性的依赖关系,从而完成日常和进阶工作任务的能力。



相关链接:https://workspace-bench.github.io/leaderboard.html

现状:今天的 Agent 技术,哪些能适配赛博员工,哪些还不能

过去我们谈 Agent,常常强调模型之外的系统能力。一个 Agent Harness 会给模型接上工具、记忆、文件系统、浏览器、MCP、状态管理和多步执行能力。它让 AI 不只是 “说”,也能 “做”。近年的 Agent Harness 已经把 AI Agent 的操作范围大幅扩展到模型推理之外:连接外部工具与 MCP,维护任务状态和长期记忆,编排多步执行,加入安全边界,并支持系统性评估机制。这些能力使 Agent 能够减少人类在日常任务甚至高级任务中的重复劳动。

Workspace-Bench 1.0 选择了一个很有挑战性的切口:不再把 Agent 放在干净、预设、单文件的任务里,而是构建五类真实工作角色的工作空间,覆盖运营经理、物流经理、产品经理、后端开发和研究员等画像;整个环境包含 20,476 个文件、74 种文件类型、3,299 个目录,最大目录深度达到 8,最大单个工作站包含 11,020 个文件。



相关链接:https://arxiv.org/abs/2605.03596

它围绕 388 个带有文件依赖图的任务进行评测,并设计了 7,399 条细粒度 rubric,平均每个任务需要解析 5.1 条依赖边、跨越 4.7 个不同文件,并接受 19.1 条评价标准检验。这种评测方式不只看最终答案是否像样,还看 Agent 是否找对了源文件,是否理解了文件之间的关系,是否使用了正确版本,是否遵循了任务所需的依赖结构。

这与真实办公非常接近。现实里,一个报告写得漂亮但数据源错了,比报告写得朴素更危险;一个策略建议语言流畅但证据链断了,反而会放大组织风险。

一个代表性任务很有意思:运营经理需要生成一份全球市场产品策略报告。任务要求 Agent 遍历全球市场数据,比较 USCA、Asia Pacific、Europe、LATAM、Africa 五个市场的销售额和利润率,分析不同产品类别在不同市场的盈利能力,评估物流成本对利润的影响,比较客户细分贡献,并最终生成 `Global_Product_Strategy.md`。这看起来像一个 “写报告” 的任务,但实际上它要求 Agent 找到 9 个核心文件,连接订单 CSV、物流 PDF、产品信息 Excel、客户分层表、销售计划 PDF 等多源材料,并通过 25 条 rubric 验证基础交付、结果正确性和过程正确性。

这不是传统意义上的 “总结文档”,而是一次小型的数字办公室试炼。Agent 必须自己完成一件真实员工每天都在做的事:从散乱材料中恢复工作脉络,从多源证据中形成判断,再把判断组织成可交付成果。

实验结果也说明了差距的结构性。Workspace-Bench-Lite 上,各类 Agent 配置的总体通过率约在 27% 到 60% 之间,平均约 45.1%,明显低于人类专家配合工具的 80.7%。在完整统计中,跨 27 种 Agent Harness 与 Foundation Model 组合的平均 Rubrics Pass Rate 约为 43.3%,最佳组合接近 60%,但仍与人类加工具存在显著差距。



更值得关注的是,难度越接近真实工作,Agent 的性能下降越明显。论文显示,任务从 Easy 到 Medium 再到 Hard,平均通过率从 51.4% 降到 46.0%,再降到 35.7%。Easy 任务往往只是较简单的多文件总结或单文件修改;Hard 任务则引入文件关系发现、长程规划、状态跟踪和错误恢复。换句话说,Agent 不是不会动手,而是一旦进入真实工作站的复杂依赖网络,就很容易迷路。

其中最有启发的一点,是论文对依赖图识别的分析。Agent 的 Node F1 通常高于 Edge F1,说明它们相对更容易找到 “哪些文件可能相关”,但更难判断 “这些文件之间到底是什么关系”。这其实非常符合我们的实践经验:今天的 Agent 常常能搜到一堆材料,却不知道哪个是源数据,哪个是派生报告,哪个是历史版本,哪个只是背景约束。

这就是赛博员工与普通 Agent 的分界线。普通 Agent 只要找到材料,就可以开始生成;赛博员工必须先理解材料之间的关系,再决定如何生成。

Scaling :从模型参数到提供的工作世界本身

今天行业讨论 Scaling,很多时候仍然围绕模型本身展开:更大的参数、更长的上下文、更强的推理、更低的 token 成本。这些当然重要,但它们并没有完全回答企业生产力的问题。

我们从实践中看到,后面真正需要规模化扩展的,未必是 Agent 本身或模型本身,而是三个更难但更关键的对象。

第一,是工作站的规模。真实企业不是一个干净的 benchmark 文件夹,而是成千上万个不断变化的 workspace。每个团队的文件结构、命名习惯、权限边界、历史遗留和业务语义都不同。AI 如果只能在单个被整理好的文件包里工作,它就很难进入真实组织。

第二,是提供的角色的规模。企业需要的不是一个泛化的 “万能 Agent”,而是一组能够承担具体职责的角色:运营经理、产品经理、物流经理、后端负责人、研究员、销售、财务、HR、法务。每个角色都有不同的目标函数、证据标准和交付格式。让 AI 从 “执行工具” 变成 “岗位角色”,本身就是一次更复杂的工程化挑战。

第三,是各种典型生产力工作的规模。企业真正关心的不是 AI 能否完成一次炫技任务,而是能否稳定覆盖周报生成、客户分析、项目复盘、策略报告、数据核对、合规审查、需求整理、进度跟踪等高频任务。这些任务往往不难描述,却很难稳定交付,因为它们高度依赖组织上下文和跨文件证据链。

这三件事都非常难 Scaling。它们不像模型参数那样可以通过统一的训练流程线性推进,也不像单个 Agent Demo 那样可以靠精心设计的场景展示效果。它们要求 AI 系统真正理解企业里的 “工作世界”:文件如何产生,信息如何流转,角色如何协作,任务如何沉淀为流程。

生产力智能涌现

过去谈 AI 涌现,行业常常把它理解为模型能力突变:模型规模达到某个临界点,突然出现更强的推理、规划、编码或多模态理解能力。这种涌现仍然重要,但它不是生产力智能的全部。

在生产力场景里,我们需要一个新的定义:生产力智能的涌现,是当模型、Agent Harness、工作站结构、角色语境、任务反馈和组织流程形成闭环后,系统在真实工作中表现出稳定、可复用、可扩展交付能力的过程。



这个定义有三个关键变化。

第一,涌现的驱动力不完全来自模型。更强模型当然能提升上限,但论文结果显示,同一模型在不同 Harness 下会呈现不同的能力分布,而同一 Harness 在不同模型上也会出现显著差异。尤其在 Hard 任务中,性能下降来自模型推理能力与 Harness 编排约束的双重作用。这说明,生产力智能不是单点模型能力,而是系统组合能力。



第二,涌现的驱动力也不完全来自 Agent 技术本身。Harness 可以让 AI 更会行动,但如果它不能理解工作站中的文件血缘、语义依赖和任务支撑关系,就会陷入 “动得很多,但做得不准” 的状态。高交互轮次和高 token 消耗并不必然带来高质量结果。某些配置会产生 40 到 60 轮交互、消耗大量 token,却只能停留在 30% 到 45% 的准确率区间。相反,更高效的系统能够用更少交互轮次找到关键证据,体现出更强的推理效率。



第三,涌现可能源于工作站本身的变革。当工作站不再只是文件存储,而是成为一种可被机器理解、可被角色继承、可被任务验证的生产力环境时,AI 的能力边界会发生变化。它不再只是 “访问文件”,而是在一个结构化、带有血缘、权限、反馈和评价机制的工作世界中学习如何工作。

结语:下一代 AI 竞争,是争夺生产力智能的基础设施

过去,AI 产品常常从 “能力” 出发:能写作、能画图、能检索、能 coding、能调用工具。但未来,真正能够进入企业生产系统的 AI 产品,必须从 “工作” 出发:一个角色每天要完成什么任务?需要访问哪些工作站?如何识别文件之间的关系?如何发现缺失信息、修复错误、检查版本,并在多人协作中留下可追溯的证据链?

这正是当前 Agent 的核心瓶颈。许多 Agent 本质上仍是 request-response system:用户提出指令,它在 prompt 边界内执行动作。但真实员工更接近 outcome-responsible system:老板只提出目标,员工会主动补齐数据、核对上下文、预判风险,并对最终交付负责。因此,赛博员工与普通 Agent 的核心分层,不在于是否能够调用工具,而在于是否能够将目标转化为可靠交付。普通 Agent 更多是把指令转化为动作,赛博员工则需要把目标转化为结果。

从 Agent 到生产力智能的范式迁移,并不容易。工作站的规模、角色的规模、典型生产力工作的规模,都可能构成新的 scaling-up 问题。但也正因为难,它才是 AI 真正进入工作世界的潜在关键。

参考内容:

《Workspace-Bench 1.0: Benchmarking AI Agents on Workspace Tasks with Large-Scale File Dependencies》 https://arxiv.org/pdf/2605.03596

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
父亲一句气话逼走17岁儿子,8天后救援队找到人,已无生命体征

父亲一句气话逼走17岁儿子,8天后救援队找到人,已无生命体征

林大师热点
2026-05-14 23:20:11
总裁外派我三年后召我回国,秘书悄悄说:您太太在瑞士有家了

总裁外派我三年后召我回国,秘书悄悄说:您太太在瑞士有家了

晓艾故事汇
2026-04-18 15:18:37
心理学上有个词叫:螃蟹效应。永远要记住,和周围人搞好关系的秘诀就是,不分享喜悦、不炫耀成功、不说三道四、不假装聪明

心理学上有个词叫:螃蟹效应。永远要记住,和周围人搞好关系的秘诀就是,不分享喜悦、不炫耀成功、不说三道四、不假装聪明

德鲁克博雅管理
2026-04-28 17:04:30
《主角》爆后才知张艺谋要捧谁?不是翻红王丽坤也不是当红刘浩存

《主角》爆后才知张艺谋要捧谁?不是翻红王丽坤也不是当红刘浩存

墨羽怪谈
2026-05-14 23:15:54
7万亿大基建,正式启动了!

7万亿大基建,正式启动了!

米宅
2026-05-15 07:25:17
特朗普访华刷屏,家长群炸了:赴美留学的窗口期,真的回来了吗?

特朗普访华刷屏,家长群炸了:赴美留学的窗口期,真的回来了吗?

学习不费妈
2026-05-14 14:40:55
他套现百亿,留下27万股民和一张ST废纸,闻泰科技给投资者上了一课

他套现百亿,留下27万股民和一张ST废纸,闻泰科技给投资者上了一课

A活着
2026-05-09 20:47:26
人类全部的政治困境,都在这场会议里

人类全部的政治困境,都在这场会议里

尚曦读史
2026-05-11 07:04:06
我从来没觉得饱满是缺点,除了……黑点

我从来没觉得饱满是缺点,除了……黑点

飛娱日记
2026-03-27 08:44:43
抽奖得来的Switch 2被老婆偷偷送人,37岁男玩家决心离婚

抽奖得来的Switch 2被老婆偷偷送人,37岁男玩家决心离婚

爱游戏的萌博士
2026-05-14 15:08:52
丁海峰夫妇凌晨1点机场接娃,儿子身高超190,长相随妈比爸爸还帅

丁海峰夫妇凌晨1点机场接娃,儿子身高超190,长相随妈比爸爸还帅

八怪娱
2026-05-14 11:08:39
10年麻将馆老板囗述:凡是爱打麻将的,没有一个人日子是过得好的

10年麻将馆老板囗述:凡是爱打麻将的,没有一个人日子是过得好的

小噎论事
2026-04-24 17:15:21
女足U17亚洲杯赛后评球,中国vs朝鲜

女足U17亚洲杯赛后评球,中国vs朝鲜

酷马西者野
2026-05-16 00:58:20
人伦之乱,正在悄悄毁掉无数家庭!看完一身冷汗

人伦之乱,正在悄悄毁掉无数家庭!看完一身冷汗

三农老历
2026-05-08 19:20:12
诺兰《奥德赛》选角不是问题,但马特·达蒙这句台词让我皱眉头

诺兰《奥德赛》选角不是问题,但马特·达蒙这句台词让我皱眉头

晚星归航2
2026-05-15 03:38:40
成本暴跌80%,百万网约车司机恐失业,出行巨头激战千亿底盘

成本暴跌80%,百万网约车司机恐失业,出行巨头激战千亿底盘

话史官1
2026-05-14 21:17:46
伊朗也有司马南:荧幕上骂美国是“大撒旦”,私下拿绿卡喝星巴克

伊朗也有司马南:荧幕上骂美国是“大撒旦”,私下拿绿卡喝星巴克

壹家言
2026-04-17 10:43:11
重磅! 禁止PR领取澳洲17项福利, 只有公民能领! 还要大砍40%移民

重磅! 禁止PR领取澳洲17项福利, 只有公民能领! 还要大砍40%移民

澳微Daily
2026-05-15 16:03:07
住建部:地级及以上城市、县级市全面开展城市体检

住建部:地级及以上城市、县级市全面开展城市体检

澎湃新闻
2026-05-15 19:41:03
心理学上说:男女相处的本质是搂搂抱抱。如果在一起约会,男的没有一点实际行动,那男的一定是第一次谈恋爱

心理学上说:男女相处的本质是搂搂抱抱。如果在一起约会,男的没有一点实际行动,那男的一定是第一次谈恋爱

LULU生活家
2026-05-09 19:00:08
2026-05-16 02:03:00
机器之心Pro incentive-icons
机器之心Pro
专业的人工智能媒体
13006文章数 142649关注度
往期回顾 全部

科技要闻

直降千元起步!苹果华为率先开启618让利

头条要闻

黄仁勋在北京喝豆汁痛苦皱眉 问“这是什么东西”

头条要闻

黄仁勋在北京喝豆汁痛苦皱眉 问“这是什么东西”

体育要闻

德约科维奇买的球队,从第6级联赛升入法甲

娱乐要闻

方媛为何要来《桃花坞6》没苦硬吃?

财经要闻

腾讯掉队,马化腾戳破真相

汽车要闻

高尔夫GTI刷新纽北纪录 ID. Polo GTI迎全球首秀

态度原创

房产
时尚
本地
公开课
军事航空

房产要闻

老黄埔热销之下,珠江春,为何去化仅3成?

顶级团队拍出来的作品不如素人,问题出在哪儿了?

本地新闻

用苏绣的方式,打开江西婺源

公开课

李玫瑾:为什么性格比能力更重要?

军事要闻

乌克兰首都基辅遭空袭 死亡人数增至12人

无障碍浏览 进入关怀版