从智能体到赛博员工，生产力智能涌现|上下文|大模型|agent

分享至

机器之心发布

最近一两年，AI 行业有一个很微妙的变化：大家不再满足于问 “模型会不会回答”，也不再只关心 “Agent 能不能调用工具”。越来越多的讨论开始回到一个更终极的问题：AI 到底能不能完全自动化接管工作区，理解个性化需求，像一个真实的人类劳动力一样，把一件事情从头到尾做完？

这个问题并不新。过去，每一轮模型升级都会带来一批令人惊艳的 Demo：写代码、做 PPT、总结文档、整理会议纪要，甚至在浏览器中代替人完成流程。然而，一旦将其放入真实的个人或企业工作流中，差距很快显现出来：Demo 中的 AI 像一个聪明的助手，真实工作中的 AI 却常常像一个健忘、不了解组织上下文的新同事。以图中的案例为例，许多 Agent 表面上能够 “完成表格”，但实际结果中仍存在结构错误、统计偏差、关键字段缺失等问题。

相关链接：https://huggingface.co/Workspace-Bench

我们在分析飞书内部 100+ 个真实案例后发现，当前 Agent 已经进入大量工作流，但大多数仍停留在 “行动层”，比如写一段话、打开一些文件。它们可以执行任务，却难以理解任务背后的真实工作世界。其中一个关键挑战是，当一个任务背后有一整套长期积累的工作空间时，AI 能不能知道该看什么、信什么、忽略什么，以及最后如何把这些材料组织成一个可交付的结果。

这也是我们在实践中越来越强烈感受到的转折：Agent 的下一站，不只是更强的模型，也不只是更强的 Agent Harness，而是生产力智能。

需求：从 “演示干活” 到 “进入岗位”

想象一个很普通的工作场景。你刚加入一个团队，老板对你说：“帮我整理一份明年全球产品策略报告。”

如果这是一个传统 AI 任务，用户可能会把三份材料上传给模型，并明确告诉它：“请基于这三份文件写一份报告。” 这时，AI 需要做的事情相对清楚：读取文件、抽取要点、生成文本。

但真实工作不是这样发生的。真实情况往往是，你面对的是一个团队多年沉淀下来的工作站：旧版方案、最终版方案、会议纪要、表格数据、客户反馈、邮件导出、PPT 草稿、竞品分析、临时截图、历史复盘，全都散落在不同目录、不同命名规则和不同版本里。更麻烦的是，很多关键关系并不会写在文件名里。某个图表可能来自三个月前的 Excel，某个结论可能来自一次没有归档好的会议，某个 “最终版” 旁边还躺着一个其实更新的 “final_v3”。

从这个角度看，我们真正需要的不是一个 “万能聊天机器人”，也不是一个能把工具链串起来的自动化脚本，而是一种新的生产力单位：它要拥有自己的工作站，理解岗位职责，能够面对任务目标自主探索、持续学习，并以可验证的方式交付结果。我们把这种形态称为赛博员工

这就是 Workspace-Bench 试图揭示的问题。它不是为了再造一个 “谁分数更高” 的榜单，而是把 AI Agent 放回真实员工的办公环境中，测试它们是否具备一种更接近生产现场的能力：Workspace Learning，工作空间学习

工作空间学习，指的是 AI Agent 能够在复杂工作空间中识别、推理、利用并更新异构文件之间显性与隐性的依赖关系，从而完成日常和进阶工作任务的能力。

相关链接：https://workspace-bench.github.io/leaderboard.html

现状：今天的 Agent 技术，哪些能适配赛博员工，哪些还不能

过去我们谈 Agent，常常强调模型之外的系统能力。一个 Agent Harness 会给模型接上工具、记忆、文件系统、浏览器、MCP、状态管理和多步执行能力。它让 AI 不只是 “说”，也能 “做”。近年的 Agent Harness 已经把 AI Agent 的操作范围大幅扩展到模型推理之外：连接外部工具与 MCP，维护任务状态和长期记忆，编排多步执行，加入安全边界，并支持系统性评估机制。这些能力使 Agent 能够减少人类在日常任务甚至高级任务中的重复劳动。

Workspace-Bench 1.0 选择了一个很有挑战性的切口：不再把 Agent 放在干净、预设、单文件的任务里，而是构建五类真实工作角色的工作空间，覆盖运营经理、物流经理、产品经理、后端开发和研究员等画像；整个环境包含 20,476 个文件、74 种文件类型、3,299 个目录，最大目录深度达到 8，最大单个工作站包含 11,020 个文件。

相关链接：https://arxiv.org/abs/2605.03596

它围绕 388 个带有文件依赖图的任务进行评测，并设计了 7,399 条细粒度 rubric，平均每个任务需要解析 5.1 条依赖边、跨越 4.7 个不同文件，并接受 19.1 条评价标准检验。这种评测方式不只看最终答案是否像样，还看 Agent 是否找对了源文件，是否理解了文件之间的关系，是否使用了正确版本，是否遵循了任务所需的依赖结构。

这与真实办公非常接近。现实里，一个报告写得漂亮但数据源错了，比报告写得朴素更危险；一个策略建议语言流畅但证据链断了，反而会放大组织风险。

一个代表性任务很有意思：运营经理需要生成一份全球市场产品策略报告。任务要求 Agent 遍历全球市场数据，比较 USCA、Asia Pacific、Europe、LATAM、Africa 五个市场的销售额和利润率，分析不同产品类别在不同市场的盈利能力，评估物流成本对利润的影响，比较客户细分贡献，并最终生成 `Global_Product_Strategy.md`。这看起来像一个 “写报告” 的任务，但实际上它要求 Agent 找到 9 个核心文件，连接订单 CSV、物流 PDF、产品信息 Excel、客户分层表、销售计划 PDF 等多源材料，并通过 25 条 rubric 验证基础交付、结果正确性和过程正确性。

这不是传统意义上的 “总结文档”，而是一次小型的数字办公室试炼。Agent 必须自己完成一件真实员工每天都在做的事：从散乱材料中恢复工作脉络，从多源证据中形成判断，再把判断组织成可交付成果。

实验结果也说明了差距的结构性。Workspace-Bench-Lite 上，各类 Agent 配置的总体通过率约在 27% 到 60% 之间，平均约 45.1%，明显低于人类专家配合工具的 80.7%。在完整统计中，跨 27 种 Agent Harness 与 Foundation Model 组合的平均 Rubrics Pass Rate 约为 43.3%，最佳组合接近 60%，但仍与人类加工具存在显著差距。

更值得关注的是，难度越接近真实工作，Agent 的性能下降越明显。论文显示，任务从 Easy 到 Medium 再到 Hard，平均通过率从 51.4% 降到 46.0%，再降到 35.7%。Easy 任务往往只是较简单的多文件总结或单文件修改；Hard 任务则引入文件关系发现、长程规划、状态跟踪和错误恢复。换句话说，Agent 不是不会动手，而是一旦进入真实工作站的复杂依赖网络，就很容易迷路。

其中最有启发的一点，是论文对依赖图识别的分析。Agent 的 Node F1 通常高于 Edge F1，说明它们相对更容易找到 “哪些文件可能相关”，但更难判断 “这些文件之间到底是什么关系”。这其实非常符合我们的实践经验：今天的 Agent 常常能搜到一堆材料，却不知道哪个是源数据，哪个是派生报告，哪个是历史版本，哪个只是背景约束。

这就是赛博员工与普通 Agent 的分界线。普通 Agent 只要找到材料，就可以开始生成；赛博员工必须先理解材料之间的关系，再决定如何生成。

Scaling ：从模型参数到提供的工作世界本身

今天行业讨论 Scaling，很多时候仍然围绕模型本身展开：更大的参数、更长的上下文、更强的推理、更低的 token 成本。这些当然重要，但它们并没有完全回答企业生产力的问题。

我们从实践中看到，后面真正需要规模化扩展的，未必是 Agent 本身或模型本身，而是三个更难但更关键的对象。

第一，是工作站的规模。真实企业不是一个干净的 benchmark 文件夹，而是成千上万个不断变化的 workspace。每个团队的文件结构、命名习惯、权限边界、历史遗留和业务语义都不同。AI 如果只能在单个被整理好的文件包里工作，它就很难进入真实组织。

第二，是提供的角色的规模。企业需要的不是一个泛化的 “万能 Agent”，而是一组能够承担具体职责的角色：运营经理、产品经理、物流经理、后端负责人、研究员、销售、财务、HR、法务。每个角色都有不同的目标函数、证据标准和交付格式。让 AI 从 “执行工具” 变成 “岗位角色”，本身就是一次更复杂的工程化挑战。

第三，是各种典型生产力工作的规模。企业真正关心的不是 AI 能否完成一次炫技任务，而是能否稳定覆盖周报生成、客户分析、项目复盘、策略报告、数据核对、合规审查、需求整理、进度跟踪等高频任务。这些任务往往不难描述，却很难稳定交付，因为它们高度依赖组织上下文和跨文件证据链。

这三件事都非常难 Scaling。它们不像模型参数那样可以通过统一的训练流程线性推进，也不像单个 Agent Demo 那样可以靠精心设计的场景展示效果。它们要求 AI 系统真正理解企业里的 “工作世界”：文件如何产生，信息如何流转，角色如何协作，任务如何沉淀为流程。

生产力智能涌现

过去谈 AI 涌现，行业常常把它理解为模型能力突变：模型规模达到某个临界点，突然出现更强的推理、规划、编码或多模态理解能力。这种涌现仍然重要，但它不是生产力智能的全部。

在生产力场景里，我们需要一个新的定义：生产力智能的涌现，是当模型、Agent Harness、工作站结构、角色语境、任务反馈和组织流程形成闭环后，系统在真实工作中表现出稳定、可复用、可扩展交付能力的过程。

这个定义有三个关键变化。

第一，涌现的驱动力不完全来自模型。更强模型当然能提升上限，但论文结果显示，同一模型在不同 Harness 下会呈现不同的能力分布，而同一 Harness 在不同模型上也会出现显著差异。尤其在 Hard 任务中，性能下降来自模型推理能力与 Harness 编排约束的双重作用。这说明，生产力智能不是单点模型能力，而是系统组合能力。

第二，涌现的驱动力也不完全来自 Agent 技术本身。Harness 可以让 AI 更会行动，但如果它不能理解工作站中的文件血缘、语义依赖和任务支撑关系，就会陷入 “动得很多，但做得不准” 的状态。高交互轮次和高 token 消耗并不必然带来高质量结果。某些配置会产生 40 到 60 轮交互、消耗大量 token，却只能停留在 30% 到 45% 的准确率区间。相反，更高效的系统能够用更少交互轮次找到关键证据，体现出更强的推理效率。

第三，涌现可能源于工作站本身的变革。当工作站不再只是文件存储，而是成为一种可被机器理解、可被角色继承、可被任务验证的生产力环境时，AI 的能力边界会发生变化。它不再只是 “访问文件”，而是在一个结构化、带有血缘、权限、反馈和评价机制的工作世界中学习如何工作。

结语：下一代 AI 竞争，是争夺生产力智能的基础设施

过去，AI 产品常常从 “能力” 出发：能写作、能画图、能检索、能 coding、能调用工具。但未来，真正能够进入企业生产系统的 AI 产品，必须从 “工作” 出发：一个角色每天要完成什么任务？需要访问哪些工作站？如何识别文件之间的关系？如何发现缺失信息、修复错误、检查版本，并在多人协作中留下可追溯的证据链？

这正是当前 Agent 的核心瓶颈。许多 Agent 本质上仍是 request-response system：用户提出指令，它在 prompt 边界内执行动作。但真实员工更接近 outcome-responsible system：老板只提出目标，员工会主动补齐数据、核对上下文、预判风险，并对最终交付负责。因此，赛博员工与普通 Agent 的核心分层，不在于是否能够调用工具，而在于是否能够将目标转化为可靠交付。普通 Agent 更多是把指令转化为动作，赛博员工则需要把目标转化为结果。

从 Agent 到生产力智能的范式迁移，并不容易。工作站的规模、角色的规模、典型生产力工作的规模，都可能构成新的 scaling-up 问题。但也正因为难，它才是 AI 真正进入工作世界的潜在关键。

参考内容：

《Workspace-Bench 1.0: Benchmarking AI Agents on Workspace Tasks with Large-Scale File Dependencies》 https://arxiv.org/pdf/2605.03596

特别声明：以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布，本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.