![]()
作者:论文团队
编辑丨ScienceAI
序章:穿越数字世界的「莫哈韦沙漠」
把时钟拨回 2005 年,内华达州的莫哈韦沙漠。
那是美国国防部高级研究计划局(DARPA)举办的无人驾驶挑战赛现场。不同于平整的封闭赛道,DARPA 给出的考题残酷而简单:没有高精地图辅助,没有人类远程接管,车辆必须依靠自身的感知决策系统,穿越数百公里的荒漠。
最初的尝试是惨烈的,无数车辆在起步后不久就撞向岩石、陷入沟壑。直到一辆名为「斯坦利(Stanley)」的赛车,依靠在非结构化环境中的自主决策能力冲过终点。那一刻,被公认为自动驾驶的「斯坦利时刻」——它证明了机器智能的价值不在于实验室里的理想参数,而在于能在充满未知的物理世界中「活下来」并完成任务。
今天,在通往通用人工智能(AGI)的道路上,我们正站在这一时刻的数字镜像前。
在多模态大模型(MLLMs)狂飙突进的今天,MMLU、GSM8K 等基准测试的分数每隔几个月就被刷新。然而,企业和开发者却面临着一个共同的困惑:为什么这些在考卷上接近满分的 AI,一旦放入真实的业务流程中,往往就变成了需要人类时刻照看的「巨婴」?
繁荣下的隐忧:高分低能的「执行鸿沟」
现有的 Agent 评测大多像是在「无菌室」里做题:环境是静态的,任务是单一的,信息是全知的。我们正在用测试「大脑」的考卷,来评估「手脚」的灵活性。
近日,来自复旦大学、上海 AI Lab、浙江大学等机构的研究团队发表了论文 。研究团队指出,现在的 Agent 之所以难用于实际生产环境,是因为它们存在显著的「执行鸿沟」:
- 现有的测试benchmark是「全知视角」的(Oracle-based):我们给模型完美的上下文,要求它输出完美的答案。
- 真实的职场是「迷雾模式」的(Partially Observable):任务说明书里可能没有密码,需求是模糊的,环境里充满了老板突然交办的任务 B 和临时插进来的会议。
为了打破这种「高分低能」的幻觉,研究团队造了一个高度仿真的「职场模拟器」——Trainee-Bench。他们拉来了包括 GPT-5.1、Gemini-3-Flash、Claude-4-Sonnet 在内的顶尖模型,进行了一场残酷的「入职第一天」压力测试。
Trainee-Bench:AI 实习生的「受难日」
Trainee-Bench 不再关注单一能力的上限,而是考察 Agent 在复杂动态环境中的「生存策略」。它模拟了一个新员工入职时的真实困境——缺乏「上帝视角」的辅助,一切靠自己。研究从三个硬核的技术维度,重新定义了 Agent 的能力边界:
维度一:从「线性推理」到「动态调度」
职场充满了异步性。当 Agent 正在处理一份报表时,突然收到紧急邮件。它能否展现出类似操作系统的调度能力?
- 优先级判断:能分清轻重缓急吗?
- 挂起与恢复:处理完紧急任务后,能无损地回到刚才的进度吗?
![]()
维度二:从「全知地图」到「主动探索」
在真实环境中,信息往往是碎片化且隐蔽的。Trainee-Bench 构建了一个「无图(Mapless)」环境,Agent 不会被告知「文件在哪里」或「工具怎么用」。它必须像人类实习生一样,通过、探测目录,自主阅读文档理解参数,并在探索中逐步构建起对环境的「认知地图」。
ls
grep
![]()
维度三:从「单次完成」到「持续学习」
一个合格的数字员工,必须具备「长记性」的能力。Trainee-Bench 设置了长程的时间跨度,考察 Agent 能否利用前一天的环境反馈和执行历史,在第二天避开同样的坑。
![]()
核心解密:如何构建一个「无限流」职场?
Trainee-Bench 的构造流程精妙地模拟了现实世界的复杂性。整个环境的构建分为三个关键步骤:
- 第一步:拒绝死记硬背的「任务实例化」:为了防止Agent「背题」或过度拟合,Trainee-Bench 引入了 元任务(Meta-Task) 的概念。团队精心设计了 181 个元任务规则,这些元任务规则就像 Rogue-like 游戏一样,通过随机种子生成不同的 NPC 性格、文件路径、数据分布等。此外,这些元任务会刻意隐藏部分关键线索,让 agent 必须主动探索环境和向外部寻求帮助才能继续推进任务。
- 第二步:还原真实的「动态复合场景」:真实工作从来不是单线程的。Trainee-Bench 将多个独立的任务实例,按照时间轴编排进一个动态复合场景中。这些任务具有不同的优先级,也可能存在先后依赖,考验 智能体的多任务规划能力。
- 第三步:像导师一样的「自动验证机制」:系统不仅看最终结果,更关注过程。通过预埋的 Checkpoints(检查点),环境能够自动评估 Agent 每一步做对了没有,并给出细粒度的自然语言反馈。
![]()
评测结果:顶尖模型的集体「滑铁卢」
研究团队测试了包括Gemini-3-Flash、GPT-5.1、GPT-4o、Claude-4-Sonnet等在内的 7 款顶尖模型,测试结果有些「扎心」。即便面对目前地表最强的 7 款模型,Trainee-Bench 依然像是一道难以逾越的墙。
洞察一:成功率的「天花板」极低
在综合测试中,表现最好的Gemini-3-Flash成功率也仅为35%,而备受期待的GPT-5.1和Claude-4-Sonnet成功率仅在23%左右。这说明,面对非结构化的动态职场,SOTA 模型离「独立上岗」还有极远的距离。
![]()
洞察二:任务一多,立刻「顾头不顾尾」
实验发现,当并发任务数量从2 个增加到 6 个时,除了 Claude-4 和 GPT-5.1 表现相对平稳外,其他模型的性能都出现了断崖式下降。多线程工作的调度能力,依然是 AI 迈向高级助理的致命软肋。
![]()
洞察三:最扎心的发现:Agent 竟然「记吃不记打」?
Trainee-Bench最独特的设计之一是引入了「持续学习」的评估。研究者让 Agent 先工作一天(Day 1),根据反馈总结经验,让智能体在Day 2 再次执行和第一天类似的任务。理论上,有了经验总结,第二天应该干得更好对吧?
结果恰恰相反!结果显示:使用了经验后,Agent 的整体表现反而下降了(得分从 0.42 降至 0.36)。原因在于,当前大模型总结的「经验」往往非常肤浅或过度拟合。面对动态变化的新环境,生搬硬套昨天的教条反而成了执行的累赘。
![]()
智能体商业价值的重构:用「人类时间」丈量技术
技术范式的转移,必然伴随着商业逻辑的重构。AI Agent 的核心价值不在于算力消耗,而在于「解放」人类的时间。
在移动互联网时代,商业的核心是「注意力经济」,APP 恨不得占有你每一分钟。而 AI Agent 时代的逻辑恰恰相反:Agent 本质上是 "Service-as-Software"(服务即软件),它的核心价值在于「解放」人类的时间。
本篇论文提出的测试结果,实际上指向了一个可以直接与 投资回报率(ROI)挂钩的终极指标:等价人类时间(Equivalent Human Time),即:
{价值} = {人类自主完成时间} - {Agent 耗时} + {人类监工与修正时间}
如果一个 Agent 需要人类频繁介入去纠错、去喂数据,该指标可能为负——这意味着它不仅没有生产力,反而在浪费算力。只有当 Agent 在「探索、调度、学习」三个环节实现零接管,它才真正具备了商业上的「长青」价值。
《The Agent's First Day》的实验数据给出了一个令人振奋的侧面:当人类在关键时刻给出少量指导(Human Guidance)时,GPT-4o 的得分能从0.24飙升至0.83。这证明了:模型本身的推理能力其实已经足够强,它真正匮乏的是像人类一样的主动探索意识和对环境的敏锐感知。
![]()
结语:寻找数字职场的「斯坦利」
20 年前,莫哈韦沙漠扬起的沙尘,开启了物理世界自动驾驶的黄金时代。
如今,《The Agent's First Day》在数字世界里构建的这座「职场迷宫」,或许正是 AI Agent 走向 AGI 所必须跨越的荒漠。它向行业揭示了一个朴素的洞察:停止单纯卷模型的参数,开始卷 Agent 的自主学习性。
因为,只有那些能够独自处理复杂任务、让用户真正敢于放手、在「无图」环境中生存下来的 Agent,才能在未来的职场中获得一张正式的工牌。
想要挑战一下你的 Agent 吗?Trainee-Bench 的数据与代码已正式开源,欢迎全球开发者带着Agent前来应聘!
- 论文标题:The Agent’s First Day: Benchmarking Learning, Exploration, and Scheduling in the Workplace Scenarios
- 项目地址:https://github.com/KnowledgeXLab/EvoEnv
- arXiv 地址:https://arxiv.org/abs/2601.08173
特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.