网易首页 > 网易号 > 正文 申请入驻

走出MMLU的高分幻觉:AI Agent的「斯坦利时刻」与职场生存法则

0
分享至



作者:论文团队

编辑丨ScienceAI

序章:穿越数字世界的「莫哈韦沙漠」

把时钟拨回 2005 年,内华达州的莫哈韦沙漠。

那是美国国防部高级研究计划局(DARPA)举办的无人驾驶挑战赛现场。不同于平整的封闭赛道,DARPA 给出的考题残酷而简单:没有高精地图辅助,没有人类远程接管,车辆必须依靠自身的感知决策系统,穿越数百公里的荒漠。

最初的尝试是惨烈的,无数车辆在起步后不久就撞向岩石、陷入沟壑。直到一辆名为「斯坦利(Stanley)」的赛车,依靠在非结构化环境中的自主决策能力冲过终点。那一刻,被公认为自动驾驶的「斯坦利时刻」——它证明了机器智能的价值不在于实验室里的理想参数,而在于能在充满未知的物理世界中「活下来」并完成任务。

今天,在通往通用人工智能(AGI)的道路上,我们正站在这一时刻的数字镜像前。

在多模态大模型(MLLMs)狂飙突进的今天,MMLU、GSM8K 等基准测试的分数每隔几个月就被刷新。然而,企业和开发者却面临着一个共同的困惑:为什么这些在考卷上接近满分的 AI,一旦放入真实的业务流程中,往往就变成了需要人类时刻照看的「巨婴」?

繁荣下的隐忧:高分低能的「执行鸿沟」

现有的 Agent 评测大多像是在「无菌室」里做题:环境是静态的,任务是单一的,信息是全知的。我们正在用测试「大脑」的考卷,来评估「手脚」的灵活性。

近日,来自复旦大学、上海 AI Lab、浙江大学等机构的研究团队发表了论文 。研究团队指出,现在的 Agent 之所以难用于实际生产环境,是因为它们存在显著的「执行鸿沟」

  • 现有的测试benchmark是「全知视角」的(Oracle-based):我们给模型完美的上下文,要求它输出完美的答案。
  • 真实的职场是「迷雾模式」的(Partially Observable):任务说明书里可能没有密码,需求是模糊的,环境里充满了老板突然交办的任务 B 和临时插进来的会议。

为了打破这种「高分低能」的幻觉,研究团队造了一个高度仿真的「职场模拟器」——Trainee-Bench。他们拉来了包括 GPT-5.1、Gemini-3-Flash、Claude-4-Sonnet 在内的顶尖模型,进行了一场残酷的「入职第一天」压力测试。

Trainee-Bench:AI 实习生的「受难日」

Trainee-Bench 不再关注单一能力的上限,而是考察 Agent 在复杂动态环境中的「生存策略」。它模拟了一个新员工入职时的真实困境——缺乏「上帝视角」的辅助,一切靠自己。研究从三个硬核的技术维度,重新定义了 Agent 的能力边界:

维度一:从「线性推理」到「动态调度」

职场充满了异步性。当 Agent 正在处理一份报表时,突然收到紧急邮件。它能否展现出类似操作系统的调度能力?

  • 优先级判断:能分清轻重缓急吗?
  • 挂起与恢复:处理完紧急任务后,能无损地回到刚才的进度吗?



维度二:从「全知地图」到「主动探索」

在真实环境中,信息往往是碎片化且隐蔽的。Trainee-Bench 构建了一个「无图(Mapless)」环境,Agent 不会被告知「文件在哪里」或「工具怎么用」。它必须像人类实习生一样,通过、探测目录,自主阅读文档理解参数,并在探索中逐步构建起对环境的「认知地图」。

ls

grep



维度三:从「单次完成」到「持续学习」

一个合格的数字员工,必须具备「长记性」的能力。Trainee-Bench 设置了长程的时间跨度,考察 Agent 能否利用前一天的环境反馈和执行历史,在第二天避开同样的坑。



核心解密:如何构建一个「无限流」职场?

Trainee-Bench 的构造流程精妙地模拟了现实世界的复杂性。整个环境的构建分为三个关键步骤:

  • 第一步:拒绝死记硬背的「任务实例化」:为了防止Agent「背题」或过度拟合,Trainee-Bench 引入了 元任务(Meta-Task) 的概念。团队精心设计了 181 个元任务规则,这些元任务规则就像 Rogue-like 游戏一样,通过随机种子生成不同的 NPC 性格、文件路径、数据分布等。此外,这些元任务会刻意隐藏部分关键线索,让 agent 必须主动探索环境和向外部寻求帮助才能继续推进任务。
  • 第二步:还原真实的「动态复合场景」:真实工作从来不是单线程的。Trainee-Bench 将多个独立的任务实例,按照时间轴编排进一个动态复合场景中。这些任务具有不同的优先级,也可能存在先后依赖,考验 智能体的多任务规划能力。
  • 第三步:像导师一样的「自动验证机制」:系统不仅看最终结果,更关注过程。通过预埋的 Checkpoints(检查点),环境能够自动评估 Agent 每一步做对了没有,并给出细粒度的自然语言反馈。



评测结果:顶尖模型的集体「滑铁卢」

研究团队测试了包括Gemini-3-Flash、GPT-5.1、GPT-4o、Claude-4-Sonnet等在内的 7 款顶尖模型,测试结果有些「扎心」。即便面对目前地表最强的 7 款模型,Trainee-Bench 依然像是一道难以逾越的墙。

洞察一:成功率的「天花板」极低

在综合测试中,表现最好的Gemini-3-Flash成功率也仅为35%,而备受期待的GPT-5.1Claude-4-Sonnet成功率仅在23%左右。这说明,面对非结构化的动态职场,SOTA 模型离「独立上岗」还有极远的距离。



洞察二:任务一多,立刻「顾头不顾尾」

实验发现,当并发任务数量从2 个增加到 6 个时,除了 Claude-4 和 GPT-5.1 表现相对平稳外,其他模型的性能都出现了断崖式下降。多线程工作的调度能力,依然是 AI 迈向高级助理的致命软肋。



洞察三:最扎心的发现:Agent 竟然「记吃不记打」?

Trainee-Bench最独特的设计之一是引入了「持续学习」的评估。研究者让 Agent 先工作一天(Day 1),根据反馈总结经验,让智能体在Day 2 再次执行和第一天类似的任务。理论上,有了经验总结,第二天应该干得更好对吧?

结果恰恰相反!结果显示:使用了经验后,Agent 的整体表现反而下降了(得分从 0.42 降至 0.36)。原因在于,当前大模型总结的「经验」往往非常肤浅或过度拟合。面对动态变化的新环境,生搬硬套昨天的教条反而成了执行的累赘。



智能体商业价值的重构:用「人类时间」丈量技术

技术范式的转移,必然伴随着商业逻辑的重构。AI Agent 的核心价值不在于算力消耗,而在于「解放」人类的时间。

在移动互联网时代,商业的核心是「注意力经济APP 恨不得占有你每一分钟。而 AI Agent 时代的逻辑恰恰相反:Agent 本质上是 "Service-as-Software"(服务即软件),它的核心价值在于「解放」人类的时间。

本篇论文提出的测试结果,实际上指向了一个可以直接与 投资回报率(ROI)挂钩的终极指标:等价人类时间(Equivalent Human Time),即:

{价值} = {人类自主完成时间} - {Agent 耗时} + {人类监工与修正时间}

如果一个 Agent 需要人类频繁介入去纠错、去喂数据,该指标可能为负——这意味着它不仅没有生产力,反而在浪费算力。只有当 Agent 在「探索、调度、学习」三个环节实现零接管,它才真正具备了商业上的「长青」价值。

《The Agent's First Day》的实验数据给出了一个令人振奋的侧面:当人类在关键时刻给出少量指导(Human Guidance)时,GPT-4o 的得分能从0.24飙升至0.83。这证明了:模型本身的推理能力其实已经足够强,它真正匮乏的是像人类一样的主动探索意识和对环境的敏锐感知。



结语:寻找数字职场的「斯坦利」

20 年前,莫哈韦沙漠扬起的沙尘,开启了物理世界自动驾驶的黄金时代。

如今,《The Agent's First Day》在数字世界里构建的这座「职场迷宫」,或许正是 AI Agent 走向 AGI 所必须跨越的荒漠。它向行业揭示了一个朴素的洞察:停止单纯卷模型的参数,开始卷 Agent 的自主学习性。

因为,只有那些能够独自处理复杂任务、让用户真正敢于放手、在「无图」环境中生存下来的 Agent,才能在未来的职场中获得一张正式的工牌。

想要挑战一下你的 Agent 吗?Trainee-Bench 的数据与代码已正式开源,欢迎全球开发者带着Agent前来应聘!

  • 论文标题:The Agent’s First Day: Benchmarking Learning, Exploration, and Scheduling in the Workplace Scenarios
  • 项目地址:https://github.com/KnowledgeXLab/EvoEnv
  • arXiv 地址:https://arxiv.org/abs/2601.08173

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
深圳:企业严禁使用“黄金会大涨”“买金赚大钱”等绝对化用语,不得夸大产品价值或投资回报

深圳:企业严禁使用“黄金会大涨”“买金赚大钱”等绝对化用语,不得夸大产品价值或投资回报

界面新闻
2026-02-13 10:07:27
台湾费尽心思安排到解放军内部的间谍,全都被李志豪给揪了出来

台湾费尽心思安排到解放军内部的间谍,全都被李志豪给揪了出来

雪中风车
2026-02-06 08:12:58
雄鹿官宣字母哥缺战全明星赛!福克斯顶替入选 鲍威尔调至世界队

雄鹿官宣字母哥缺战全明星赛!福克斯顶替入选 鲍威尔调至世界队

罗说NBA
2026-02-13 05:51:33
新加坡发达到了啥程度?让我告诉你一个真实的新加坡!

新加坡发达到了啥程度?让我告诉你一个真实的新加坡!

复转这些年
2026-02-12 23:39:11
敢去就断绝关系!湖南一研三女生吐槽母亲不让远行,3000机票亏了

敢去就断绝关系!湖南一研三女生吐槽母亲不让远行,3000机票亏了

火山詩话
2026-02-12 06:00:29
印度2nm成功流片!

印度2nm成功流片!

中国半导体论坛
2026-02-11 22:26:02
女子返乡打顺风车却打到大货车?7 秒视频获千万次播放,真相背后藏着满满温情

女子返乡打顺风车却打到大货车?7 秒视频获千万次播放,真相背后藏着满满温情

大风新闻
2026-02-12 16:58:12
最孤独婚车后续:新郎新娘颜值高,别克正式回应大格局送上祝福

最孤独婚车后续:新郎新娘颜值高,别克正式回应大格局送上祝福

林轻吟
2026-02-12 22:13:12
93分钟失绝杀,阿森纳1-1痛失好局!4连胜终结,曼城重燃希望

93分钟失绝杀,阿森纳1-1痛失好局!4连胜终结,曼城重燃希望

我的护球最独特
2026-02-13 06:00:09
米兰冬奥奖牌榜:21国获牌,挪威居首,东道主第3,我国力压韩国

米兰冬奥奖牌榜:21国获牌,挪威居首,东道主第3,我国力压韩国

湘楚风云
2026-02-12 11:26:15
河村勇辉狂轰34+8+16:创两项生涯新高 世预赛将成中国男篮大敌

河村勇辉狂轰34+8+16:创两项生涯新高 世预赛将成中国男篮大敌

醉卧浮生
2026-02-12 15:24:31
单板女子U池决赛:五朝元老蔡雪桐获第6名,17岁新星爆冷摘金

单板女子U池决赛:五朝元老蔡雪桐获第6名,17岁新星爆冷摘金

全景体育V
2026-02-13 04:37:31
钟南山:会用证据让全世界服气

钟南山:会用证据让全世界服气

第一财经资讯
2026-02-12 18:13:00
中央急令!6月底前全国村村必设新部门,老人妇女孩子直接受益

中央急令!6月底前全国村村必设新部门,老人妇女孩子直接受益

复转这些年
2026-02-12 21:57:32
法国已有三名婴儿因食用问题奶粉死亡,相关部门已展开立案调查

法国已有三名婴儿因食用问题奶粉死亡,相关部门已展开立案调查

每日经济新闻
2026-02-12 16:59:33
央视版《太平年》被举报,三大平台连夜改台词,网友:太离谱了

央视版《太平年》被举报,三大平台连夜改台词,网友:太离谱了

长风文史
2026-02-10 16:01:08
1800公里充电11次,车主被教育了,再也不开电车回乡了

1800公里充电11次,车主被教育了,再也不开电车回乡了

柏铭锐谈
2026-02-11 23:57:30
高市早苗拿俄立威后,不到24小时,普京反击,一句话堵死日本后路

高市早苗拿俄立威后,不到24小时,普京反击,一句话堵死日本后路

策略述
2026-02-12 22:04:32
商家称新娘穿脏敬酒服,竟“焊接”吊牌退货!商家:不知道你嫁得好不好,但路一定不好走……

商家称新娘穿脏敬酒服,竟“焊接”吊牌退货!商家:不知道你嫁得好不好,但路一定不好走……

扬子晚报
2026-02-12 07:35:48
爆冷!白石洲交付,万科23亿依然拿不回!

爆冷!白石洲交付,万科23亿依然拿不回!

新浪财经
2026-02-12 22:21:58
2026-02-13 10:48:49
ScienceAI incentive-icons
ScienceAI
关注人工智能与其他前沿技术
1232文章数 224关注度
往期回顾 全部

科技要闻

DeepSeek更新后被吐槽变冷变傻?

头条要闻

牛弹琴:特朗普最近干了三件事 让全世界大吃一惊

头条要闻

牛弹琴:特朗普最近干了三件事 让全世界大吃一惊

体育要闻

这张照片背后,是米兰冬奥最催泪的故事

娱乐要闻

米兰冬奥摘银 谷爱凌再遭美国网友网暴

财经要闻

华莱士母公司退市 疯狂扩张下的食安隐忧

汽车要闻

最大续航703km!全新奔驰纯电GLC 350 L即将国产

态度原创

手机
本地
数码
艺术
公开课

手机要闻

内存暴涨新款减配 3款天玑老旗舰大存储随便选

本地新闻

下一站是嘉禾望岗,请各位乘客做好哭泣准备

数码要闻

Apple Creator Studio用户反馈苹果AI额度触顶过快

艺术要闻

书法大师的神作现身,引发网友热议!

公开课

李玫瑾:为什么性格比能力更重要?

无障碍浏览 进入关怀版