网易首页 > 网易号 > 正文 申请入驻

走出 MMLU 的高分幻觉:AI Agent 的「斯坦利时刻」与职场生存法则

0
分享至


Trainee-Bench:揭秘为什么很能打的大模型们在工作场景中依然只是个‘职场巨婴’。

01


序章:穿越数字世界的“莫哈韦沙漠”

把时钟拨回 2005 年,内华达州的莫哈韦沙漠。

那是美国国防部高级研究计划局(DARPA)举办的无人驾驶挑战赛现场。不同于平整的封闭赛道,DARPA 给出的考题残酷而简单:没有高精地图辅助,没有人类远程接管,车辆必须依靠自身的感知决策系统,穿越数百公里的荒漠。

最初的尝试是惨烈的,无数车辆在起步后不久就撞向岩石、陷入沟壑。直到一辆名为“斯坦利(Stanley)”的赛车,依靠在非结构化环境中的自主决策能力冲过终点。那一刻,被公认为自动驾驶的“斯坦利时刻”——它证明了机器智能的价值不在于实验室里的理想参数,而在于能在充满未知的物理世界中“活下来”并完成任务。

今天,在通往通用人工智能(AGI)的道路上,我们正站在这一时刻的数字镜像前。

在多模态大模型(MLLMs)狂飙突进的今天,MMLU、GSM8K 等基准测试的分数每隔几个月就被刷新。然而,企业和开发者却面临着一个共同的困惑:为什么这些在考卷上接近满分的 AI,一旦放入真实的业务流程中,往往就变成了需要人类时刻照看的“巨婴”?

02


繁荣下的隐忧:高分低能的“执行鸿沟”

现有的 Agent 评测大多像是在“无菌室”里做题:环境是静态的,任务是单一的,信息是全知的。我们正在用测试“大脑”的考卷,来评估“手脚”的灵活性。

近日,来自复旦大学、上海 AI Lab、浙江大学等机构的研究团队发表了论文 。研究团队指出,现在的 Agent 之所以难用于实际生产环境,是因为它们存在显著的“执行鸿沟”

▪ 现有的测试benchmark是“全知视角”的(Oracle-based):我们给模型完美的上下文,要求它输出完美的答案。

▪ 真实的职场是“迷雾模式”的(Partially Observable):任务说明书里可能没有密码,需求是模糊的,环境里充满了老板突然交办的任务 B 和临时插进来的会议。

为了打破这种“高分低能”的幻觉,研究团队造了一个高度仿真的“职场模拟器”——Trainee-Bench。他们拉来了包括 GPT-5.1、Gemini-3-Flash、Claude-4-Sonnet 在内的顶尖模型,进行了一场残酷的“入职第一天”压力测试。

论文标题:The Agent’s First Day: Benchmarking Learning, Exploration, and Scheduling in the Workplace Scenarios

项目地址:https://github.com/KnowledgeXLab/EvoEnv

03


Trainee-Bench:AI 实习生的“受难日”

Trainee-Bench 不再关注单一能力的上限,而是考察 Agent 在复杂动态环境中的“生存策略”。它模拟了一个新员工入职时的真实困境——缺乏“上帝视角”的辅助,一切靠自己。研究从三个硬核的技术维度,重新定义了 Agent 的能力边界:

维度一:从“线性推理”到“动态调度”

职场充满了异步性。当 Agent 正在处理一份报表时,突然收到紧急邮件。它能否展现出类似操作系统的调度能力?

▪ 优先级判断:能分清轻重缓急吗?

▪ 挂起与恢复:处理完紧急任务后,能无损地回到刚才的进度吗?


维度二:从“全知地图”到“主动探索”

在真实环境中,信息往往是碎片化且隐蔽的。Trainee-Bench 构建了一个“无图(Mapless)”环境,Agent 不会被告知“文件在哪里”或“工具怎么用”。它必须像人类实习生一样,通过lsgrep探测目录,自主阅读文档理解参数,并在探索中逐步构建起对环境的“认知地图”。


维度三:从“单次完成”到“持续学习”

一个合格的数字员工,必须具备“长记性”的能力。Trainee-Bench 设置了长程的时间跨度,考察 Agent 能否利用前一天的环境反馈和执行历史,在第二天避开同样的坑。


04


核心解密:如何构建一个“无限流”职场?

Trainee-Bench 的构造流程精妙地模拟了现实世界的复杂性。整个环境的构建分为三个关键步骤:

▪ 第一步:拒绝死记硬背的“任务实例化”:为了防止Agent“背题”或过度拟合,Trainee-Bench 引入了 元任务(Meta-Task) 的概念。团队精心设计了181个元任务规则,这些元任务规则就像Rogue-like游戏一样,通过随机种子生成不同的NPC性格、文件路径、数据分布等。此外,这些元任务会刻意隐藏部分关键线索,让 agent 必须主动探索环境和向外部寻求帮助才能继续推进任务。

▪ 第二步:还原真实的“动态复合场景”:真实工作从来不是单线程的。Trainee-Bench 将多个独立的任务实例,按照时间轴编排进一个动态复合场景中。这些任务具有不同的优先级,也可能存在先后依赖,考验 智能体的多任务规划能力。

▪ 第三步:像导师一样的“自动验证机制”:系统不仅看最终结果,更关注过程。通过预埋的 Checkpoints(检查点),环境能够自动评估Agent每一步做对了没有,并给出细粒度的自然语言反馈。


05


评测结果:顶尖模型的集体“滑铁卢”

研究团队测试了包括Gemini-3-Flash、GPT-5.1、GPT-4o、Claude-4-Sonnet等在内的7款顶尖模型,测试结果有些“扎心”。即便面对目前地表最强的 7 款模型,Trainee-Bench 依然像是一道难以逾越的墙。

洞察一:成功率的“天花板”极低

在综合测试中,表现最好的Gemini-3-Flash成功率也仅为35%,而备受期待的GPT-5.1Claude-4-Sonnet成功率仅在23%左右。这说明,面对非结构化的动态职场,SOTA 模型离“独立上岗”还有极远的距离。


洞察二:任务一多,立刻“顾头不顾尾”

实验发现,当并发任务数量从2 个增加到 6 个时,除了 Claude-4 和 GPT-5.1 表现相对平稳外,其他模型的性能都出现了断崖式下降。多线程工作的调度能力,依然是 AI 迈向高级助理的致命软肋。


洞察三:最扎心的发现:Agent 竟然“记吃不记打”?

Trainee-Bench最独特的设计之一是引入了“持续学习”的评估。研究者让Agent先工作一天(Day 1),根据反馈总结经验,让智能体在Day 2再次执行和第一天类似的任务。理论上,有了经验总结,第二天应该干得更好对吧?

结果恰恰相反!结果显示:使用了经验后,Agent 的整体表现反而下降了(得分从 0.42 降至 0.36)。原因在于,当前大模型总结的“经验”往往非常肤浅或过度拟合。面对动态变化的新环境,生搬硬套昨天的教条反而成了执行的累赘。


06


智能体商业价值的重构:用“人类时间”丈量技术

技术范式的转移,必然伴随着商业逻辑的重构。AI Agent 的核心价值不在于算力消耗,而在于“解放”人类的时间。

在移动互联网时代,商业的核心是“注意力经济APP 恨不得占有你每一分钟。而 AI Agent 时代的逻辑恰恰相反:Agent 本质上是 "Service-as-Software"(服务即软件),它的核心价值在于“解放”人类的时间。

本篇论文提出的测试结果,实际上指向了一个可以直接与 投资回报率(ROI)挂钩的终极指标:等价人类时间(Equivalent Human Time),即:

价 值 人 类 自 主 完 成 时 间 耗 时 人 类 监 工 与 修 正 时 间

如果一个 Agent 需要人类频繁介入去纠错、去喂数据,该指标可能为负——这意味着它不仅没有生产力,反而在浪费算力。只有当 Agent 在“探索、调度、学习”三个环节实现零接管,它才真正具备了商业上的“长青”价值。

《The Agent's First Day》的实验数据给出了一个令人振奋的侧面:当人类在关键时刻给出少量指导(Human Guidance)时,GPT-4o 的得分能从0.24飙升至0.83。这证明了:模型本身的推理能力其实已经足够强,它真正匮乏的是像人类一样的主动探索意识和对环境的敏锐感知。


07


结语:寻找数字职场的“斯坦利”

20 年前,莫哈韦沙漠扬起的沙尘,开启了物理世界自动驾驶的黄金时代。

今天,《The Agent's First Day》在数字世界里构建的这座“职场迷宫”,或许正是 AI Agent 走向 AGI 所必须跨越的荒漠。它向行业揭示了一个朴素的洞察:停止单纯卷模型的参数,开始卷 Agent 的自主学习性。

因为,只有那些能够独自处理复杂任务、让用户真正敢于放手、在“无图”环境中生存下来的 Agent,才能在未来的职场中获得一张正式的工牌。

想要挑战一下你的 Agent 吗?Trainee-Bench 的数据与代码已正式开源,欢迎全球开发者带着Agent前来应聘!

▪ 论文标题:The Agent’s First Day: Benchmarking Learning, Exploration, and Scheduling in the Workplace Scenarios

▪ 项目地址:https://github.com/KnowledgeXLab/EvoEnv

▪ arXiv 地址:https://arxiv.org/abs/2601.08173

未经「AI科技评论」授权,严禁以任何方式在网页、论坛、社区进行转载!

公众号转载请先在「AI科技评论」后台留言取得授权,转载时需标注来源并插入本公众号名片。

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
大理民宿市场凉透了!7000家民宿厮杀,有人亏百万仍没卖出去…

大理民宿市场凉透了!7000家民宿厮杀,有人亏百万仍没卖出去…

火山詩话
2026-04-23 09:14:07
1799元!苹果限定新品上架,4月24日开售

1799元!苹果限定新品上架,4月24日开售

全是技能
2026-04-23 17:00:46
欧盟强制手机电池可拆卸,苹果却可能豁免

欧盟强制手机电池可拆卸,苹果却可能豁免

野生运营
2026-04-22 23:44:04
台湾最新民调出炉,蒋万安、郑丽文支持率惊人,民众党大将已表态

台湾最新民调出炉,蒋万安、郑丽文支持率惊人,民众党大将已表态

孤城落叶
2026-04-23 19:53:10
“暴力抗法”半月后,拼多多发生重大高管调整

“暴力抗法”半月后,拼多多发生重大高管调整

一见财经
2026-04-23 08:04:06
知乎高赞帖!为什么女儿反应这么强烈?

知乎高赞帖!为什么女儿反应这么强烈?

丫头舫
2026-04-23 10:17:08
医生发现:老人若长时间不吃甜食,用不了多长时间身体有5大改善

医生发现:老人若长时间不吃甜食,用不了多长时间身体有5大改善

芹姐说生活
2026-04-23 15:04:44
詹姆斯还能再打5年?里奇保罗:完全没有问题,但两年就足够了!

詹姆斯还能再打5年?里奇保罗:完全没有问题,但两年就足够了!

爱体育
2026-04-23 23:09:07
春季买鱼,这3种鱼我从不还价,很难人工养殖,高营养又鲜美!

春季买鱼,这3种鱼我从不还价,很难人工养殖,高营养又鲜美!

江江食研社
2026-04-22 22:30:03
斯诺克世锦赛现罕见失误,罗伯逊算错分认输被罚250英镑

斯诺克世锦赛现罕见失误,罗伯逊算错分认输被罚250英镑

懂球帝
2026-04-23 12:07:03
美国华尔街日报:就算把工厂搬到墨西哥印度越南,还是离不开中国

美国华尔街日报:就算把工厂搬到墨西哥印度越南,还是离不开中国

泠泠说史
2026-04-23 21:59:18
4200万人社保断缴刷屏全网,真相没那么简单

4200万人社保断缴刷屏全网,真相没那么简单

流苏晚晴
2026-04-23 19:53:55
不可思议!现在的大学校园里有个很明显的现象:男女生根本不谈恋爱

不可思议!现在的大学校园里有个很明显的现象:男女生根本不谈恋爱

市井大实话
2026-04-23 09:24:57
中美联合国激烈交锋,美逼中国买单,中方拒绝接受,对美反将一军

中美联合国激烈交锋,美逼中国买单,中方拒绝接受,对美反将一军

健身狂人
2026-04-22 20:37:47
CBA最新消息!曝浙江广厦裁掉威廉姆斯,广东宏远换掉争议外援

CBA最新消息!曝浙江广厦裁掉威廉姆斯,广东宏远换掉争议外援

体坛瞎白话
2026-04-23 18:19:13
获人民日报点赞!深圳地铁公厕火了...

获人民日报点赞!深圳地铁公厕火了...

深圳好玩
2026-04-23 12:55:25
NASA阿耳忒弥斯2号任务首次验证低成本激光通信

NASA阿耳忒弥斯2号任务首次验证低成本激光通信

IT之家
2026-04-23 14:58:09
胡锡进谴责打女司机的保安:善良的男人是不会这样打女人的!

胡锡进谴责打女司机的保安:善良的男人是不会这样打女人的!

映射生活的身影
2026-04-23 13:09:09
太惨!被美欧抛弃,走上绝路,宣布破产!

太惨!被美欧抛弃,走上绝路,宣布破产!

李荣茂
2026-04-23 18:33:54
伊朗革命卫队疯狂攻击通过霍尔木兹海峡的集装箱货船

伊朗革命卫队疯狂攻击通过霍尔木兹海峡的集装箱货船

一种观点
2026-04-22 19:28:19
2026-04-24 00:00:49
AI科技评论 incentive-icons
AI科技评论
点评学术,服务AI
7215文章数 20749关注度
往期回顾 全部

科技要闻

马斯克喊出"史上最大产品",但量产难预测

头条要闻

媒体:海军宣传片出现的"新兵何剑" 传递了巨大信息量

头条要闻

媒体:海军宣传片出现的"新兵何剑" 传递了巨大信息量

体育要闻

给文班剃头的马刺DJ,成为NBA最佳第六人

娱乐要闻

王大陆因涉黑讨债被判 女友也一同获刑

财经要闻

关于AI算力链"瓶颈" 这是高盛的最新看法

汽车要闻

令人惊艳的奇瑞车 风云A9可不只是样子货

态度原创

房产
健康
艺术
教育
军事航空

房产要闻

三亚安居房,突然官宣!

干细胞如何让烧烫伤皮肤"再生"?

艺术要闻

看!这些美女的眼神能让你心醉神迷

教育要闻

中考填志愿这个电话一定要打

军事要闻

人民海军成立77周年 主力舰艇亮相上海

无障碍浏览 进入关怀版