网易首页 > 网易号 > 正文 申请入驻

走出 MMLU 的高分幻觉:AI Agent 的「斯坦利时刻」与职场生存法则

0
分享至


Trainee-Bench:揭秘为什么很能打的大模型们在工作场景中依然只是个‘职场巨婴’。

01


序章:穿越数字世界的“莫哈韦沙漠”

把时钟拨回 2005 年,内华达州的莫哈韦沙漠。

那是美国国防部高级研究计划局(DARPA)举办的无人驾驶挑战赛现场。不同于平整的封闭赛道,DARPA 给出的考题残酷而简单:没有高精地图辅助,没有人类远程接管,车辆必须依靠自身的感知决策系统,穿越数百公里的荒漠。

最初的尝试是惨烈的,无数车辆在起步后不久就撞向岩石、陷入沟壑。直到一辆名为“斯坦利(Stanley)”的赛车,依靠在非结构化环境中的自主决策能力冲过终点。那一刻,被公认为自动驾驶的“斯坦利时刻”——它证明了机器智能的价值不在于实验室里的理想参数,而在于能在充满未知的物理世界中“活下来”并完成任务。

今天,在通往通用人工智能(AGI)的道路上,我们正站在这一时刻的数字镜像前。

在多模态大模型(MLLMs)狂飙突进的今天,MMLU、GSM8K 等基准测试的分数每隔几个月就被刷新。然而,企业和开发者却面临着一个共同的困惑:为什么这些在考卷上接近满分的 AI,一旦放入真实的业务流程中,往往就变成了需要人类时刻照看的“巨婴”?

02


繁荣下的隐忧:高分低能的“执行鸿沟”

现有的 Agent 评测大多像是在“无菌室”里做题:环境是静态的,任务是单一的,信息是全知的。我们正在用测试“大脑”的考卷,来评估“手脚”的灵活性。

近日,来自复旦大学、上海 AI Lab、浙江大学等机构的研究团队发表了论文 。研究团队指出,现在的 Agent 之所以难用于实际生产环境,是因为它们存在显著的“执行鸿沟”

▪ 现有的测试benchmark是“全知视角”的(Oracle-based):我们给模型完美的上下文,要求它输出完美的答案。

▪ 真实的职场是“迷雾模式”的(Partially Observable):任务说明书里可能没有密码,需求是模糊的,环境里充满了老板突然交办的任务 B 和临时插进来的会议。

为了打破这种“高分低能”的幻觉,研究团队造了一个高度仿真的“职场模拟器”——Trainee-Bench。他们拉来了包括 GPT-5.1、Gemini-3-Flash、Claude-4-Sonnet 在内的顶尖模型,进行了一场残酷的“入职第一天”压力测试。

论文标题:The Agent’s First Day: Benchmarking Learning, Exploration, and Scheduling in the Workplace Scenarios

项目地址:https://github.com/KnowledgeXLab/EvoEnv

03


Trainee-Bench:AI 实习生的“受难日”

Trainee-Bench 不再关注单一能力的上限,而是考察 Agent 在复杂动态环境中的“生存策略”。它模拟了一个新员工入职时的真实困境——缺乏“上帝视角”的辅助,一切靠自己。研究从三个硬核的技术维度,重新定义了 Agent 的能力边界:

维度一:从“线性推理”到“动态调度”

职场充满了异步性。当 Agent 正在处理一份报表时,突然收到紧急邮件。它能否展现出类似操作系统的调度能力?

▪ 优先级判断:能分清轻重缓急吗?

▪ 挂起与恢复:处理完紧急任务后,能无损地回到刚才的进度吗?


维度二:从“全知地图”到“主动探索”

在真实环境中,信息往往是碎片化且隐蔽的。Trainee-Bench 构建了一个“无图(Mapless)”环境,Agent 不会被告知“文件在哪里”或“工具怎么用”。它必须像人类实习生一样,通过lsgrep探测目录,自主阅读文档理解参数,并在探索中逐步构建起对环境的“认知地图”。


维度三:从“单次完成”到“持续学习”

一个合格的数字员工,必须具备“长记性”的能力。Trainee-Bench 设置了长程的时间跨度,考察 Agent 能否利用前一天的环境反馈和执行历史,在第二天避开同样的坑。


04


核心解密:如何构建一个“无限流”职场?

Trainee-Bench 的构造流程精妙地模拟了现实世界的复杂性。整个环境的构建分为三个关键步骤:

▪ 第一步:拒绝死记硬背的“任务实例化”:为了防止Agent“背题”或过度拟合,Trainee-Bench 引入了 元任务(Meta-Task) 的概念。团队精心设计了181个元任务规则,这些元任务规则就像Rogue-like游戏一样,通过随机种子生成不同的NPC性格、文件路径、数据分布等。此外,这些元任务会刻意隐藏部分关键线索,让 agent 必须主动探索环境和向外部寻求帮助才能继续推进任务。

▪ 第二步:还原真实的“动态复合场景”:真实工作从来不是单线程的。Trainee-Bench 将多个独立的任务实例,按照时间轴编排进一个动态复合场景中。这些任务具有不同的优先级,也可能存在先后依赖,考验 智能体的多任务规划能力。

▪ 第三步:像导师一样的“自动验证机制”:系统不仅看最终结果,更关注过程。通过预埋的 Checkpoints(检查点),环境能够自动评估Agent每一步做对了没有,并给出细粒度的自然语言反馈。


05


评测结果:顶尖模型的集体“滑铁卢”

研究团队测试了包括Gemini-3-Flash、GPT-5.1、GPT-4o、Claude-4-Sonnet等在内的7款顶尖模型,测试结果有些“扎心”。即便面对目前地表最强的 7 款模型,Trainee-Bench 依然像是一道难以逾越的墙。

洞察一:成功率的“天花板”极低

在综合测试中,表现最好的Gemini-3-Flash成功率也仅为35%,而备受期待的GPT-5.1Claude-4-Sonnet成功率仅在23%左右。这说明,面对非结构化的动态职场,SOTA 模型离“独立上岗”还有极远的距离。


洞察二:任务一多,立刻“顾头不顾尾”

实验发现,当并发任务数量从2 个增加到 6 个时,除了 Claude-4 和 GPT-5.1 表现相对平稳外,其他模型的性能都出现了断崖式下降。多线程工作的调度能力,依然是 AI 迈向高级助理的致命软肋。


洞察三:最扎心的发现:Agent 竟然“记吃不记打”?

Trainee-Bench最独特的设计之一是引入了“持续学习”的评估。研究者让Agent先工作一天(Day 1),根据反馈总结经验,让智能体在Day 2再次执行和第一天类似的任务。理论上,有了经验总结,第二天应该干得更好对吧?

结果恰恰相反!结果显示:使用了经验后,Agent 的整体表现反而下降了(得分从 0.42 降至 0.36)。原因在于,当前大模型总结的“经验”往往非常肤浅或过度拟合。面对动态变化的新环境,生搬硬套昨天的教条反而成了执行的累赘。


06


智能体商业价值的重构:用“人类时间”丈量技术

技术范式的转移,必然伴随着商业逻辑的重构。AI Agent 的核心价值不在于算力消耗,而在于“解放”人类的时间。

在移动互联网时代,商业的核心是“注意力经济APP 恨不得占有你每一分钟。而 AI Agent 时代的逻辑恰恰相反:Agent 本质上是 "Service-as-Software"(服务即软件),它的核心价值在于“解放”人类的时间。

本篇论文提出的测试结果,实际上指向了一个可以直接与 投资回报率(ROI)挂钩的终极指标:等价人类时间(Equivalent Human Time),即:

价 值 人 类 自 主 完 成 时 间 耗 时 人 类 监 工 与 修 正 时 间

如果一个 Agent 需要人类频繁介入去纠错、去喂数据,该指标可能为负——这意味着它不仅没有生产力,反而在浪费算力。只有当 Agent 在“探索、调度、学习”三个环节实现零接管,它才真正具备了商业上的“长青”价值。

《The Agent's First Day》的实验数据给出了一个令人振奋的侧面:当人类在关键时刻给出少量指导(Human Guidance)时,GPT-4o 的得分能从0.24飙升至0.83。这证明了:模型本身的推理能力其实已经足够强,它真正匮乏的是像人类一样的主动探索意识和对环境的敏锐感知。


07


结语:寻找数字职场的“斯坦利”

20 年前,莫哈韦沙漠扬起的沙尘,开启了物理世界自动驾驶的黄金时代。

今天,《The Agent's First Day》在数字世界里构建的这座“职场迷宫”,或许正是 AI Agent 走向 AGI 所必须跨越的荒漠。它向行业揭示了一个朴素的洞察:停止单纯卷模型的参数,开始卷 Agent 的自主学习性。

因为,只有那些能够独自处理复杂任务、让用户真正敢于放手、在“无图”环境中生存下来的 Agent,才能在未来的职场中获得一张正式的工牌。

想要挑战一下你的 Agent 吗?Trainee-Bench 的数据与代码已正式开源,欢迎全球开发者带着Agent前来应聘!

▪ 论文标题:The Agent’s First Day: Benchmarking Learning, Exploration, and Scheduling in the Workplace Scenarios

▪ 项目地址:https://github.com/KnowledgeXLab/EvoEnv

▪ arXiv 地址:https://arxiv.org/abs/2601.08173

未经「AI科技评论」授权,严禁以任何方式在网页、论坛、社区进行转载!

公众号转载请先在「AI科技评论」后台留言取得授权,转载时需标注来源并插入本公众号名片。

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
韬光养晦彻底结束?今年的军队拜年不一般,完全是准备打仗的节奏

韬光养晦彻底结束?今年的军队拜年不一般,完全是准备打仗的节奏

花颜蕴韵
2026-02-14 21:47:03
深夜黄金白银暴跌再现,黄金失守5000点,白银狂跌10%

深夜黄金白银暴跌再现,黄金失守5000点,白银狂跌10%

斜烟风起雨未
2026-02-15 09:15:17
江苏首富严昊:身价千亿,迎娶著名女歌星,克林顿亲自来出席婚礼

江苏首富严昊:身价千亿,迎娶著名女歌星,克林顿亲自来出席婚礼

阿柒的讯
2025-12-26 15:16:44
程序员不许写代码!OpenAI硬核实验:3人指挥AI,5个月造出百万行

程序员不许写代码!OpenAI硬核实验:3人指挥AI,5个月造出百万行

新智元
2026-02-15 12:12:36
棺材铺有个怪规矩,卖棺材从不收全款,为何总要让孝子欠上三分?

棺材铺有个怪规矩,卖棺材从不收全款,为何总要让孝子欠上三分?

千秋文化
2026-02-11 21:38:01
用罗技新鼠标会被当成外挂封号?官方:误会!排查中

用罗技新鼠标会被当成外挂封号?官方:误会!排查中

游民星空
2026-02-15 10:03:38
“谁会买你老公的大头照?”宝妈创业开超市,最终败给了低认知

“谁会买你老公的大头照?”宝妈创业开超市,最终败给了低认知

妍妍教育日记
2026-02-12 18:48:38
女青天任长霞:扫黑三年因车祸殉职,司机身上搜出六十万支票

女青天任长霞:扫黑三年因车祸殉职,司机身上搜出六十万支票

吕彏极限手工
2026-02-09 23:05:53
约翰逊:扣篮是一门艺术 我就是上场然后加入自己的风格

约翰逊:扣篮是一门艺术 我就是上场然后加入自己的风格

北青网-北京青年报
2026-02-15 15:04:03
四川成都一佳人好漂亮, 身高169cm,体重48kg 美的让人移不开眼

四川成都一佳人好漂亮, 身高169cm,体重48kg 美的让人移不开眼

喜欢历史的阿繁
2026-02-07 14:21:17
日本更强?日本媒体:有两个优势比中国强,在战争中能赢得胜利

日本更强?日本媒体:有两个优势比中国强,在战争中能赢得胜利

星星会坠落
2026-01-03 19:50:16
赵本山没想到,离过年仅剩4天,29岁儿子的一举动,先给他争光了

赵本山没想到,离过年仅剩4天,29岁儿子的一举动,先给他争光了

秋姐居
2026-02-13 11:33:31
最高敬意!泽连斯基慕安会获最长起立鼓掌,坚守赢得世界尊重

最高敬意!泽连斯基慕安会获最长起立鼓掌,坚守赢得世界尊重

老马拉车莫少装
2026-02-15 15:32:20
伊朗导弹数千却不敢先发制人,真相揭晓:精度低让其心有余悸

伊朗导弹数千却不敢先发制人,真相揭晓:精度低让其心有余悸

林子说事
2026-02-15 15:03:58
科学解释不了的事情就交给玄学!网友:坟长大对后辈好

科学解释不了的事情就交给玄学!网友:坟长大对后辈好

另子维爱读史
2026-02-14 20:45:38
为什么说中国以后都不会再申办奥运会了?原因其实并不复杂。

为什么说中国以后都不会再申办奥运会了?原因其实并不复杂。

百态人间
2026-02-12 15:30:16
她66岁担任上海市人大常委会副主任,丈夫是中将,儿子也是中将

她66岁担任上海市人大常委会副主任,丈夫是中将,儿子也是中将

海佑讲史
2026-02-15 12:25:08
王菲春晚歌曲原唱乐队成员毕业于北大

王菲春晚歌曲原唱乐队成员毕业于北大

大象新闻
2026-02-15 15:23:03
宇树科技CEO王兴兴:具身智能时代的牛顿还没诞生

宇树科技CEO王兴兴:具身智能时代的牛顿还没诞生

IT之家
2026-02-14 20:07:10
在七千多的养老院住了一年才明白:再贵的养老院,也买不来这3样

在七千多的养老院住了一年才明白:再贵的养老院,也买不来这3样

小马达情感故事
2026-02-10 11:50:09
2026-02-15 16:24:49
AI科技评论 incentive-icons
AI科技评论
点评学术,服务AI
7087文章数 20729关注度
往期回顾 全部

科技要闻

发春节红包的大厂都被约谈了

头条要闻

牛弹琴:鲁比奥演讲获热烈掌声 欧洲人又被美国忽悠了

头条要闻

牛弹琴:鲁比奥演讲获热烈掌声 欧洲人又被美国忽悠了

体育要闻

最戏剧性的花滑男单,冠军为什么是他?

娱乐要闻

河南春晚被骂上热搜!大量广告满屏AI

财经要闻

谁在掌控你的胃?起底百亿"飘香剂"江湖

汽车要闻

奔驰中国换帅:段建军离任,李德思接棒

态度原创

房产
教育
数码
本地
公开课

房产要闻

三亚新机场,又传出新消息!

教育要闻

不得不说,近年来教育中的各种乱象,促进了教育巨大进步

数码要闻

荣耀方飞介绍MagicPad 3 Pro「极客中心」

本地新闻

下一站是嘉禾望岗,请各位乘客做好哭泣准备

公开课

李玫瑾:为什么性格比能力更重要?

无障碍浏览 进入关怀版