15个前沿大模型，100个职业场景：谁才是最强AI打工人？|显式|模拟器|agent|ai打工人

15个前沿大模型，100个职业场景：谁才是最强AI打工人？

2026-04-15 16:34:11　来源: AI科技评论

广东举报

分享至

通义千问 × 港中文联合发布OccuBench，首次用"语言世界模型"系统评测AI Agent的真实职业能力。

GPT-5.2能写代码、能刷网页、能聊天。但如果让它去做急诊分诊呢？或者管核电站报警、处理海关报关呢？

答案是不知道，因为根本没法测。

WebArena测网页操作，SWE-bench测代码修复，OSWorld测桌面任务。这些基准加在一起，覆盖的也不过是浏览器、代码编辑器、操作系统这几个领域。而真实世界中绝大多数高价值职业工作，压根没有可以用来测试的公开环境：急诊室没有开源API，核电站不会给你搭沙箱，海关系统更不可能开放权限。

核心思路：让大模型来模拟环境

通义千问团队（Qwen Team）和香港中文大学的研究者想了个办法：既然没有真实环境，那就让大模型模拟一个。

给LLM一份环境配置（任务场景描述、工具定义和初始状态），它就能变成一个有状态的、可交互的模拟环境。研究者将其称为语言世界模型（Language World Model, LWM）。

举个例子：你告诉LLM "你现在是一个急诊科信息系统，有3个检查室、5个候诊患者，支持分诊、转运、下医嘱等操作"，它就真的能扮演这个系统, 根据Agent的每一步操作，维护内部状态并返回合理的响应。

通过这样做，环境的构建从工程问题变成了配置问题，不用写后端代码，不用搭基础设施，只要LLM能理解这个领域就行。

基于这个思路，研究者构建了OccuBench，一个覆盖100个职业场景、10大行业、65个细分领域、382个评测实例的Agent评测基准。Bench当中的任务平均包含5.5个专业工具，需要Agent调用约16.2次工具才能完成。

不只是模拟，还能注入故障

真实生产环境里，API会超时，数据会截断，服务会降级，这些都是常态。但现有的Agent评测基本都是在理想环境下跑的。

基于LWM的agent 评测有一个独特优势：环境行为完全由提示词控制。只需要修改几句提示词，就能精确注入各种故障：

所有故障都是暂态的，重试就能恢复。关键在于Agent能不能意识到出了问题，然后主动重试。这考验了agent的自主性，影响了agent能否在没有人工干预的情况下独立完成长程任务。

15个模型综合评价，几个值得注意的结果

研究者评测了15个前沿模型，覆盖8大模型家族：GPT-5.2、Claude全系列（4 / 4.5 / 4.6，含Opus和Sonnet）、Gemini 3.1 Pro / Flash-Lite、DeepSeek V3.2、Kimi K2.5、MiniMax M2.7、GLM-5、Qwen 3.5 Plus / Flash。

▎发现一：没有全能选手

GPT-5.2以总分79.6%排名第一，在科研领域更是高达94%。但看电商消费？只有67%，被Qwen 3.5 Plus（81%）甩开14个百分点。

Gemini 3.1 Pro在教育领域以84%拿下第一，Claude Opus 4.6在交通运输以77%称王，Qwen 3.5 Plus则在医疗健康和电商消费双双拿到81%的行业最高分。

每个模型都有自己擅长和不擅长的行业。这启示我们，在实际生产中，选Agent不能只看总分，还得看你的具体场景。

▎发现二：隐式故障比显式故障难对付得多

显式故障（API报错、超时）相对好处理, Agent看到报错，知道该重试就行了。

隐式故障就不一样了。在干净环境下，模型平均得分67.5%。遇到显式故障掉到62.6%，遇到隐式故障则降到53.4%，比显式故障低了9.2个百分点。拿Claude Opus 4.6举例：显式故障下只掉了3.4%（71.5%→68.1%），但隐式故障下直接掉了17.6%（71.5%→53.9%）。原因其实也很简单：数据截断了，但返回格式完全正确，没有报错信号，Agent不知道自己拿到的数据是残缺的。

9个测试模型中，有4个在隐式故障（E2）下的表现甚至比混合故障（E3）更差, 隐式故障比显式+隐式一起来还难对付。

▎发现三：Scaling定律依然有效

研究者们还发现，更大的模型、更新的版本、更深的思考，在OccuBench上全部带来了稳定提升：

模型规模：Gemini Pro比Flash-Lite高11.0%，Qwen Plus比Flash高10.2%

代际迭代：Claude Opus从v4到v4.6，总提升10.2个百分点（61.3%→71.5%）

推理深度：GPT-5.2关掉推理只有54.7%，开到最高推理强度则达到了82.2%的分数，差了27.5个百分点

▎发现四：做Agent厉害 ≠ 当环境模拟器靠谱

研究者还做了一个交叉实验：让不同模型分别充当Agent和环境模拟器，看结果会怎么变。

GPT-5.2当Agent是第一名（79.6%），但当它反过来充当环境模拟器时, 所有Agent的平均分只剩29.3%，还不到用Gemini Flash当模拟器时（67.9%）的一半。

研究者扒了失败案例，发现GPT-5.2当模拟器时存在三种典型问题：

状态虚构：急诊分诊任务中，凭空多出两个不存在的检查室，Agent被误导选错了房间

实体遗漏：工单派发任务中，把关键的数据库专家从名册里吞掉了，Agent无人可派

规则发明：退货任务中，自己编了一条 "退货窗口已过期" 的规则，但是任务里根本没这条限制

相比之下，Qwen 3.5 Plus作为模拟器与Gemini Flash的排名的一致性达到了85.7%（28对成对排名比较中，24对完全相同），前三名完全吻合。

这启示我们，做agent和做环境模拟器，看起来是两种不太一样的能力。这个结果对所有用LLM模拟环境来做评测/训练的方案来说，都值得参考。

三个具体案例

▎案例一：末端配送: 你会先充电吗？

任务：找到编号最大的医疗包裹MED-615，送到指定地址，全程电池不能低于15%。

Claude Opus 4.6：查库存→找到MED-615→看了眼电量28%，觉得不够→先充满电→出发，到达时还剩82%→送达 ->Success

DeepSeek V3.2：查库存→找到MED-615→直接就走了→到达时电量12.5%→违反15%安全线 ->Fail

它们的区别就在于出发前有没有看一眼电量够不够, 有没有时刻牢记问题中的约束。

▎案例二：房产估值: 你能发现数据被截断了吗？

任务：评估一栋15个单元的物业，计算DSCR（偿债覆盖率）是否达到1.20x的贷款门槛。环境悄悄只返回了2个单元的数据，没有任何报错。

Claude Opus 4.6：“等等，15个单元怎么只返回了2个？”→重新请求→拿到完整数据→算出DSCR 1.19x，不达标 ->Success

Kimi K2.5：也重试了一次，但故障还在→直接假设15个单元都跟这2个一样→算出1.72x，达标→实际上这栋楼根本不合格 ->Fail

就因为数据截断，两个模型得出了完全相反的财务结论。放在真实金融场景里，这种错误的代价是很大的！

▎案例三：公交调度: 故障面前，谁能坚持到底？

任务：在显式故障（E1）环境下恢复一条公交线路的时刻表。

Claude Opus 4.6：12步操作中遇到了4次错误（超时、500），每次都坚持重试→最终完成全部调度 ->Success

Kimi K2.5：第一次遇到错误就停了→只完成了2步操作→任务失败 ->Fail

同样的故障率，一个坚持了12步走完了，另一个第2步就放弃了。

关于OccuBench

OccuBench覆盖10大行业: 农业与环境、商务与企业、电商与消费、教育与文化、医疗与生命科学、工业与工程、公共服务与治理、科学与研究、技术与IT、交通与物流。从行业难度来看，商务与企业（70.1%）和公共服务（69.4%）相对容易，而交通与物流（56.2%）和教育与文化（57.6%）是最具挑战性的行业。

OccuBench完整开源：382个评测任务 + 100个场景的环境配置 + 全部参考实现代码。

论文：https://arxiv.org/abs/2604.10866

项目主页：https://gregxmhu.github.io/OccuBench-website/

代码：https://github.com/GregxmHu/OccuBench

数据：https://huggingface.co/datasets/gregH/OccuBench

未经「AI科技评论」授权，严禁以任何方式在网页、论坛、社区进行转载！

公众号转载请先在「AI科技评论」后台留言取得授权，转载时需标注来源并插入本公众号名片。

特别声明：以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布，本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.