网易首页 > 网易号 > 正文 申请入驻

15个前沿大模型,100个职业场景:谁才是最强AI打工人?

0
分享至


通义千问 × 港中文联合发布OccuBench,首次用"语言世界模型"系统评测AI Agent的真实职业能力。

GPT-5.2能写代码、能刷网页、能聊天。但如果让它去做急诊分诊呢?或者管核电站报警、处理海关报关呢?

答案是不知道,因为根本没法测。

WebArena测网页操作,SWE-bench测代码修复,OSWorld测桌面任务。这些基准加在一起,覆盖的也不过是浏览器、代码编辑器、操作系统这几个领域。而真实世界中绝大多数高价值职业工作,压根没有可以用来测试的公开环境:急诊室没有开源API,核电站不会给你搭沙箱,海关系统更不可能开放权限。

01


核心思路:让大模型来模拟环境

通义千问团队(Qwen Team)和香港中文大学的研究者想了个办法:既然没有真实环境,那就让大模型模拟一个。

给LLM一份环境配置(任务场景描述、工具定义和初始状态),它就能变成一个有状态的、可交互的模拟环境。研究者将其称为语言世界模型(Language World Model, LWM)

举个例子:你告诉LLM "你现在是一个急诊科信息系统,有3个检查室、5个候诊患者,支持分诊、转运、下医嘱等操作",它就真的能扮演这个系统, 根据Agent的每一步操作,维护内部状态并返回合理的响应。

通过这样做,环境的构建从工程问题变成了配置问题,不用写后端代码,不用搭基础设施,只要LLM能理解这个领域就行。

基于这个思路,研究者构建了OccuBench,一个覆盖100个职业场景、10大行业、65个细分领域、382个评测实例的Agent评测基准。Bench当中的任务平均包含5.5个专业工具,需要Agent调用约16.2次工具才能完成。


02


不只是模拟,还能注入故障

真实生产环境里,API会超时,数据会截断,服务会降级,这些都是常态。但现有的Agent评测基本都是在理想环境下跑的。

基于LWM的agent 评测有一个独特优势:环境行为完全由提示词控制。只需要修改几句提示词,就能精确注入各种故障:


所有故障都是暂态的,重试就能恢复。关键在于Agent能不能意识到出了问题,然后主动重试。这考验了agent的自主性,影响了agent能否在没有人工干预的情况下独立完成长程任务。

03


15个模型综合评价,几个值得注意的结果

研究者评测了15个前沿模型,覆盖8大模型家族:GPT-5.2、Claude全系列(4 / 4.5 / 4.6,含Opus和Sonnet)、Gemini 3.1 Pro / Flash-Lite、DeepSeek V3.2、Kimi K2.5、MiniMax M2.7、GLM-5、Qwen 3.5 Plus / Flash。

▎发现一:没有全能选手

GPT-5.2以总分79.6%排名第一,在科研领域更是高达94%。但看电商消费?只有67%,被Qwen 3.5 Plus(81%)甩开14个百分点

Gemini 3.1 Pro在教育领域以84%拿下第一,Claude Opus 4.6在交通运输以77%称王,Qwen 3.5 Plus则在医疗健康和电商消费双双拿到81%的行业最高分。

每个模型都有自己擅长和不擅长的行业。这启示我们,在实际生产中,选Agent不能只看总分,还得看你的具体场景。


▎发现二:隐式故障比显式故障难对付得多

显式故障(API报错、超时)相对好处理, Agent看到报错,知道该重试就行了。

隐式故障就不一样了。在干净环境下,模型平均得分67.5%。遇到显式故障掉到62.6%,遇到隐式故障则降到53.4%,比显式故障低了9.2个百分点。拿Claude Opus 4.6举例:显式故障下只掉了3.4%(71.5%→68.1%),但隐式故障下直接掉了17.6%(71.5%→53.9%)。原因其实也很简单:数据截断了,但返回格式完全正确,没有报错信号,Agent不知道自己拿到的数据是残缺的。

9个测试模型中,有4个在隐式故障(E2)下的表现甚至比混合故障(E3)更差, 隐式故障比显式+隐式一起来还难对付。


▎发现三:Scaling定律依然有效

研究者们还发现,更大的模型、更新的版本、更深的思考,在OccuBench上全部带来了稳定提升:

模型规模:Gemini Pro比Flash-Lite高11.0%,Qwen Plus比Flash高10.2%

代际迭代:Claude Opus从v4到v4.6,总提升10.2个百分点(61.3%→71.5%)

推理深度:GPT-5.2关掉推理只有54.7%,开到最高推理强度则达到了82.2%的分数,差了27.5个百分点




▎发现四:做Agent厉害 ≠ 当环境模拟器靠谱

研究者还做了一个交叉实验:让不同模型分别充当Agent和环境模拟器,看结果会怎么变。

GPT-5.2当Agent是第一名(79.6%),但当它反过来充当环境模拟器时, 所有Agent的平均分只剩29.3%,还不到用Gemini Flash当模拟器时(67.9%)的一半。

研究者扒了失败案例,发现GPT-5.2当模拟器时存在三种典型问题:

状态虚构:急诊分诊任务中,凭空多出两个不存在的检查室,Agent被误导选错了房间

实体遗漏:工单派发任务中,把关键的数据库专家从名册里吞掉了,Agent无人可派

规则发明:退货任务中,自己编了一条 "退货窗口已过期" 的规则,但是任务里根本没这条限制

相比之下,Qwen 3.5 Plus作为模拟器与Gemini Flash的排名的一致性达到了85.7%(28对成对排名比较中,24对完全相同),前三名完全吻合。

这启示我们,做agent和做环境模拟器,看起来是两种不太一样的能力。这个结果对所有用LLM模拟环境来做评测/训练的方案来说,都值得参考。

04


三个具体案例

▎案例一:末端配送: 你会先充电吗?

任务:找到编号最大的医疗包裹MED-615,送到指定地址,全程电池不能低于15%。

Claude Opus 4.6:查库存→找到MED-615→看了眼电量28%,觉得不够→先充满电→出发,到达时还剩82%→送达 ->Success

DeepSeek V3.2:查库存→找到MED-615→直接就走了→到达时电量12.5%→违反15%安全线 ->Fail

它们的区别就在于出发前有没有看一眼电量够不够, 有没有时刻牢记问题中的约束。

▎案例二:房产估值: 你能发现数据被截断了吗?

任务:评估一栋15个单元的物业,计算DSCR(偿债覆盖率)是否达到1.20x的贷款门槛。环境悄悄只返回了2个单元的数据,没有任何报错。

Claude Opus 4.6:“等等,15个单元怎么只返回了2个?”→重新请求→拿到完整数据→算出DSCR 1.19x,不达标 ->Success

Kimi K2.5:也重试了一次,但故障还在→直接假设15个单元都跟这2个一样→算出1.72x,达标→实际上这栋楼根本不合格 ->Fail

就因为数据截断,两个模型得出了完全相反的财务结论。放在真实金融场景里,这种错误的代价是很大的!

▎案例三:公交调度: 故障面前,谁能坚持到底?

任务:在显式故障(E1)环境下恢复一条公交线路的时刻表。

Claude Opus 4.6:12步操作中遇到了4次错误(超时、500),每次都坚持重试→最终完成全部调度 ->Success

Kimi K2.5:第一次遇到错误就停了→只完成了2步操作→任务失败 ->Fail

同样的故障率,一个坚持了12步走完了,另一个第2步就放弃了。

05


关于OccuBench

OccuBench覆盖10大行业: 农业与环境、商务与企业、电商与消费、教育与文化、医疗与生命科学、工业与工程、公共服务与治理、科学与研究、技术与IT、交通与物流。从行业难度来看,商务与企业(70.1%)和公共服务(69.4%)相对容易,而交通与物流(56.2%)和教育与文化(57.6%)是最具挑战性的行业。

OccuBench完整开源:382个评测任务 + 100个场景的环境配置 + 全部参考实现代码。

论文:https://arxiv.org/abs/2604.10866

项目主页:https://gregxmhu.github.io/OccuBench-website/

代码:https://github.com/GregxmHu/OccuBench

数据:https://huggingface.co/datasets/gregH/OccuBench


未经「AI科技评论」授权,严禁以任何方式在网页、论坛、社区进行转载!

公众号转载请先在「AI科技评论」后台留言取得授权,转载时需标注来源并插入本公众号名片。

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
甩开中国资本 领先15分!这支瑞士小镇球队正上演“莱斯特城奇迹”

甩开中国资本 领先15分!这支瑞士小镇球队正上演“莱斯特城奇迹”

仰卧撑FTUer
2026-04-04 10:23:04
签约,中国和俄罗斯谈成了

签约,中国和俄罗斯谈成了

太阳来
2026-04-15 09:27:18
华国锋题字震惊众人!没练书法的人写得竟比高手还好!

华国锋题字震惊众人!没练书法的人写得竟比高手还好!

书画相约
2026-04-10 08:19:50
宾汉姆7-10爆冷出局,中国7人进正赛改写斯诺克格局

宾汉姆7-10爆冷出局,中国7人进正赛改写斯诺克格局

阿晞体育
2026-04-15 11:52:43
退休后才发现,一个人有钱没钱,一眼就能看出:没钱的人,大多有这3个“穷习惯”

退休后才发现,一个人有钱没钱,一眼就能看出:没钱的人,大多有这3个“穷习惯”

风起见你
2026-04-11 15:31:29
封锁开始,美军收到击沉令!伊朗亮出3张底牌,特朗普向中方摊牌

封锁开始,美军收到击沉令!伊朗亮出3张底牌,特朗普向中方摊牌

近史博览
2026-04-15 10:14:08
全球资本正大举涌入中国,中东战事出现了一个极其诡异的现象。

全球资本正大举涌入中国,中东战事出现了一个极其诡异的现象。

流苏晚晴
2026-04-14 20:00:06
长期被冤枉的5个好东西,以为有害,其实超健康,别再被骗了!

长期被冤枉的5个好东西,以为有害,其实超健康,别再被骗了!

Home范
2026-04-14 11:14:17
深圳海关破获特大走私黄金出境案,抓获11人,涉案黄金130千克案值7800万元,警方:国内黄金原料价格低,首饰制作工艺精湛,转手利润可观

深圳海关破获特大走私黄金出境案,抓获11人,涉案黄金130千克案值7800万元,警方:国内黄金原料价格低,首饰制作工艺精湛,转手利润可观

大风新闻
2026-04-15 10:00:10
骨科医生警告:最伤膝盖的不是爬楼,是老人天天做的 5 件事

骨科医生警告:最伤膝盖的不是爬楼,是老人天天做的 5 件事

高中医健康说
2026-04-15 14:20:03
86版《西游记》导演杨洁去世九周年,老公去祭拜,两人结婚48年

86版《西游记》导演杨洁去世九周年,老公去祭拜,两人结婚48年

八斗小先生
2026-04-15 15:51:27
北约和多个国家支持美国封锁霍尔木兹海峡

北约和多个国家支持美国封锁霍尔木兹海峡

一种观点
2026-04-13 15:34:58
120W是“型号”不是功率?误导消费者要付出代价

120W是“型号”不是功率?误导消费者要付出代价

南方都市报
2026-04-13 00:36:10
NFC、FC、HPP……哪种才是100%真果汁?

NFC、FC、HPP……哪种才是100%真果汁?

混知
2026-03-24 17:07:26
别瞎打听了!2014年前退休人员,待遇按国发2号文早已定型

别瞎打听了!2014年前退休人员,待遇按国发2号文早已定型

笔墨V
2026-04-15 18:49:41
建设方急用钱,他花85万元买5套“工抵房”,领钥匙装修时开发商称多支付工程款不给交房

建设方急用钱,他花85万元买5套“工抵房”,领钥匙装修时开发商称多支付工程款不给交房

大风新闻
2026-04-15 11:36:05
特朗普称没有必要延长同伊朗的停火

特朗普称没有必要延长同伊朗的停火

新华社
2026-04-15 12:43:09
斯诺克正赛名单诞生!赵心童、丁俊晖迎来新帮手,江俊输球砸球台

斯诺克正赛名单诞生!赵心童、丁俊晖迎来新帮手,江俊输球砸球台

曹说体育
2026-04-15 11:01:08
我敢说,大部分会跟我一样,选择黑色衣服那个女孩!

我敢说,大部分会跟我一样,选择黑色衣服那个女孩!

草莓解说体育
2026-04-12 17:05:01
最差局面出现,伊朗最想要的中国给了?不到24小时,美国喊话中国

最差局面出现,伊朗最想要的中国给了?不到24小时,美国喊话中国

流史岁月
2026-04-13 15:00:08
2026-04-15 21:44:49
AI科技评论 incentive-icons
AI科技评论
点评学术,服务AI
7191文章数 20744关注度
往期回顾 全部

科技要闻

ChatGPT十亿用户又怎样?Anthropic直接贴脸

头条要闻

伊朗总统发表讲话质问美国和以色列:凭什么攻击伊朗

头条要闻

伊朗总统发表讲话质问美国和以色列:凭什么攻击伊朗

体育要闻

三球准绝杀戴大金链:轰30+10自我救赎

娱乐要闻

谢娜现身环球影城,牵手女儿温馨有爱

财经要闻

业绩失速的Lululemon:"健康"人设崩塌?

汽车要闻

空间丝毫不用妥协 小鹏GX首发评测

态度原创

教育
艺术
本地
房产
公开课

教育要闻

最新!市教委公布24项中小学生市级活动名单

艺术要闻

这山水,荡涤胸中尘埃

本地新闻

12吨巧克力有难,全网化身超级侦探添乱

房产要闻

重磅调规!341亩商改住+中小学用地!宝龙城这把稳了?

公开课

李玫瑾:为什么性格比能力更重要?

无障碍浏览 进入关怀版