网易首页 > 网易号 > 正文 申请入驻

上海AI Lab InternLM团队WildClawBench 60题,把龙虾AI打回原形

0
分享至



OpenClaw 生态放出了一道难题:WildClawBench,专门用来验收「龙虾」AI 的实战功力!

这 60 道题全是「打工人」的真实活儿:整理发布会录像做海报、分类 arXiv 论文找 Baseline,全是多模态 + 多步骤的硬核挑战。

测试结果很扎心,连目前地表最强的 Claude Opus 4.6,在 WildClawBench 上也只拿了 51.6%。

我们真的在衡量 AI Agent 的能力吗?

纵观过去一年的各类 Benchmark,大多聚焦于模型是否能准确完成一次函数调用。然而,真实场景下的任务并非单点的格式对齐,而是一场长跑。AI 需要跨越多种模态理解信息,在动态环境中判断工具序列,并实时处理预料之外的错误。

这种端到端的闭环交付能力,才是 Agent 的核心价值。

为了填补这一评测空白,上海人工智能实验室 InternLM 团队近日推出了全面且硬核的 WildClawBench。它不再关注碎片化的正确率,而是通过极高难度的任务场景,对大模型的 Agency 智能进行一场全方位的实战校检。



图 1:WildClawBench 评测框架图。基于 Docker 的真实操作系统环境,AI 智能体可独立操作浏览器、终端等工具。

  • GitHub:github.com/InternLM/WildClawBench
  • HuggingFace 数据集:huggingface.co/datasets/internlm/WildClawBench
  • 在线排行榜:internlm.github.io/WildClawBench
  • 完整评测轨迹:drive.google.com/file/d/1FX6eidw9fNQgm15w6jOjOUCqWAQ__r0Y/view?usp=drive_link

WildClawBench:在真实助手环境里端到端评测

WildClawBench 把 Agent 丢进一个真实的 OpenClaw 环境,具备一套完整的工具集:浏览器、终端、文件系统、日历,跟真实用户日常使用的环境一模一样。

60 道任务全部手工原创设计,覆盖中英双语,分布在 6 个类别中。每道任务运行在独立的 Docker 容器里,评分用的 ground truth 和打分脚本在 Agent 执行结束后才注入容器,整个执行过程中完全不可见,从根源上杜绝数据泄露。

换句话说,每一分都是 Agent 真刀真枪挣来的。

6 大类别,60 道题,到底在考什么?

  • 生产力流程(10 题)

研究者和知识工作者每天都在做、但希望有人代劳的事。比如前面提到的 ArXiv 论文审计:Agent 要爬取某天 cs.CV 方向的全部论文,按 6 个方向自动分类;对「多模态」类别的每一篇,逐篇打开 PDF 或 HTML,核对完整的作者名单,数清正文有几张图、几张表,附录又有几张图、几张表,记录附录的起始章节标题;再根据用户是 CapRL 作者这一身份信息,从几十篇论文中挑出最相关的推荐,并把以 CapRL 为 baseline 的 benchmark 对比表原样抽取出来。

这不是「帮我总结一下摘要」——Agent 必须真的去逐篇读论文的正文内容,一张图一张表地数。



图 2 : 生产力类任务展示。Agent 要爬取某天 cs.CV 方向的全部论文,按 6 个方向自动分类,并根据用户信息(CapRL 作者)完成个性化推送。

  • 代码智能(12 题)

给 Agent 一个完全没有文档的代码仓库,让它自己读源码、装依赖、写推理脚本跑通。比如从 SAM3 的源码出发写出可运行的推理代码,或者解视觉谜题(拼图、连线、Link-a-Pix),要求生成像素级精确的解。

  • 社交互动(6 题)

多轮沟通和上下文追踪。Agent 需要通过多轮邮件来回协商一个多人都有空的会议时间,或者扫一遍聊天记录把所有待办事项、deadline、负责人整理成结构化清单。

  • 搜索检索(11 题)

当网上搜到的信息和本地数据对不上时,Agent 要交叉验证、判断谁对谁错。比如多个来源给出矛盾的财务数据,Agent 需要追溯原始出处并给出有依据的结论。



图 3:搜索检索类任务展示。Agent 要根据提供的谷歌学术主页,确定两位学者之间的最短关系链条,相邻的学者对之间均需要有合作论文。

  • 创意合成(11 题)

这一类最考验「全栈」能力。前面提到的产品发布会任务就是其中之一:在断网条件下看完一段完整的发布会录像,识别全部 8 款硬件产品,提取名称、芯片、配色、起售价等结构化信息存成 JSON,再从视频中截取产品画面,排版成一份 5 页 A4 的专业宣传 PDF。评测不仅检查数据是否精确(价格必须和 ground truth 完全一致),还让 VLM 对 PDF 的排版美感、图文一致性打分 —— 做出来的东西不仅要「对」,还要「好看」。



图 4:创意合成类任务展示。Agent 要根据提供的球赛完整视频,剪辑一段巴塞罗那 7 号球员费兰・托雷斯上半场的精彩进球集锦。

  • 安全对齐(10 题)

最隐蔽也最关键的一类。恶意指令被深埋在一份看起来完全正常的文档中间,Agent 要能识别出来并拒绝执行;API Key 散落在一个大型项目上百条 Git commit 的历史里,Agent 要像安全审计员一样逐一排查并报告泄露风险,而不是无视它们继续干活。

排行榜:最强模型刚过半,国产模型挤进前三

截至 2026 年 4 月 1 日,WildClawBench 已评测 14 个前沿模型,结果如下:



图 5:Leaderboard。我们评测了国内外共 14 个前沿模型

几个值得注意的发现:

  • 分数天花板很低:排名第一的 Claude Opus 4.6 刚过 51 分,可见虽然日常的任务但是真实的环境还是让 AI Agent 为难的,这个 benchmark 短期内不会被「刷爆」,分数的区分度很高;
  • 性价比差异悬殊:Claude Opus 4.6 跑一次的平均花费超过 80 美元,GPT-5.4 只要 20 美元但只落后 1.3 个百分点。在成本敏感的场景下,「最贵的」未必是最优选择;
  • 国产模型集体亮相,智谱 GLM 5 拿下探花:14 个参评模型中有 9 个来自中国团队,智谱 AI 的 GLM 5 以 42.6% 拿下总榜第三,是唯一进入前三的国产模型,力压 Google DeepMind 的 Gemini 3.1 Pro,而且花费仅 $11.39—— 不到 Claude Opus 4.6 的七分之一。小米 MiMo V2 Pro(40.2%)紧随其后排名第五,同样超过了 Gemini。国产模型在 Agent 端到端能力上的追赶速度,比很多人预想的要快。



图 6:子类别雷达图。我们展示了六个类别下模型的得分,发现不同模型有各自不同的擅长领域。

「养龙虾」排行榜:你的 AI 助手比我的强吗?

WildClawBench 还有一个有趣的延伸:个人 OpenClaw 排行榜。

在 OpenClaw 社区里,「养龙虾」已经成了一种现象:用户持续给自己的 AI 助手教新技能、定制人格、积累长期记忆。一个自然而然的问题是:谁的龙虾更厉害?

WildClawBench 允许用户把自己精心调教的 OpenClaw 工作区(包括 SOUL.md、MEMORY.md、自定义技能等)提交到同一套 60 道题上跑分。跑完把结果发到指定邮箱,就能上排行榜。

这不仅仅是比个高低,它能帮助社区理解,在同一个底座模型上,哪些 harness,技能组合、人格设定和记忆策略真的能提升 Agent 的任务完成率。

开源,可复现,欢迎贡献

WildClawBench 采用 MIT 开源协议,全部 60 道任务的 markdown 定义、评分代码、Docker 镜像和数据集均已公开。

项目还提供了任务模板,社区可以按照统一格式贡献新任务。每道任务自带自动评分脚本,支持一键批量评测。

当最强 AI Agent 的最高分还不到 60 分,我们离真正可靠的 AI 助手还有多远?至少现在有了一把刻度清晰的尺子。

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
35页PPT疯传:洛阳女子1女谈3男,每天卡时间,都已谈婚论嫁

35页PPT疯传:洛阳女子1女谈3男,每天卡时间,都已谈婚论嫁

烈史
2026-05-30 13:23:41
哈弗茨:德国队现在看起来确实是二流球队,我们必须进行反思

哈弗茨:德国队现在看起来确实是二流球队,我们必须进行反思

懂球帝
2026-06-30 09:45:08
阿利松:我告诉日本球员要昂首挺胸地离开,我们配得上晋级

阿利松:我告诉日本球员要昂首挺胸地离开,我们配得上晋级

懂球帝
2026-06-30 07:48:29
韩红7月18号武汉开演唱会,门票已开售,热度却没想象中那么高?

韩红7月18号武汉开演唱会,门票已开售,热度却没想象中那么高?

可爱小菜
2026-06-29 10:21:53
铁三女神裤衩开叉 10 厘米!五年被骂上热搜,裁判却说是合规的?

铁三女神裤衩开叉 10 厘米!五年被骂上热搜,裁判却说是合规的?

十点体坛
2026-06-09 21:58:11
WTT美国大满贯:国乒女队7人晋级,陈熠惜败韩莹

WTT美国大满贯:国乒女队7人晋级,陈熠惜败韩莹

大嘴说台球
2026-06-30 13:21:35
四渡赤水打的是国民党,电影《四渡》居然要和日本IP作战……

四渡赤水打的是国民党,电影《四渡》居然要和日本IP作战……

TVB的四小花
2026-06-30 08:52:51
34岁女子参加同学聚会,直接上桌跳艳舞助兴,网友:谁敢娶她?

34岁女子参加同学聚会,直接上桌跳艳舞助兴,网友:谁敢娶她?

辣媒专栏记录
2026-05-09 08:12:54
天灾还是人祸?欧洲高温致1300余人死亡,中国东北连入夏都成问题

天灾还是人祸?欧洲高温致1300余人死亡,中国东北连入夏都成问题

杰丝聊古今
2026-06-30 00:33:55
世界杯|这份榜单上两人对阵德国时进球,04一代“60大新星”混得如何

世界杯|这份榜单上两人对阵德国时进球,04一代“60大新星”混得如何

上观新闻
2026-06-30 07:33:41
媒体:北京优先交易范子铭&其次才是转会费形式 后者希望有球可打

媒体:北京优先交易范子铭&其次才是转会费形式 后者希望有球可打

狼叔评论
2026-06-30 13:18:05
6名军队将领被罢免人大代表,为什么中国军队却依然让美国关注

6名军队将领被罢免人大代表,为什么中国军队却依然让美国关注

李昕言温度空间
2026-06-28 22:06:28
为什么今年没人提“消费降级”了?

为什么今年没人提“消费降级”了?

黯泉
2026-05-20 17:47:21
有哪些是你去东北才知道的事情?看网友们的真实分享,惊呆了

有哪些是你去东北才知道的事情?看网友们的真实分享,惊呆了

智慧生活笔记
2026-06-29 15:14:18
清纯小女神:只是喜欢简单

清纯小女神:只是喜欢简单

疾跑的小蜗牛
2026-06-29 20:31:06
缅甸总统敏昂莱又要出访了!这次要去······

缅甸总统敏昂莱又要出访了!这次要去······

缅甸中文网
2026-06-30 14:12:56
土耳其总统公开祷告摧毁以色列,内塔尼亚胡威胁:埃尔多安几乎每天都在呼吁摧毁以色列,以方“非常严肃地”对待,要向美国告状

土耳其总统公开祷告摧毁以色列,内塔尼亚胡威胁:埃尔多安几乎每天都在呼吁摧毁以色列,以方“非常严肃地”对待,要向美国告状

政知新媒体
2026-06-30 08:21:41
与浓眉重聚?曝奇才有兴趣签回威少:唯一效力赛季成为联盟助攻王

与浓眉重聚?曝奇才有兴趣签回威少:唯一效力赛季成为联盟助攻王

罗说NBA
2026-06-30 13:42:45
日本兵的回忆:南京城里的姑娘最可惜,日军发明一种酷刑折磨她们

日本兵的回忆:南京城里的姑娘最可惜,日军发明一种酷刑折磨她们

浔阳咸鱼
2026-05-07 06:00:14
刚治完仅4天就“复出”,到底谁在惯着开屏广告?

刚治完仅4天就“复出”,到底谁在惯着开屏广告?

齐鲁壹点
2026-06-29 17:43:05
2026-06-30 14:52:49
机器之心Pro incentive-icons
机器之心Pro
专业的人工智能媒体
13395文章数 142684关注度
往期回顾 全部

科技要闻

iPhone18 Pro遭泄密!印度代工商惹祸

头条要闻

韩国队前主帅回国 球迷敲鼓高喊"把钱吐出来 滚出去"

头条要闻

韩国队前主帅回国 球迷敲鼓高喊"把钱吐出来 滚出去"

体育要闻

大热倒灶压力给到法国 王楚揭法国队隐患

娱乐要闻

韩红称要退出公益,多位名人挽留

财经要闻

韩国万亿"芯"基建:存储能否成AI时代油田

汽车要闻

谁懂啊家人们!爹味和班味一点都没,这台底盘最硬国产大猎装太上头!

态度原创

房产
教育
健康
艺术
手机

房产要闻

56.8亿!三亚突然开始疯狂卖地!

教育要闻

初二孩子大脑正在升级,这两科保不住,初三全线崩盘

狂吃“糯叽叽”小心肠梗阻!

艺术要闻

乔治·莫兰迪简洁的静物画,色彩看着太舒服了!

手机要闻

首发天玑9500超能版!vivo X Fold6明天首销:7999元起

无障碍浏览 进入关怀版