网易首页 > 网易号 > 正文 申请入驻

Anthropic:大模型 benchmark 打分不适用 AI agent 评测

0
分享至

最近,Anthropic 发了一篇不太像“技术博客”的文章,《Demystifying evals for AI agents(揭开 AI agents 评测的迷雾)》,基本可视为一份“Agent 时代的产品生存指南”。


这篇文章背后隐含的一个判断是,如果你做的是 AI Agent,却还在用“模型 benchmark”那一套方式来评估它,那基本就是在扯淡。

Agent 的问题,不是模型准不准,而是它会不会在真实世界里,把事情搞砸。

Anthropic 在文中反复强调一个现实:随着 AI 从“一次性回答问题”,走向“长时间自主行动”,系统的失败方式已经发生了根本变化。

错误不再是“答错一道题”,而是一步小错、持续放大,最终造成不可逆后果。

比如一个研究型 Agent,早期一次资料筛选偏差,后面所有推理都会建立在错误前提上;

又比如一个自动化 Agent,在工具调用上出现微小误判,却在长链条任务中不断复制这种错误。

这些问题,用传统的评测方式几乎是测不出来的。

Anthropic 直接点破了一个行业误区:我们过去评估 AI,更像是在给“考试机器”打分;但 Agent 更像一个“实习生”,你真正关心的是——它在真实任务里能不能被信任。

所以,Anthropic提出,其核心不是“怎么跑 评测”,而是评测到底应该服务什么目标。

他们给出的第一个关键转向是,从静态结果评测,转向过程与行为评测。

在 Agent 系统中,最终结果是否正确固然重要,但远远不够。更关键的是:


  • 它是否遵循了预期的决策路径

  • 是否在不确定时主动求证

  • 是否在失败后调整策略

  • 是否在高风险节点表现得足够保守

换句话说,评测不只是“对不对”,而是“像不像一个你敢用的 Agent”。


第二个非常现实的判断是:Agent 的 评测永远不可能一次性完成。

Anthropic 明确指出,Agent 的评估是一个“持续对抗”的过程。

你修复了一个失败模式,很可能立刻引入一个新的失败方式。

这点对所有做产品的人都很残酷,也很真实:Agent 并不存在“评测通过 → 可以放心上线”的时刻,只有“暂时可控”。

因此,Anthropic建议,把评测变成和训练、部署同等重要的基础设施,而不是发布前的一个检查项。

第三个被反复强调的观点是:不要迷信自动化评测。

在 Agent 场景下,纯自动评测往往会遗漏最危险的问题。

很多真正致命的错误,只能通过人工设计的 adversarial 测试、失败案例复盘、极端场景模拟才能发现。

Anthropic 的态度非常清醒:评测不是为了证明系统“很强”,而是为了尽可能早地发现“它会怎么翻车”。

这和当前行业大量“Agent Demo 导向”的做法,形成了非常鲜明的对比。

Anthropic几乎是为整个 AI 应用层敲了警钟:当 AI 开始替人“做事”,而不是“回答问题”,评估体系本身就变成了安全边界的一部分。

这也是为什么 Anthropic 会把评测提到如此高的战略位置——不是工程细节,而是产品能不能活下去的问题。

对创业者来说,可以反思的是,未来 AI Agent 的竞争,不只是在模型、算力或功能完整度上,而是在谁更早建立起一套可靠的“可控性与信任机制”。

而评测,正是这套机制的第一道防线。

原文链接(Anthropic 官方):

https://www.anthropic.com/engineering/demystifying-evals-for-ai-agents

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
独家对话贾国龙:我们不想被冤死

独家对话贾国龙:我们不想被冤死

中国新闻周刊
2026-01-16 19:33:24
赵继伟首秀24+7献制胜罚球!辽宁险胜新疆 莫兰德6+14威尔斯14分

赵继伟首秀24+7献制胜罚球!辽宁险胜新疆 莫兰德6+14威尔斯14分

颜小白的篮球梦
2026-01-16 21:23:39
涉中国电动汽车,卡尼宣布大消息

涉中国电动汽车,卡尼宣布大消息

环球时报国际
2026-01-16 18:27:32
“重大失误”!双一流高校发通报

“重大失误”!双一流高校发通报

南方都市报
2026-01-16 12:44:41
“没一个会算微积分的”,女孩庆祝水硕毕业,评论区一片冷嘲热讽

“没一个会算微积分的”,女孩庆祝水硕毕业,评论区一片冷嘲热讽

妍妍教育日记
2026-01-16 15:42:27
上海突发!张国坤被查,涉嫌严重违纪违法

上海突发!张国坤被查,涉嫌严重违纪违法

中国基金报
2026-01-16 22:32:49
中国被公认为世界上最安全的大国

中国被公认为世界上最安全的大国

中国日报网
2026-01-16 17:53:07
泽连斯基回应特朗普说其“阻挠达成俄乌和平协议”:俄罗斯发动袭击旨在破坏乌克兰能源系统,必须向俄施压

泽连斯基回应特朗普说其“阻挠达成俄乌和平协议”:俄罗斯发动袭击旨在破坏乌克兰能源系统,必须向俄施压

鲁中晨报
2026-01-16 18:55:02
U23亚洲杯险爆冷!卫冕冠军翻盘:5-3进四强 中国队成唯一0失球队

U23亚洲杯险爆冷!卫冕冠军翻盘:5-3进四强 中国队成唯一0失球队

侃球熊弟
2026-01-16 20:27:23
财政部同意福彩变更双色球游戏规则

财政部同意福彩变更双色球游戏规则

吉刻新闻
2026-01-16 19:15:24
聂卫平生前收入不菲,收入主要来源4部分,恐给子女留丰厚遗产!

聂卫平生前收入不菲,收入主要来源4部分,恐给子女留丰厚遗产!

古希腊掌管松饼的神
2026-01-16 17:04:41
第一个力挺丹麦的战友出现!只要美国敢出兵,立马使出2大绝招

第一个力挺丹麦的战友出现!只要美国敢出兵,立马使出2大绝招

策略述
2026-01-16 19:16:02
国务院刚刚定了两件大事,直接关系你的钱袋子!

国务院刚刚定了两件大事,直接关系你的钱袋子!

21世纪经济报道
2026-01-16 21:29:29
贾国龙:今晚10点将就罗永浩对西贝的重大污蔑诽谤一一全面回应

贾国龙:今晚10点将就罗永浩对西贝的重大污蔑诽谤一一全面回应

IT之家
2026-01-16 17:33:13
A股:股民系好安全带,深夜证监会再度发声,下周将迎更大级别行情?

A股:股民系好安全带,深夜证监会再度发声,下周将迎更大级别行情?

股市皆大事
2026-01-16 21:25:25
日本队晋级半决赛!3届连入4强,逆转战胜约旦,点球决战险胜

日本队晋级半决赛!3届连入4强,逆转战胜约旦,点球决战险胜

奥拜尔
2026-01-16 22:21:35
上海大雾大批航班备降杭州?杭州机场核实:共接收23个航班备降

上海大雾大批航班备降杭州?杭州机场核实:共接收23个航班备降

环球网资讯
2026-01-16 11:54:08
独家专访柬埔寨副首相孙占托:柬埔寨从未说过不再接受来自中国的投资

独家专访柬埔寨副首相孙占托:柬埔寨从未说过不再接受来自中国的投资

国是直通车
2026-01-16 21:21:02
随着日本5-3,越南3-2,亚洲杯彻底乱了:西亚球队已经全军覆没

随着日本5-3,越南3-2,亚洲杯彻底乱了:西亚球队已经全军覆没

侧身凌空斩
2026-01-17 02:11:17
央视八套:20260116播出闫学晶林傲霏母子俩主演的《故乡的泥土》

央视八套:20260116播出闫学晶林傲霏母子俩主演的《故乡的泥土》

晓今娱
2026-01-16 11:03:57
2026-01-17 04:48:49
AI先锋官 incentive-icons
AI先锋官
AIGC大模型及应用精选与评测
416文章数 38关注度
往期回顾 全部

科技要闻

贾国龙与罗永浩被禁言,微博CEO回应

头条要闻

罗永浩、贾国龙微博账号均被禁言

头条要闻

罗永浩、贾国龙微博账号均被禁言

体育要闻

全队身价=登贝莱,他们凭什么领跑法甲?

娱乐要闻

李湘翻车,早就有迹可循!

财经要闻

清流|酒店商家在携程和美团之间沦为炮灰

汽车要闻

方程豹品牌销量突破30万辆 2026年还将推出轿跑系列

态度原创

艺术
游戏
亲子
公开课
军事航空

艺术要闻

180米!上海北外滩新地标,设计藏了3个“小心机”

十三年后,《逆战:未来》想为所有逆行者们找回青春"/> 主站 商城 论坛 自运营 登录 注册 十三年后,《逆战:未来》想为所有逆行者们找回青春 廉颇 2...

亲子要闻

精神科医生:家长的“为你好”也可能对孩子造成创伤

公开课

李玫瑾:为什么性格比能力更重要?

军事要闻

欧洲多国向格陵兰岛派遣军事人员 白宫回应

无障碍浏览 进入关怀版