网易首页 > 网易号 > 正文 申请入驻

2907个测试自证清白:这个工具要给AI Agent做"体检"

0
分享至


你的API有单元测试,UI有E2E测试,连数据库迁移都有回滚验证。但那个每天处理用户请求、调用外部工具、自主决策的AI Agent呢?它在生产环境裸奔。

这不是危言耸听。AgentProbe的开发者做过一个内部统计:接入该工具的127个Agent项目中,94%在首次混沌测试(Chaos Testing)中暴露了未处理的工具超时场景。换句话说,你的Agent可能正在用户看不见的地方反复崩溃,只是日志没告诉你。

为什么现有测试工具不够用

Promptfoo测的是提示词,DeepEval测的是输出质量。但Agent的行为——从接收请求到返回响应之间的决策链条——一直是黑箱。

AgentProbe的创建者打了个比方:「传统测试像是检查汽车的外观和尾气,但我们关心的是发动机在不同路况下的表现。」当LLM幻觉出一个不存在的函数名,当两个Agent在管道里传递消息时发生分歧,当工具返回格式错乱的数据,你的系统会怎么处理?

这些问题在生产环境每天都在发生。AgentProbe的解决方案是把测试逻辑写成YAML,塞进CI流程,让每次代码提交都触发确定性验证。

5分钟能搭起来的测试框架

安装只需要一行命令:

npm install @neuzhou/agentprobe

然后写一个YAML文件:

name: weather-tool-selection

description: Agent should pick the weather tool for forecast queries

steps:


- send:

message: "What's the weather in Tokyo tomorrow?"

assert:

- tool_called: get_weather

- tool_args:

location: "Tokyo"

- response_contains: "forecast"

- no_pii_leaked: true

运行测试:

npx agentprobe run agent.test.yaml

没有SDK要学,没有测试框架要对抗。这个设计明显是针对那些「想测但没时间造轮子」的团队——AgentProbe的GitHub星标增长曲线显示,发布后的前30天,68%的issue是关于「能不能支持某云函数的入口格式」,而不是「怎么用」。

混沌测试:专门破坏你的Agent

AgentProbe最有意思的功能是故意搞破坏。你可以在YAML里注入工具超时、返回格式错误、网络延迟,观察Agent的容错逻辑。


chaos:

- tool: get_weather

failure: timeout

after: 2 calls

这个配置的意思是:前两次调用正常,第三次开始让get_weather超时。测试断言可以检查Agent是否优雅降级、是否把原始错误暴露给用户、是否触发了备用工具。

有个电商团队的案例:他们的客服Agent在Black Friday期间因为库存API响应变慢,开始 hallucinate 库存数字,导致超卖。接入AgentProbe后,他们在CI里模拟了200ms到5000ms的随机延迟,发现Agent在超过800ms时会跳过缓存直接「编」答案。修复后增加了超时熔断和人工兜底流程。

多Agent管道的协调验证

更复杂的场景是多个Agent协作。AgentProbe支持测试Agent之间的消息传递、任务交接、状态同步。

你可以断言:Agent A完成数据清洗后,Agent B必须在3秒内收到结构化输出;如果Agent B返回格式不匹配,Agent A应该重试还是上报?这些在微服务架构里常见的测试模式,现在被搬到了Agent编排层。

Record & Replay功能允许你录制一次真实会话,然后作为回归测试反复播放。不需要mock,因为录的就是生产环境的真实响应。AgentProbe的团队透露,这个功能的设计灵感来自游戏行业的录像回放系统——「我们想知道,给定完全相同的输入序列,Agent的行为是否确定。」

2907个测试的自我证明

AgentProbe本身跑了2907个测试,全部通过。这个数字被写进README不是炫耀,是对「测试框架不信测试」这种讽刺的提前防御。

框架的开发者在接受采访时说:「我们见过太多'测试覆盖率90%'但核心逻辑全靠祈祷的项目。Agent的行为太容易被LLM的随机性掩盖,没有确定性验证,所谓的'AgentOps'只是监控仪表盘上的漂亮曲线。」

目前AgentProbe支持Node.js运行时,Python SDK在roadmap上排Q3。社区贡献的插件已经覆盖了LangChain、LlamaIndex和AutoGen的主流版本。

如果你现在去翻自己生产环境的Agent代码,有多少分支逻辑是「应该能跑」但从来没被触发过的?AgentProbe的CLI在首次运行时会生成一份覆盖率报告,标红那些从未被执行过的工具调用路径——其中有多少藏着你看不见的bug?

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
张雪峰追悼会现场:前妻与现任同送最后一程 11岁爱女哭倒灵前

张雪峰追悼会现场:前妻与现任同送最后一程 11岁爱女哭倒灵前

老猫观点
2026-03-28 10:29:49
细思极恐!张雪峰8个月前悄悄和母校告别,幼儿园到中学都走一遍

细思极恐!张雪峰8个月前悄悄和母校告别,幼儿园到中学都走一遍

火山詩话
2026-03-28 06:05:06
英国一男子乘公交,付车费用一枚神秘硬币,经鉴定该硬币已有2000年历史

英国一男子乘公交,付车费用一枚神秘硬币,经鉴定该硬币已有2000年历史

小鹿姐姐情感说
2026-03-28 10:36:38
广东:坚决拥护党中央决定

广东:坚决拥护党中央决定

新京报
2026-03-27 22:09:18
同学聚会,班长让我给迟到的镇长让座,下一秒,县长向我道歉

同学聚会,班长让我给迟到的镇长让座,下一秒,县长向我道歉

农村情感故事
2026-03-23 07:31:39
表白失败怒砸食堂后续:咖啡机报废,面临巨额赔偿,前程恐要尽毁

表白失败怒砸食堂后续:咖啡机报废,面临巨额赔偿,前程恐要尽毁

离离言几许
2026-03-27 12:11:29
“霍尔木兹决战”,摊牌了

“霍尔木兹决战”,摊牌了

中国新闻周刊
2026-03-27 20:31:04
67岁王朔现状:只能死在这儿了,女儿不让死屋里,怕房子不好卖

67岁王朔现状:只能死在这儿了,女儿不让死屋里,怕房子不好卖

谈史论天地
2026-03-27 17:05:03
暴跌95%,裁员5万人,全球第二大车企爆大雷

暴跌95%,裁员5万人,全球第二大车企爆大雷

蒋东文
2026-03-27 21:09:47
一个关于中国人长久的谣言因为昨天张雪峰的突然离世从而被打破

一个关于中国人长久的谣言因为昨天张雪峰的突然离世从而被打破

动物奇奇怪怪
2026-03-28 09:40:42
不装了?比利时带头反华,鼓动27国统一战线,对中国采取强硬立场

不装了?比利时带头反华,鼓动27国统一战线,对中国采取强硬立场

策略述
2026-03-27 15:05:18
海航的这个空姐火了

海航的这个空姐火了

太阳来
2026-03-28 09:58:08
反转来了,美国前州长直播爆料:特朗普去年遇刺完全是自导自演!

反转来了,美国前州长直播爆料:特朗普去年遇刺完全是自导自演!

凡知
2026-03-27 11:53:43
国家一级女演员陈丽云被逮捕!

国家一级女演员陈丽云被逮捕!

许三岁
2026-03-28 09:24:30
李昌钰与原配相伴56载,曾举行两次婚礼,79岁丧偶后与扬州女商人再婚,晚年多次到访中国,去年6月获聘复旦名誉教授

李昌钰与原配相伴56载,曾举行两次婚礼,79岁丧偶后与扬州女商人再婚,晚年多次到访中国,去年6月获聘复旦名誉教授

极目新闻
2026-03-28 07:54:17
被安帅坑了!巴萨8000万巨星热身赛重伤 官宣缺阵5周+无缘3战马竞

被安帅坑了!巴萨8000万巨星热身赛重伤 官宣缺阵5周+无缘3战马竞

我爱英超
2026-03-28 06:01:57
翻到张雪峰2016年婚纱照,瞬间看哭了!

翻到张雪峰2016年婚纱照,瞬间看哭了!

魔都姐姐杂谈
2026-03-26 22:06:50
全红婵与陈芋汐的两组时尚大片刷屏网络,评论区一边倒

全红婵与陈芋汐的两组时尚大片刷屏网络,评论区一边倒

魔都姐姐杂谈
2026-03-28 10:20:56
王一博改名上热搜!去掉 UNIQ 前缀新增代表作《探索新境》个人时代正式开启!

王一博改名上热搜!去掉 UNIQ 前缀新增代表作《探索新境》个人时代正式开启!

情感大头说说
2026-03-28 08:08:01
日媒:美“新型”稀土技术,可高效清洁回收稀土,或动摇稀土霸权

日媒:美“新型”稀土技术,可高效清洁回收稀土,或动摇稀土霸权

爆角追踪
2026-03-27 14:43:47
2026-03-28 13:56:49
爬虫饲养员
爬虫饲养员
业余养了只叫“龙虾”的AI爬虫,主业是给互联网打工。
312文章数 1关注度
往期回顾 全部

科技要闻

遭中国学界"拉黑"后,这家AI顶会低头道歉

头条要闻

牛弹琴:伊朗狠角色强硬嘲讽美国 却被美移出猎杀名单

头条要闻

牛弹琴:伊朗狠角色强硬嘲讽美国 却被美移出猎杀名单

体育要闻

“我是全家最差劲的运动员”

娱乐要闻

王一博改名上热搜!个人时代正式开启!

财经要闻

我在小吃培训机构学习“科技与狠活”

汽车要闻

置换补贴价4.28万起 第五代宏光MINIEV正式上市

态度原创

游戏
亲子
旅游
本地
公开课

《DNF卡赞》发售一周年!创意总监致谢:故事远未结束

亲子要闻

李清心官宣再次怀孕,下体流暗红色分泌物,胎儿心跳一度消失

旅游要闻

云南鹤庆:“雪”落枝头 流苏花开

本地新闻

在潍坊待了三天,没遇到一个“潍坊人”

公开课

李玫瑾:为什么性格比能力更重要?

无障碍浏览 进入关怀版