网易首页

注册免费邮箱

网易首页 > 网易号 > 正文申请入驻

这个开源工具让AI自己诊断"为什么变笨了"

2026-05-05 23:48:13　来源: 硬核玩家2哈

北京举报

0

分享至

「质量分数暴跌之后，我盯着仪表盘看了三小时，完全不知道哪坏了。」——这是TraceMind v2用户最常见的反馈。开发者Aayush刚刚发布的v3版本，试图用一个新的智能体来终结这种无力感。

v2的痛点：知道"坏了"，不知道"为什么"

TraceMind的核心功能是检测大语言模型的幻觉和质量退化。v2版本已经能做到：当模型输出质量下降时，给你一个警报分数。

但警报之后呢？用户得到的是一个数字，一个趋势图，然后陷入手动排查的泥潭。

v3的解决思路很直接：让系统自己完成从"发现问题"到"定位根因"再到"给出修复方案"的完整闭环。不需要人类盯着日志逐行翻阅。

EvalAgent：一个会动手的诊断智能体

这是v3的核心新增模块。它的工作方式不是预定义的规则匹配，而是一个ReAct（推理-行动）循环：

思考需要什么信息 → 调用工具获取 → 观察结果 → 重复直到能回答

智能体配备了6个专用工具：拉取近期追踪记录、运行针对性评估、通过ChromaDB做语义搜索查询历史故障、生成新测试用例、分析故障模式、发送警报。

一个真实会话的完整流程：

第一步，语义搜索历史故障库 → 发现3个相似案例，匹配度82%，最后一次出现是4天前

第二步，拉取最近24小时追踪 → 14条低质量记录，最低分3.2

第三步，分析故障模式 → 锁定问题：多步骤退款咨询+政策约束场景

根因定位：提示词没有规定"政策模糊时如何处理"

第四步，生成对抗测试用例 → 5个覆盖该故障模式的新测试用例已就绪

最终输出：质量下降是因为提示词缺少政策模糊时的兜底指令。已生成5个测试用例。建议修复：添加"如果政策不明确，回复：我会核实后跟进"。

全程4次工具调用，45秒，给出具体根因、具体修复方案、补充测试用例已入库。

技术选型：为什么放弃原生工具调用

开发者在架构上面临一个选择：

方案A：用Anthropic/OpenAI的原生工具调用，JSON格式更干净，模型直接调工具

方案B：文本式ReAct，模型输出"TOOL: name\nINPUT: {...}"，开发者自己解析

最终选了方案B。原因很现实：项目运行在Groq免费层，用的是llama-3.1-8b-instant。小参数开源模型的原生工具调用不可靠，经常出现幻觉工具名或格式错误。

文本式ReAct更宽容，调试时也更容易定位问题。代价是自己写解析逻辑，偶尔遇到输出不符合TOOL:/ANSWER:模式的情况，需要fallback机制把原始回复追加到上下文重试。

四层记忆：让诊断有"经验"可循

智能体不是无状态的。每次运行之间，它维护四类记忆：

语义记忆：ChromaDB存储所有历史故障的嵌入向量。当新问题出现，先搜"以前有没有类似的"。

情景记忆：当前调查会话的完整轨迹，包括每次工具调用和观察结果。

程序记忆：固定的系统提示和工具定义，告诉智能体"你能做什么、怎么做"。

工作记忆：当前步骤的上下文窗口，决定下一步行动。

这种设计让诊断过程有连续性。不是每次从零开始，而是能关联历史模式。

另外两个新功能：自动拦截和版本追踪

Response Control Hooks（响应控制钩子）：检测到幻觉时，可以自动拦截或重试，不用等人工介入。

Prompt Version Registry（提示词版本注册表）：追踪哪个版本的提示词部署在哪个环境。当质量下降时，能快速关联到具体的提示词变更。

这两个功能解决的是"修复之后"的问题：如何防止坏结果流出，如何追溯变更历史。

开源路径与社区反馈

项目托管在GitHub，开发者明确提到"如果对你有用，点个星标帮助其他人发现"。

从v1到v3的演进路径很清晰：v1解决"有没有问题"，v2解决"问题有多严重"，v3解决"问题在哪、怎么修"。每一步都针对用户反馈中最痛的点。

这种迭代方式本身值得注意：不是堆砌功能，而是围绕一个核心用户旅程——质量下降后的排查修复——不断压缩人工介入的环节。

为什么这件事值得关注

大语言模型落地的一个隐形成本是"运维黑箱"。模型表现波动时，团队往往缺乏系统化的诊断能力，只能靠经验猜测、逐个变量排查。

TraceMind v3展示了一种可能性：把诊断过程本身自动化，而且用相对轻量的技术栈（8B参数模型+向量数据库+ReAct模式）就能实现。

对于正在搭建LLM生产环境的团队，这个开源方案提供了一个可复用的诊断框架。不需要等待闭源平台的官方功能，可以直接部署、按需改造。

项目地址：https://github.com/Aayush-engineer/TraceMind

特别声明：以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布，本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐

热点推荐

AI自己造AI，概率60%，2028年底前！Anthropic联创坐不住了

新智元 2026-05-05 20:07:09
1 跟贴 1
ACL 2026｜AI for聋哑群体，港理工开源思考型手语翻译模型

机器之心Pro 2026-05-05 15:22:29
0 跟贴 0

RouteMoA：无需预推理的动态路由，实现高效多智能体混合

机器之心Pro 2026-05-05 15:04:19
0 跟贴 0

强化学习的进化：从PPO到MaxRL，LLM推理训练的算法演进史

机器之心Pro 2026-05-05 14:16:31
0 跟贴 0
10美元破解机器人触觉难题！斯坦福开源方案让机械手拥有人类手感

DeepTech深科技 2026-04-19 19:34:17
0 跟贴 0

00后小哥复刻Claude最强神话模型OpenMythos

量子位 2026-04-23 11:44:18
0 跟贴 0

百度沈抖自曝：老忘吃药，用AI做了个小程序

量子位 2026-03-27 11:25:23
0 跟贴 0
以人为本的AI对用户而言才是最有用的AI

每日经济新闻 2026-03-14 13:16:04
0 跟贴 0

Claude Code 源码泄露了，有人用Python复刻了一个极简版

机器之心Pro 2026-04-02 11:30:10
4 跟贴 4
世界模型让智能体预知未来？这篇新范式研究给了一个反直觉的答案

机器之心Pro 2026-05-05 15:17:00
0 跟贴 0
“DeepSeek版Claude Code”，Github 2.3k星

量子位 2026-05-04 14:03:17
15 跟贴 15
ClaudeCode之父：“全员编程”时代，企业真正领先在于“组织流程的代差”

华尔街见闻官方 2026-05-05 14:09:40
20 跟贴 20
横跨大西洋11小时，中国开发者用Mac跑Llama 70 B？评论区吵翻了

新智元 2026-05-03 19:13:05
164 跟贴 164
中山大学通报“附属医院康某某相关学术论文图片及数据存疑”：已正式启动调查程序

环球网资讯 2026-05-05 14:54:11
694 跟贴 694
莫氏鸡煲上线汤料包5分钟售罄4000多份，累计卖出4万多份，总销售额破160万元，记者实测：1分钟抢到两包

极目新闻 2026-05-04 09:46:46
8614 跟贴 8614
男子耐心训练小边牧，物品扔出后听指令乖乖叼回，网友：这智商也太高了

先锋音乐 2026-05-05 09:30:13
3 跟贴 3
吴宜泽回应斯诺克世锦赛夺冠创历史：父母是真正冠军

环球网 2026-05-05 07:45:17
5488 跟贴 5488
央视官宣！歼35AE出口版首次亮相，该国将成首个海外用户！

芮予猪猪 2026-05-05 03:53:31
1 跟贴 1
横扫室内3D场景，港科大（广州）打造单目开放词汇占据预测新SOTA

机器之心Pro 2026-05-05 15:33:09
0 跟贴 0
双胞胎心灵感应测试，妈妈说出一个指令，整齐的好像开了外挂

笔笔皆笑 2026-05-02 00:12:00
0 跟贴 0
景区装电梯无痛爬山被质疑过度开发

极目新闻 2026-05-02 17:18:12
4162 跟贴 4162
金融打工人终于不用熬夜做PPT了

薛定谔的BUG 2026-05-05 23:16:09
0 跟贴 0
用AI复刻童年游戏，零成本找回老玩家快乐

爬虫饲养员 2026-05-05 10:29:32
0 跟贴 0
CMU等团队：PAT3D把文生3D从能看推进到能模拟、能交互

机器之心Pro 2026-05-05 15:03:22
0 跟贴 0
俄罗斯宣布与乌克兰实施胜利日停火

财联社 2026-05-05 09:57:03
4825 跟贴 4825
广场舞伴的日常相处，美女发出指令让大爷心急，是个男人都会嫉妒

奥力给趣笑堂 2026-05-04 14:31:59
1 跟贴 1
7年前丢失的手机悄悄发回定位，合肥机主再次找回手机，当事人：手机里有珍贵的回忆，会收藏这部机器

极目新闻 2026-05-05 23:13:07
1 跟贴 1
AReaL v1.0开源，智能体强化学习「一键接入」

机器之心Pro 2026-03-05 14:46:18
0 跟贴 0
PackingStar双智能体博弈，攻克14维难题

量子位 2026-02-16 13:12:43
0 跟贴 0
智能体从「单兵作战」到「精锐团队」 -2

机器之心Pro 2026-04-28 16:56:00
0 跟贴 0
爆火！把智能体当游戏角色来玩，一个人就是一个公司

机器之心Pro 2026-02-12 18:04:44
0 跟贴 0
写给女儿的话：能被用上的才是好建议

时光慢邮啊 2026-05-04 12:24:47
0 跟贴 0
印度网友：真希望我们的古代文本也有这么朗朗上口的韵律给孩子

为了更好 2026-05-02 03:43:01
3 跟贴 3
32℃！雷雨、7级大风！江苏最新天气预测

江南晚报 2026-05-06 02:58:45
5 跟贴 5
我军测试某新型反导武器指挥屏全是马赛克

看看新闻Knews 2026-05-05 21:28:08
9 跟贴 9
深圳楼市，咨询量爆了

南方都市报 2026-05-05 11:04:16
3177 跟贴 3177
欧盟向美国表示贸易协议应在7月最后期限前落实

新浪财经 2026-05-06 02:20:21
0 跟贴 0
文班：我消耗了太多体力做了一些对球队并没有太大帮助的事情

北青网-北京青年报 2026-05-05 19:44:31
62 跟贴 62
接好运！上海女子200元买刮刮乐，30元面值的喜相逢刮中100万元！

观威海 2026-05-05 10:42:12
172 跟贴 172
双面胶中婆婆不让丽鹃花钱的背后，实则是在维护自己的生存逻辑

佚名影视说 2026-05-02 19:21:13
13 跟贴 13

浏阳烟花厂爆炸最新伤亡公布，遇难人数增至26人，年龄信息披露

浏阳烟花厂爆炸最新伤亡公布，遇难人数增至26人，年龄信息披露

Mr王的饭后茶

2026-05-05 15:35:02

辽宁男篮创耻辱纪录，赵继伟离队成定局？合约卡死关键

辽宁男篮创耻辱纪录，赵继伟离队成定局？合约卡死关键

晚雾空青

2026-05-06 05:32:50

金价一夜暴跌！门店称最低7折，有人拖着行李箱跨城买金，商家：销量仍下滑

金价一夜暴跌！门店称最低7折，有人拖着行李箱跨城买金，商家：销量仍下滑

环球网资讯

2026-05-05 21:41:21

伊朗下“二选一”通牒美国骑虎难下海峡主导权争夺趋于激烈

伊朗下“二选一”通牒美国骑虎难下海峡主导权争夺趋于激烈

极目新闻

2026-05-05 17:24:43

SpaceX发生爆炸！部件炸飞到天上，水雾满天喷，到底咋回事

SpaceX发生爆炸！部件炸飞到天上，水雾满天喷，到底咋回事

姿势分子knowledge

2026-05-05 23:08:00

曝麻六记发不起工资！多位骨干纷纷离职，小玥儿消费水平也下降

曝麻六记发不起工资！多位骨干纷纷离职，小玥儿消费水平也下降

八卦王者

2026-05-03 11:00:54

上将被查、院士被除名，这背后释放的信号，比你想的更不简单

上将被查、院士被除名，这背后释放的信号，比你想的更不简单

李昕言温度空间

2026-03-19 22:56:18

戴手套！“72小时可夺命”，珠海、深圳曾有人中招→

戴手套！“72小时可夺命”，珠海、深圳曾有人中招→

珠海发布

2026-05-05 19:08:25

相差15岁姐弟恋！00后体育生爱上重庆单亲妈妈，喜欢叫对方姐姐

相差15岁姐弟恋！00后体育生爱上重庆单亲妈妈，喜欢叫对方姐姐

那年秋天

2026-05-03 11:50:10

51假期还没过完，多省景区接连塌房！央视出手，当地文旅跟着遭殃

51假期还没过完，多省景区接连塌房！央视出手，当地文旅跟着遭殃

米果说识

2026-05-05 19:41:35

被快手砸了5.7亿的A站，成了沉默的“赛博坟场”。

被快手砸了5.7亿的A站，成了沉默的“赛博坟场”。

差评XPIN

2026-05-06 00:07:34

95年我相亲碰大雨，丈母娘叫我和大姐住一屋，那夜我目睹难忘一幕

95年我相亲碰大雨，丈母娘叫我和大姐住一屋，那夜我目睹难忘一幕

白云故事

2025-03-04 05:45:02

32℃！雷雨、7级大风！江苏最新天气预测

32℃！雷雨、7级大风！江苏最新天气预测

江南晚报

2026-05-06 02:58:45

枪手2-1淘汰马竞，20年后再进欧冠决赛创历史新纪录

枪手2-1淘汰马竞，20年后再进欧冠决赛创历史新纪录

老牛体育解说

2026-05-06 05:13:05

男子频繁骚扰女乘客，公交司机直接把车开到派出所！

男子频繁骚扰女乘客，公交司机直接把车开到派出所！

环球网资讯

2026-05-05 11:02:17

爆红太子妃竟成豪门小姨太的瓜

十锤星人

2026-05-04 23:41:41

“中年返贫三件套”，正在吞掉一代人的存款

“中年返贫三件套”，正在吞掉一代人的存款

十点读书

2026-04-18 18:36:15

离了大谱：当妈的猥亵女儿？

十柱

2026-05-04 14:54:35

神预言应验！印度专家早已看穿：中印一旦和平，美国全盘棋局

神预言应验！印度专家早已看穿：中印一旦和平，美国全盘棋局

Ck的蜜糖

2026-05-05 21:23:36

知名女星自曝：7年没性行为！流泪求救，被强行注射50针不明液体

知名女星自曝：7年没性行为！流泪求救，被强行注射50针不明液体

草莓解说体育

2026-05-04 01:09:39

硬核玩家2哈

沉淀中，勿扰

2137文章数 10关注度

往期回顾全部

科技要闻

传苹果考虑让英特尔、三星代工设备处理器

头条要闻

媒体：中国史无前例下"阻断禁令" 美媒迅速捕捉到信号

头条要闻

媒体：中国史无前例下"阻断禁令" 美媒迅速捕捉到信号

体育要闻

全世界都等着看他笑话，他带国米拿下冠军

娱乐要闻

内娱真情谊！杨紫为谢娜演唱会送花篮

财经要闻

浏阳烟花往事

汽车要闻

同比大涨190% 方程豹4月销量29138台

态度原创

+arrTaiduYuanC[i].tag+' | '+arrTaiduYuanC[i].title+'
\

手机

艺术

本地

健康

公开课

手机要闻

iPhone 20周年机型或配备固态按钮，iPhone 18再次确认工艺降级！

艺术要闻

这些劳动图画最美！

本地新闻

用青花瓷的方式，打开西溪湿地

干细胞治烧烫伤面临这些“瓶颈”

公开课

李玫瑾：为什么性格比能力更重要？

© 1997-2026 网易公司版权所有 About NetEase | 公司简介 | 联系方法 | 招聘信息 | 客户服务 | 隐私政策 | 不良信息举报 Complaint Center | 廉正举报 | 侵权投诉

无障碍浏览进入关怀版