网易首页

注册免费邮箱

网易首页 > 网易号 > 正文申请入驻

AI上线后怎么测？这位工程师把锅甩给了日志

2026-04-28 03:35:05　来源: 薛定谔的BUG

北京举报

0

分享至

产品经理庆祝"顺利上线"时，一位工程师正在后台数钱——数的是被幻觉悄悄烧掉的钱。这不是段子，是生产环境里每天都在发生的事。

核心矛盾：用测代码的方式测AI，本身就是bug

原文作者抛了一张图，把问题说得很直白：

我们给代码写单元测试，是为了确保特定输入返回特定输出。但AI要面对的是" messy, ambiguous inputs"——混乱、模糊的输入。用确定性测试套件去套概率模型，就像用游标卡尺量海浪。

更麻烦的是危险信号变了。传统软件崩了会报错，AI崩了会自信地撒谎。作者见过太多案例：LLM功能"平稳"上线，实际上却在缓慢失血——数据泄露、幻觉输出、用户流失，全被"没崩溃"的假象盖住。

那张图里画了一条分界线：左边是代码测试的思维，右边是AI测试的现实。中间隔着一道鸿沟。

幻觉不是模型病，是数据病

作者举了个扎心的例子：让LLM总结法律合同，它凭空捏造了一个条款。你的单元测试在干嘛？检查输出有没有100个字符。测试通过了，欺诈发生了。

「I need to test against truth.」

这句话是全文锚点。要抓幻觉，不能看输出长度，得看输出真假。作者的做法是建检索评估流水线（retrieval evaluation pipelines），模拟向量数据库。上下文弱，模型就幻觉；不承认喂了垃圾数据，就永远修不好模型。

这里有个反直觉的点：很多人把幻觉当成模型问题，拼命调参。但作者说，先测你的数据管道。RAG系统里，检索质量是上游，模型生成是下游。上游浑了，下游再干净也没用。

Agent的坑：它会删生产数据库

如果说LLM是单点故障，Agent就是连环雷。原文把Agent定义为"stateful simulations of humans"——有状态的人类模拟。它们会用工具、会推理、会循环。

失败模式也很人类：卡在推理循环里出不来，或者把生产环境的DELETE端点当成测试环境点了。这不是部署配置错，是可靠性工程没做。

作者的策略很"不舒服"但有效：不再信任模型的内部思维链。强制Agent记录每一次工具调用，然后审计这些日志。查什么？查状态码看了吗，重试逻辑写了吗。

一个残酷发现：大多数Agent能通过基础单元测试，但在真实日志审计里一塌糊涂。就像驾照考试满分，上路就追尾。

生产环境测试的三条硬规矩

把原文的方法论拆出来，其实是三个转向：

第一，从测输出格式转向测事实准确性。字符数、JSON结构这些表面合规，掩盖不了内容造假。

第二，从信任模型转向信任日志。内部思维链不可见，工具调用记录是唯一能审计的抓手。

第三，从单点测试转向流水线测试。RAG要测检索，Agent要测工具链，端到端的可靠性比模型分数更重要。

作者提到MegaLLM作为多模型优化的例子，但核心观点不绑定任何平台——这是工程思维的迁移，不是工具采购清单。

为什么这事现在必须想

LLM功能上线越来越容易，测好越来越难。作者见过的"顺利上线" celebrations，背后往往是监控盲区里的慢性失血。生产环境测试不是可选项，是AI产品从demo走向业务的门票。

具体怎么做？先挑一个正在运行的LLM功能，找出它的"100字符测试"——那种通过了但没用的检查。替换成一个真问题：这个输出，事实对吗？

特别声明：以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布，本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐

热点推荐

9秒删光公司数据库，我花最贵的钱，买了一个「删库跑路」的AI

爱范儿 2026-04-28 15:43:52
0 跟贴 0
租了个AI程序员，9秒把公司数据库当bug修掉了，还写下认罪书

机器之心Pro 2026-04-28 14:15:01
1 跟贴 1

「Coordination Enginnering」让智能体从单兵作战到精锐团队

机器之心Pro 2026-04-28 16:02:35
0 跟贴 0

00后小哥复刻Claude最强神话模型OpenMythos

量子位 2026-04-23 11:44:18
0 跟贴 0
这个时代必须以Agent为中心：三个趋势回顾

量子位 2026-04-05 02:14:15
0 跟贴 0

AI Agent是科技革命中的一次真正的范式转移

量子位 2026-04-03 22:52:35
0 跟贴 0

以人为本的AI对用户而言才是最有用的AI

每日经济新闻 2026-03-14 13:16:04
0 跟贴 0
意大利逮捕中国高级工程师，准备送往美国！孟晚舟案翻版再现！

娱界新视野 2026-04-27 08:42:20
150 跟贴 150

硅谷华裔工程师亲历中国两周：三大差异显核心差距

雨月海星 2026-04-27 20:04:56
44 跟贴 44
人类对猫的底层代码，开发程度尚不足1%

搞笑的汪仔 2026-04-26 14:29:27
1 跟贴 1
岁工程师突然痴呆、打老婆、找不到家门，查遍医院没结果。最

夜里看海 2026-04-28 01:08:28
0 跟贴 0
【炸裂】印度千吨“钢铁巨兽”过桥惊魂！10天赶工桥扛住了，钢丝绳却崩了，网友：三哥这操作太离谱

太极本草 2026-04-27 20:14:16
0 跟贴 0
上海迪士尼回应游客劝阻吸烟被打：园区没有禁烟；被打男子发声：对方已赔钱和解

中国新闻周刊 2026-04-27 14:25:00
15252 跟贴 15252
向量量化如何影响存储？与RaBitQ两位作者，从与谷歌TurboQuant学术争议聊起

钛媒体APP 2026-04-28 16:03:13
0 跟贴 0
工程师父亲被8岁女儿推翻：专业经验败给了"我就要粉色"

心事寄山海 2026-04-29 00:16:19
0 跟贴 0
F1顶级工程师跳槽：红牛体面放行背后的职场逻辑

体坛观察猿 2026-04-28 22:58:20
5 跟贴 5
深度解读Deepseek-V4：注意力压缩 /1M 上下文/ MoE架构

卢菁老师 2026-04-27 02:14:19
0 跟贴 0
一个Token引爆的千亿神话

钛媒体APP 2026-04-28 18:11:43
0 跟贴 0
AI能自己打红警了！经济拉满零交战惨遭打脸，玩家笑疯

新智元 2026-04-28 19:32:29
2 跟贴 2
原生理解生成统一:商汤SenseNova U1,用统一架构终结缝合怪多模态

机器之心Pro 2026-04-28 21:41:55
0 跟贴 0
祝贺！全国表彰，达州这些集体和个人上榜

明月照凤凰 2026-04-28 21:37:16
0 跟贴 0
Xbox送游戏！《地平线6》CDkey直接公布先到先得

游民星空 2026-04-28 16:04:55
0 跟贴 0
比亚迪第1600万辆车下线，工程师站C位，高端MPV腾势D9进入第二代

光电科技君 2026-04-26 14:55:23
9 跟贴 9
靛蓝人为何总在职场"水土不服"

时光慢邮啊 2026-04-29 00:20:41
0 跟贴 0
工程师租8张H100复现mHC架构，数据反超原论文

量子位 2026-01-30 03:29:45
0 跟贴 0
工程师们为让武器射速更快，而想出的三种最离谱的方案

贪睡的北北 2026-04-28 13:31:57
1 跟贴 1
女生在路上跟一位帅哥打招呼，没想到直接触发了帅哥的底层代码

音乐下午茶官方 2026-04-27 23:21:14
0 跟贴 0
单Agent时代正式结束：一个干不过，就上300个-3

机器之心Pro 2026-04-22 00:08:00
0 跟贴 0
电气工程师经常出差的原因

顺子顺子 2026-04-24 20:38:11
0 跟贴 0
52岁工程师性情大变，被当精神病，一查已是神经梅毒晚期！

雄哥说健康 2026-04-28 13:47:19
4 跟贴 4
AReaL v1.0开源，智能体强化学习「一键接入」

机器之心Pro 2026-03-05 14:46:18
0 跟贴 0
车展现场：外国工程师趴地量底盘，合资降价十万无人问津

深海的秘密 2026-04-27 03:12:02
0 跟贴 0
龙虾军团有了最强「视力」！一眼看图直接写代码-1

机器之心Pro 2026-04-02 16:56:32
0 跟贴 0
共情力过载？这套方法帮你守住边界

时光慢邮啊 2026-04-29 00:25:42
0 跟贴 0
Excel偷偷换了引擎，你还在用20年前的笨办法

赛博兰博 2026-04-28 23:38:50
0 跟贴 0
AI Agent上车元年来了！科大讯飞携星火新一代多模态智能座舱首发，让智能汽车会办事、更懂你

车东西 2026-04-28 19:57:20
0 跟贴 0
1960年代精巧绘图工具套装，工程师的心头好物

装甲铲史官 2026-03-12 10:35:44
0 跟贴 0
尼泊尔娜娜做特色粉巴，期盼工程师早点过来，热恋中应该都这样吧

野食超哥在尼泊尔 2026-04-26 05:30:00
0 跟贴 0
歸藏PPT Skills升级：用Codex生成高质图片

歸藏的AI工具箱 2026-04-28 20:21:21
0 跟贴 0
90%的沟通失败：你在等一个读心术

晚风也遗憾 2026-04-29 00:26:45
0 跟贴 0

窝心！17分惨败，还被喊下课！发布会杜锋怒批广东球员不执行战术

窝心！17分惨败，还被喊下课！发布会杜锋怒批广东球员不执行战术

体坛野秀才

2026-04-28 22:52:12

24小时内，中俄兵分两路，普京接见伊朗外长，特朗普做出巨大让步

24小时内，中俄兵分两路，普京接见伊朗外长，特朗普做出巨大让步

坠入二次元的海洋

2026-04-28 19:50:47

汪涵妻子被爆近况冲上热搜：什么样的“爱”会让人窒息？

汪涵妻子被爆近况冲上热搜：什么样的“爱”会让人窒息？

桌子的生活观

2026-04-28 12:19:53

记住这家叛国的A股上市公司！

仰望星空的一粒沙子

2026-04-27 16:09:13

售价200万！华为新车震惊行业

售价200万！华为新车震惊行业

李东阳朋友圈

2026-04-28 16:07:38

新华社权威快报|我国自2026年5月1日起对所有非洲建交国实施零关税

新华社权威快报|我国自2026年5月1日起对所有非洲建交国实施零关税

新华社

2026-04-28 18:19:09

丢人现眼！女子老太地铁互殴后续：官方介入，真相曝光，恐将社死

丢人现眼！女子老太地铁互殴后续：官方介入，真相曝光，恐将社死

派大星纪录片

2026-04-28 16:23:41

交警提醒：2026车险新规落地，只买 2 种就够用，一年省下几千块

交警提醒：2026车险新规落地，只买 2 种就够用，一年省下几千块

芳姐侃社会

2026-04-28 00:01:03

17岁男生不当操作导致阴茎骨折，错失早期最佳治疗窗口，延误救治或影响后续功能恢复

17岁男生不当操作导致阴茎骨折，错失早期最佳治疗窗口，延误救治或影响后续功能恢复

观威海

2026-04-28 18:12:05

田亮儿子脖子粗到和头一样，网友集体急劝：快带娃去医院！

田亮儿子脖子粗到和头一样，网友集体急劝：快带娃去医院！

一口娱乐

2026-04-27 18:05:28

特朗普：伊朗希望美国尽快“开放霍尔木兹海峡”

特朗普：伊朗希望美国尽快“开放霍尔木兹海峡”

财联社

2026-04-28 21:37:28

3-0到3-5！赵心童崩盘，不和谐一幕：现场女球迷大喊：“干X他”

3-0到3-5！赵心童崩盘，不和谐一幕：现场女球迷大喊：“干X他”

大秦壁虎白话体育

2026-04-28 21:47:31

西班牙第一季度失业率为10.83%

西班牙第一季度失业率为10.83%

每日经济新闻

2026-04-28 15:10:08

43岁蔡卓妍官宣再婚！嫁给小10岁健身教练，明星好友纷纷祝福

43岁蔡卓妍官宣再婚！嫁给小10岁健身教练，明星好友纷纷祝福

萌神木木

2026-04-28 12:45:29

有人问，若是国民党当年赢了，老蒋统治中国，那中国的未来会如何

有人问，若是国民党当年赢了，老蒋统治中国，那中国的未来会如何

浩渺青史

2026-04-27 17:06:59

王思聪是真颓了？被拍到在洛杉矶，整个人都“垮了”

王思聪是真颓了？被拍到在洛杉矶，整个人都“垮了”

西楼知趣杂谈

2026-04-28 22:09:13

网红白冰，抖音、微博、小红书等账号已被禁止关注！本人出镜道歉，曾说探店不收一分钱，全网粉丝超4000万

网红白冰，抖音、微博、小红书等账号已被禁止关注！本人出镜道歉，曾说探店不收一分钱，全网粉丝超4000万

每日经济新闻

2026-04-28 14:19:14

别人把AI装进汽车肉身，一汽红旗把AI装进汽车灵魂

别人把AI装进汽车肉身，一汽红旗把AI装进汽车灵魂

汽车公社

2026-04-28 08:35:18

感叹祖国强大遭台当局打压，岛内挺“小舰长”说实话

感叹祖国强大遭台当局打压，岛内挺“小舰长”说实话

枢密院十号

2026-04-28 21:31:04

2015年，广东老板舍弃百万年薪，在终南山出家，妻子：愿再无来世

2015年，广东老板舍弃百万年薪，在终南山出家，妻子：愿再无来世

锅锅爱历史

2026-04-28 04:00:10

薛定谔的BUG

有态度网友ytd

1850文章数 38关注度

往期回顾全部

科技要闻

10亿周活目标落空！传OpenAI爆发内部分歧

头条要闻

媒体:台海军退役少校登乌鲁木齐舰给出的结论很直接

头条要闻

媒体:台海军退役少校登乌鲁木齐舰给出的结论很直接

体育要闻

魔术黑八活塞，一步之遥？！

娱乐要闻

蔡卓妍官宣结婚，老公比她小10岁

财经要闻

中央政治局会议定调，八大看点速览！

汽车要闻

拒绝疯狂套娃！现代艾尼氪金星长在未来审美点上

态度原创

+arrTaiduYuanC[i].tag+' | '+arrTaiduYuanC[i].title+'
\

亲子

手机

本地

数码

公开课

亲子要闻

有一点点近视，到底要不要戴眼镜？

手机要闻

三星裸眼3D屏来了，广告牌能“跳”出来

本地新闻

用青花瓷的方式，打开西溪湿地

数码要闻

机械革命苍龙16 / 18 Pro游戏本RTX 5070 12GB款开启预约

公开课

李玫瑾：为什么性格比能力更重要？

© 1997-2026 网易公司版权所有 About NetEase | 公司简介 | 联系方法 | 招聘信息 | 客户服务 | 隐私政策 | 不良信息举报 Complaint Center | 廉正举报 | 侵权投诉

无障碍浏览进入关怀版