网易首页 > 网易号 > 正文 申请入驻

AI上线后怎么测?这位工程师把锅甩给了日志

0
分享至

产品经理庆祝"顺利上线"时,一位工程师正在后台数钱——数的是被幻觉悄悄烧掉的钱。这不是段子,是生产环境里每天都在发生的事。

核心矛盾:用测代码的方式测AI,本身就是bug


原文作者抛了一张图,把问题说得很直白:

我们给代码写单元测试,是为了确保特定输入返回特定输出。但AI要面对的是" messy, ambiguous inputs"——混乱、模糊的输入。用确定性测试套件去套概率模型,就像用游标卡尺量海浪。

更麻烦的是危险信号变了。传统软件崩了会报错,AI崩了会自信地撒谎。作者见过太多案例:LLM功能"平稳"上线,实际上却在缓慢失血——数据泄露、幻觉输出、用户流失,全被"没崩溃"的假象盖住。

那张图里画了一条分界线:左边是代码测试的思维,右边是AI测试的现实。中间隔着一道鸿沟。

幻觉不是模型病,是数据病

作者举了个扎心的例子:让LLM总结法律合同,它凭空捏造了一个条款。你的单元测试在干嘛?检查输出有没有100个字符。测试通过了,欺诈发生了。

「I need to test against truth.」

这句话是全文锚点。要抓幻觉,不能看输出长度,得看输出真假。作者的做法是建检索评估流水线(retrieval evaluation pipelines),模拟向量数据库。上下文弱,模型就幻觉;不承认喂了垃圾数据,就永远修不好模型。

这里有个反直觉的点:很多人把幻觉当成模型问题,拼命调参。但作者说,先测你的数据管道。RAG系统里,检索质量是上游,模型生成是下游。上游浑了,下游再干净也没用。

Agent的坑:它会删生产数据库

如果说LLM是单点故障,Agent就是连环雷。原文把Agent定义为"stateful simulations of humans"——有状态的人类模拟。它们会用工具、会推理、会循环。

失败模式也很人类:卡在推理循环里出不来,或者把生产环境的DELETE端点当成测试环境点了。这不是部署配置错,是可靠性工程没做。

作者的策略很"不舒服"但有效:不再信任模型的内部思维链。强制Agent记录每一次工具调用,然后审计这些日志。查什么?查状态码看了吗,重试逻辑写了吗。

一个残酷发现:大多数Agent能通过基础单元测试,但在真实日志审计里一塌糊涂。就像驾照考试满分,上路就追尾。

生产环境测试的三条硬规矩

把原文的方法论拆出来,其实是三个转向:

第一,从测输出格式转向测事实准确性。字符数、JSON结构这些表面合规,掩盖不了内容造假。

第二,从信任模型转向信任日志。内部思维链不可见,工具调用记录是唯一能审计的抓手。

第三,从单点测试转向流水线测试。RAG要测检索,Agent要测工具链,端到端的可靠性比模型分数更重要。

作者提到MegaLLM作为多模型优化的例子,但核心观点不绑定任何平台——这是工程思维的迁移,不是工具采购清单。

为什么这事现在必须想

LLM功能上线越来越容易,测好越来越难。作者见过的"顺利上线" celebrations,背后往往是监控盲区里的慢性失血。生产环境测试不是可选项,是AI产品从demo走向业务的门票。

具体怎么做?先挑一个正在运行的LLM功能,找出它的"100字符测试"——那种通过了但没用的检查。替换成一个真问题:这个输出,事实对吗?

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
窝心!17分惨败,还被喊下课!发布会杜锋怒批广东球员不执行战术

窝心!17分惨败,还被喊下课!发布会杜锋怒批广东球员不执行战术

体坛野秀才
2026-04-28 22:52:12
24小时内,中俄兵分两路,普京接见伊朗外长,特朗普做出巨大让步

24小时内,中俄兵分两路,普京接见伊朗外长,特朗普做出巨大让步

坠入二次元的海洋
2026-04-28 19:50:47
汪涵妻子被爆近况冲上热搜:什么样的“爱”会让人窒息?

汪涵妻子被爆近况冲上热搜:什么样的“爱”会让人窒息?

桌子的生活观
2026-04-28 12:19:53
记住这家叛国的A股上市公司!

记住这家叛国的A股上市公司!

仰望星空的一粒沙子
2026-04-27 16:09:13
售价200万!华为新车震惊行业

售价200万!华为新车震惊行业

李东阳朋友圈
2026-04-28 16:07:38
新华社权威快报|我国自2026年5月1日起对所有非洲建交国实施零关税

新华社权威快报|我国自2026年5月1日起对所有非洲建交国实施零关税

新华社
2026-04-28 18:19:09
丢人现眼!女子老太地铁互殴后续:官方介入,真相曝光,恐将社死

丢人现眼!女子老太地铁互殴后续:官方介入,真相曝光,恐将社死

派大星纪录片
2026-04-28 16:23:41
交警提醒:2026车险新规落地,只买 2 种就够用,一年省下几千块

交警提醒:2026车险新规落地,只买 2 种就够用,一年省下几千块

芳姐侃社会
2026-04-28 00:01:03
17岁男生不当操作导致阴茎骨折,错失早期最佳治疗窗口,延误救治或影响后续功能恢复

17岁男生不当操作导致阴茎骨折,错失早期最佳治疗窗口,延误救治或影响后续功能恢复

观威海
2026-04-28 18:12:05
田亮儿子脖子粗到和头一样,网友集体急劝:快带娃去医院!

田亮儿子脖子粗到和头一样,网友集体急劝:快带娃去医院!

一口娱乐
2026-04-27 18:05:28
特朗普:伊朗希望美国尽快“开放霍尔木兹海峡”

特朗普:伊朗希望美国尽快“开放霍尔木兹海峡”

财联社
2026-04-28 21:37:28
3-0到3-5!赵心童崩盘,不和谐一幕:现场女球迷大喊:“干X他”

3-0到3-5!赵心童崩盘,不和谐一幕:现场女球迷大喊:“干X他”

大秦壁虎白话体育
2026-04-28 21:47:31
西班牙第一季度失业率为10.83%

西班牙第一季度失业率为10.83%

每日经济新闻
2026-04-28 15:10:08
43岁蔡卓妍官宣再婚!嫁给小10岁健身教练,明星好友纷纷祝福

43岁蔡卓妍官宣再婚!嫁给小10岁健身教练,明星好友纷纷祝福

萌神木木
2026-04-28 12:45:29
有人问,若是国民党当年赢了,老蒋统治中国,那中国的未来会如何

有人问,若是国民党当年赢了,老蒋统治中国,那中国的未来会如何

浩渺青史
2026-04-27 17:06:59
王思聪是真颓了?被拍到在洛杉矶,整个人都“垮了”

王思聪是真颓了?被拍到在洛杉矶,整个人都“垮了”

西楼知趣杂谈
2026-04-28 22:09:13
网红白冰,抖音、微博、小红书等账号已被禁止关注!本人出镜道歉,曾说探店不收一分钱,全网粉丝超4000万

网红白冰,抖音、微博、小红书等账号已被禁止关注!本人出镜道歉,曾说探店不收一分钱,全网粉丝超4000万

每日经济新闻
2026-04-28 14:19:14
别人把AI装进汽车肉身,一汽红旗把AI装进汽车灵魂

别人把AI装进汽车肉身,一汽红旗把AI装进汽车灵魂

汽车公社
2026-04-28 08:35:18
感叹祖国强大遭台当局打压,岛内挺“小舰长”说实话

感叹祖国强大遭台当局打压,岛内挺“小舰长”说实话

枢密院十号
2026-04-28 21:31:04
2015年,广东老板舍弃百万年薪,在终南山出家,妻子:愿再无来世

2015年,广东老板舍弃百万年薪,在终南山出家,妻子:愿再无来世

锅锅爱历史
2026-04-28 04:00:10
2026-04-29 01:11:00
薛定谔的BUG
薛定谔的BUG
有态度网友ytd
1850文章数 38关注度
往期回顾 全部

科技要闻

10亿周活目标落空!传OpenAI爆发内部分歧

头条要闻

媒体:台海军退役少校登乌鲁木齐舰 给出的结论很直接

头条要闻

媒体:台海军退役少校登乌鲁木齐舰 给出的结论很直接

体育要闻

魔术黑八活塞,一步之遥?!

娱乐要闻

蔡卓妍官宣结婚,老公比她小10岁

财经要闻

中央政治局会议定调,八大看点速览!

汽车要闻

拒绝疯狂套娃!现代艾尼氪金星长在未来审美点上

态度原创

亲子
手机
本地
数码
公开课

亲子要闻

有一点点近视,到底要不要戴眼镜?

手机要闻

三星裸眼3D屏来了,广告牌能“跳”出来

本地新闻

用青花瓷的方式,打开西溪湿地

数码要闻

机械革命苍龙16 / 18 Pro游戏本RTX 5070 12GB款开启预约

公开课

李玫瑾:为什么性格比能力更重要?

无障碍浏览 进入关怀版