网易首页

注册免费邮箱

网易首页 > 网易号 > 正文申请入驻

AI测试员集体破防：模型偷偷变聪明，反而把测试搞崩了

2026-04-06 19:50:45　来源: 碳基打工人

北京举报

0

分享至

上个月我们上线了一个摘要功能。我写了覆盖所有场景的测试用例——输入进去，期待输出出来，断言关键词必须出现。标准流程，十年老本行。三周后，一个用户反馈说，AI生成的摘要比我测试里写的"正确答案"还要好。

模型在我部署之后自己进化了。我的测试不知道这件事。它还在用三个月前的平庸答案当标准答案。

「同样的提示词跑三遍，三个回答都对，但三个都不一样。」这是我同事花了四天调试"失败"测试之后的原话。四天。追着AI的改进当bug修。传统测试假设确定性：输入A永远等于输出B。AI测试面对的是一团活的概率云——温度参数、模型版本、系统提示词，任何一个变量都能让结果漂移。

我们试过退而求其次：不断言具体内容，只检查结构。有没有摘要？字数超没超200？关键词在不在？直到一次边缘案例——AI在负面语境里提到了产品名，测试绿了，用户炸了。关键词在，意思反了。自然语言不是正则表达式能搞定的。

现在我们的测试文件里飘着一行TODO：「等模型稳定了再补全。」问题是，模型永远不会稳定。

特别声明：以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布，本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐

热点推荐

Karpathy知识库「LLM Wiki」火爆了，全网围观讨论

机器之心Pro 2026-04-07 11:08:13
0 跟贴 0
SIGGRAPH Asia 2025 | 让3D场景生成像「写代码」一样灵活可控

机器之心Pro 2025-11-14 19:18:57
0 跟贴 0

你刷到的视频是真的么？用物理规律拆穿Sora谎言

机器之心Pro 2025-11-05 16:27:02
0 跟贴 0

告别昂贵账单，Token直降68%，多智能体动态协作编程来了

机器之心Pro 2026-04-07 13:16:40
0 跟贴 0
烧Token成KPI，8.5万Meta员工狂刷60万亿Token，争榜一大哥

机器之心Pro 2026-04-07 13:24:24
0 跟贴 0

AI学会左脚踩右脚自进化？Meta华人新研究改写Agent法则

新智元 2026-04-06 12:42:55
0 跟贴 0

7个顶级AI集体撒谎，为救“同伴”篡改文件、偷运数据

钛媒体APP 2026-04-07 11:01:25
0 跟贴 0
模仿学习如何赋能灵巧操作？这有一份「2021-2025」全景技术图谱

机器之心Pro 2026-04-07 13:23:01
0 跟贴 0

机车女骑手丝滑漂移，就这一手上下车，98%的男骑手都做不到！

途不拉旅行家 2026-04-06 08:58:10
139 跟贴 139
男子开摩托艇带姐弟俩玩“漂移”，结果不小心给他俩甩了下去

南阳日报 2026-04-06 14:16:59
0 跟贴 0
极限遥控车挑战，难度越来越高各位大哥一起漂移起来

小雯讲废话 2026-04-03 15:20:31
5 跟贴 5
女生分享洛杉矶实录只有亲眼看才知多疯狂路口漂移烟花堪比GTA

荆门晚报 2026-04-04 15:39:56
0 跟贴 0
国外救护车弯道漂移，患者家属直接被甩出车外，现场画面被曝光！

小妖看剧 2026-04-07 08:27:21
1 跟贴 1
易中天，获奖励20万元

极目新闻 2026-04-06 21:04:19
17448 跟贴 17448
河南小伙，被中东大佬下300辆战车模型，全村都上了！

乘风笑浪 2026-04-06 14:56:09
3 跟贴 3
046中考数学真题，求一个令分数表达式为整数的参数值，整除问题

我服子佩 2026-04-06 13:39:49
1 跟贴 1
几秒钟就完成了百万年的进化

俄罗斯安娜 2026-04-06 01:55:44
0 跟贴 0
人类只用百万年就进化出智慧文明，为何恐龙上亿年都没做到？

宇宙时空 2026-04-05 14:30:27
2 跟贴 2
华为推出软工代码智能体SWE-Lego，解锁SFT训练极致性能

机器之心Pro 2026-01-13 14:54:45
0 跟贴 0
050中考数学真题，给定变量之和，求一个高次幂表达式的值

我服子佩 2026-04-06 14:15:17
1 跟贴 1
3 张底牌让美破防：中东激战竟成中国主场，西方却学不会？

眼界看视野 2026-04-07 09:59:37
0 跟贴 0
火车上拍到的一幕，两个女人拿着秘密文件，去蹲着研究去了

房东生活看看 2026-04-04 13:55:39
0 跟贴 0
由于人类的贪婪，部分动物开始反向进化，这是生物大灭绝征兆？

阿鲲作曲 2026-04-04 01:31:40
0 跟贴 0
毛新宇携家人到杨开慧烈士陵园祭扫

政知新媒体 2026-04-05 08:48:13
2610 跟贴 2610
iPhone本地跑Gemma 4火了，0 token时代还有多远？

机器之心Pro 2026-04-07 10:52:08
0 跟贴 0
普通人的家有多干净？看了这5位网友的家，我破防了，真羡慕！

家居设计师苏哥 2026-04-07 11:11:24
1 跟贴 1
紫牛头条｜对话张雪师父“牙哥：赛车梦想托付张雪，我的梦想是为中国飞机出份力

扬子晚报 2026-04-06 22:26:58
144 跟贴 144
《生化危机：维罗妮卡》重制版新爆料 RE引擎再进化

3DM游戏 2026-04-07 06:53:03
22 跟贴 22
堵！堵！堵！排队26公里

无锡博报 2026-04-06 18:07:47
279 跟贴 279
赵心童创“三冠”新纪录，英媒直呼：其统治力“令对手胆寒”

环球网资讯 2026-04-07 06:56:17
95 跟贴 95
徐州“公厕版瑞幸”火出圈，景区工作人员回应：曾是游客服务点而非公厕

现代快报 2026-04-04 15:00:11
1205 跟贴 1205
苹果首款折叠屏手机已在试产

财联社 2026-04-06 14:56:21
3902 跟贴 3902
知名连锁餐饮门口宣传板写“3元自助早餐”，两人买单45元被告知“仅粥饮自助”

新闻晨报随申Hi 2026-04-02 18:36:05
895 跟贴 895
5万赞助张雪？东鹏特饮独家回应

中国新闻周刊 2026-04-06 17:14:54
1 跟贴 1
PMDformer：一个简单减法实现长时序预测注意力机制纠偏

机器之心Pro 2026-04-07 13:31:21
0 跟贴 0
不止055！神秘水泥模型曝光，中国2万吨巨舰要来了？

因果 2026-04-06 20:39:40
0 跟贴 0
《38号文件升级退休金，你领够了吗？速看！》

貊语柳 2026-04-06 11:49:37
1 跟贴 1
当地文旅否认施压爆火鸡煲店开门营业:已提供支持措施

杭州日报 2026-04-06 16:55:15
576 跟贴 576
风筝-交通员叛变，竟带着机密文件投诚，看郑耀先如何应对

龙耀影视 2026-04-07 08:15:51
1 跟贴 1
广州越秀白云或现严重回南天！近期全省雨雾频繁空气湿度偏高

南方都市报 2026-04-07 10:20:10
7 跟贴 7

NCAA决赛：密歇根灭康大时隔37年第2冠康大7进决赛首次丢冠

NCAA决赛：密歇根灭康大时隔37年第2冠康大7进决赛首次丢冠

醉卧浮生

2026-04-07 11:20:57

沉默即生存！美国黑科技，救了失踪飞行员一条命

沉默即生存！美国黑科技，救了失踪飞行员一条命

深度报

2026-04-06 22:11:52

卡斯尔19+11+13马刺战胜76人收获60胜，文班亚马17分伤退

卡斯尔19+11+13马刺战胜76人收获60胜，文班亚马17分伤退

湖人崛起

2026-04-07 10:32:12

以官员称内塔尼亚胡在与特朗普通话时警告美方勿仓促停火

以官员称内塔尼亚胡在与特朗普通话时警告美方勿仓促停火

国际在线

2026-04-07 07:13:04

老宣传画里的坚决解放台湾拯救苦难中的台湾人民

老宣传画里的坚决解放台湾拯救苦难中的台湾人民

那些看得见的老照片

2026-04-07 07:00:05

易中天，获奖励20万元

极目新闻

2026-04-06 21:04:19

雨的父亲叫什么？盐城一图书馆被指“涉黄”

雨的父亲叫什么？盐城一图书馆被指“涉黄”

盐城123网

2026-04-06 11:05:54

太悲伤！网传江苏一22岁女生刚毕业工作已定，突发主动脉夹层去世

太悲伤！网传江苏一22岁女生刚毕业工作已定，突发主动脉夹层去世

火山詩话

2026-04-07 09:37:00

张雪的妈妈是作家何琼，毕业于厦门大学，曾贷款55万支持张雪创业

张雪的妈妈是作家何琼，毕业于厦门大学，曾贷款55万支持张雪创业

汉史趣闻

2026-04-07 08:45:15

11年前优衣库男女主现状曝光，他们还在一起生了两个孩子

11年前优衣库男女主现状曝光，他们还在一起生了两个孩子

半糖甜而不腻

2026-04-06 12:09:15

快讯！沙特传来新消息！

达文西看世界

2026-04-07 11:32:34

男子清明扫墓，在祖坟旁意外发现近百枚鸭蛋，冷先生笑称“感谢太奶”，一行9人，每人分了10个

男子清明扫墓，在祖坟旁意外发现近百枚鸭蛋，冷先生笑称“感谢太奶”，一行9人，每人分了10个

观威海

2026-04-07 10:59:07

受贿数额特别巨大，四川省原副省长叶寒冰被提起公诉

受贿数额特别巨大，四川省原副省长叶寒冰被提起公诉

界面新闻

2026-04-07 10:02:03

美国飞行员逃跑路线曝光，附近有山，耕地，城镇，多山地形救了他

美国飞行员逃跑路线曝光，附近有山，耕地，城镇，多山地形救了他

魔都姐姐杂谈

2026-04-06 17:02:35

安庆6岁失联女童确认遇害，35岁犯罪嫌疑人柳某某归案；女童父亲不愿多言，镇政府工作人员：一直在安抚家属情绪

安庆6岁失联女童确认遇害，35岁犯罪嫌疑人柳某某归案；女童父亲不愿多言，镇政府工作人员：一直在安抚家属情绪

极目新闻

2026-04-07 09:04:35

原来她就是王楚钦母亲，怪不得会成为世界冠军，18岁家书令人动容

原来她就是王楚钦母亲，怪不得会成为世界冠军，18岁家书令人动容

阿纂看事

2026-04-06 19:58:38

痛心！安徽失踪6岁女孩，已遇害，凶手是熟人，正脸照曝光

痛心！安徽失踪6岁女孩，已遇害，凶手是熟人，正脸照曝光

魔都姐姐杂谈

2026-04-07 04:25:35

“还真把自己当盘菜了”，北京职高女被全网嘲笑，含金量0人买单

“还真把自己当盘菜了”，北京职高女被全网嘲笑，含金量0人买单

妍妍教育日记

2026-04-06 09:15:12

陈丽华逝世，曾登顶中国女首富；谈女性创业，称“要打破胆量，加班有加班费，不拖欠工人一分钱”；其丈夫迟重瑞系唐僧扮演者

陈丽华逝世，曾登顶中国女首富；谈女性创业，称“要打破胆量，加班有加班费，不拖欠工人一分钱”；其丈夫迟重瑞系唐僧扮演者

扬子晚报

2026-04-07 12:06:22

美方扶持的4位中国富豪开始露头了：在华疯狂捞金，扭头捐给美国

美方扶持的4位中国富豪开始露头了：在华疯狂捞金，扭头捐给美国

攒一兜星星

2026-04-07 02:38:35

碳基打工人

坐标北京，靠咖啡续命，靠小红书下饭的普通人类。

914文章数 6关注度

往期回顾全部

科技要闻

满嘴谎言！OpenAI奥特曼黑料大起底

头条要闻

陈丽华47岁倒追迟重瑞财富传承披露：1儿2女均在富华

头条要闻

陈丽华47岁倒追迟重瑞财富传承披露：1儿2女均在富华

体育要闻

官宣签约“AI球员”，这支球队被骂惨了...

娱乐要闻

张艺上浪姐惹争议黄景瑜前妻发文内涵

财经要闻

2026年，全国租房市场还有波降价潮

汽车要闻

广汽电池独立战，背后的产业链博弈

态度原创

+arrTaiduYuanC[i].tag+' | '+arrTaiduYuanC[i].title+'
\

游戏

房产

本地

家居

军事航空

PS6真要2027年发售了?AMD重大爆料芯片验证已启动

房产要闻

小阳春全面启动！现房，才是这波行情里最稳的上车票

本地新闻

跟着歌声游安徽，听古村回响

家居要闻

雅致惬意感知生活之美

军事要闻

美军营救飞行员出动155架飞机

© 1997-2026 网易公司版权所有 About NetEase | 公司简介 | 联系方法 | 招聘信息 | 客户服务 | 隐私政策 | 不良信息举报 Complaint Center | 廉正举报 | 侵权投诉

无障碍浏览进入关怀版