上个月我们上线了一个摘要功能。我写了覆盖所有场景的测试用例——输入进去,期待输出出来,断言关键词必须出现。标准流程,十年老本行。三周后,一个用户反馈说,AI生成的摘要比我测试里写的"正确答案"还要好。
模型在我部署之后自己进化了。我的测试不知道这件事。它还在用三个月前的平庸答案当标准答案。
「同样的提示词跑三遍,三个回答都对,但三个都不一样。」这是我同事花了四天调试"失败"测试之后的原话。四天。追着AI的改进当bug修。传统测试假设确定性:输入A永远等于输出B。AI测试面对的是一团活的概率云——温度参数、模型版本、系统提示词,任何一个变量都能让结果漂移。
我们试过退而求其次:不断言具体内容,只检查结构。有没有摘要?字数超没超200?关键词在不在?直到一次边缘案例——AI在负面语境里提到了产品名,测试绿了,用户炸了。关键词在,意思反了。自然语言不是正则表达式能搞定的。
现在我们的测试文件里飘着一行TODO:「等模型稳定了再补全。」问题是,模型永远不会稳定。
特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.