![]()
大模型应用遍地开花,但测试环节还是一团乱麻。OpenAI前员工Jason Wei在最新博客里直言,这是整个技术栈里最脆弱的一环,而大多数人还在用"直觉"当测试策略。
Jason Wei是谁?他是思维链(Chain-of-Thought)论文的核心作者,现在Anthropic做研究。他从GPT-2时代就开始搞模型测试,见过太多团队踩坑。「我见过太多团队用"感觉对了"当测试标准,结果上线就翻车。」
问题出在哪?LLM输出天然不确定,同样输入可能给出不同答案。传统软件测试那套"输入A必输出B"的逻辑,在这里直接失效。更麻烦的是,很多团队把" vibe check"(氛围检查)当成正经测试——看一眼输出觉得没问题,就敢推上线。
Jason Wei举了个扎心的类比:这就像是蒙着眼睛开车,偶尔听到没撞墙的声音,就以为自己在正轨上。他见过有团队花了三个月做提示工程,测试环节却只写了20个样例,结果用户一涌入,边界案例全炸。
他给出的解法不算新鲜,但执行者寥寥:把测试当成产品功能来迭代,建立可量化的评估指标,用真实用户数据持续校准。说白了,别再用"我觉得"当护城河。
文末他贴了一张截图——某团队内部测试文档,标题写着"Final_Final_EVAL_v3_REAL",修改日期是昨天。
特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.