网易首页 > 网易号 > 正文 申请入驻

谷歌那篇论文被翻烂了,87%的AI项目还是死在测试这关

0
分享至


87%的数据科学项目从未进入生产环境。这个数字VentureBeat在2019年报道过,五年后McKinsey 2023年的报告依然在说同一回事——生成式AI(人工智能生成内容) adoption在加速,但大多数组织困在实验阶段出不来。

团队能做出惊艳的demo,老板点头,预算批了。然后项目卡在"我电脑上能跑"和"线上能跑"之间的某个地方,悄无声息地烂尾。

数据质量、模型性能、组织准备度——这些背锅侠年年被拎出来。但有个更根本的问题就摆在眼前:大多数团队根本不知道该怎么测试AI系统,测试的严谨程度远不及传统软件。

他们测了代码,没测智能。

Google 2015年那篇《机器学习系统中隐藏的技术债务》被引用超过4000次,核心观点至今没人真正听进去:ML系统特别容易积累技术债务,因为它继承了传统代码的所有维护问题,还额外叠加了一层ML特有的麻烦。测试缺口是生产故障的主要来源之一。

两套系统,一套测试

生产环境的AI系统其实是两个系统拧在一起:确定性的软件层(API、数据管道、编排逻辑)和非确定性的AI行为层(提示词响应、智能体决策、模型输出)。

工程团队对第一层驾轻就熟。单元测试、集成测试、端到端测试,TDD(测试驱动开发),CI流水线卡住合并——这是成熟的纪律。

但AI层呢?提示词、智能体行为、模型响应——被当成黑盒处理。团队扫几眼输出,"差不多行了",就往下走。没有测试套件,没有回归防护网,不知道某个提示词改动在修复A场景时把B、C、D场景搞崩了。

Google的ML Test Score评分体系把生产就绪度拆成四个维度:数据测试、模型测试、基础设施测试、监控。大多数团队四项全崩。Microsoft Research的研究发现,即便在大厂内部,ML系统的测试实践也显著落后于传统软件。

这就是缺失的测试套件。也是AI项目进不了生产的头号原因。

提示词测试长什么样

如果不会给没单元测试的函数发版,就不该给没测试用例的提示词发版。

提示词测试的结构和传统测试一样:给定输入,断言输出。区别在断言必须容纳非确定性。你不是在检查

```python assert output == "精确字符串" ```

而是在检查

```python assert output.contains("关键信息") assert output.sentiment == "positive" assert output.follows_format(json_schema) ```

这种测试需要新工具。传统断言不够用,得引入语义评估:向量相似度、LLM-as-judge(用大语言模型当裁判)、基于规则的约束检查。输入空间爆炸式增长,得做采样和覆盖分析。模型版本漂移,得建立基线和回归检测。

Anthropic的提示词测试框架把测试分为三层:单元测试(单轮提示词)、集成测试(多轮对话)、端到端测试(完整工作流)。每层都有对应的评估指标和失败阈值。这不是纸上谈兵,是他们内部跑Claude(大语言模型)生产线的实际做法。

LangChain的LangSmith、Weights & Biases的Prompts、HoneyHive这些工具都在试图填这个坑。但工具只是工具,问题在意识——大多数团队还没意识到这是一个需要专门解决的工程问题。

为什么这事这么难

测试传统软件,输入输出是确定的。测试AI系统,同一提示词给同一个模型,温度参数(temperature)不为零时,两次输出可能不一样。这违反了测试的基本假设:可重复性。

更麻烦的是评估什么。传统软件的功能需求写得清楚:用户点击按钮,订单状态变"已支付"。AI系统的"正确"是模糊的:这个摘要够好吗?这个回答有帮助吗?这个代码建议安全吗?

所以需要把模糊的"好"拆成可测量的维度。RAG(检索增强生成)系统测检索准确率、答案相关性、幻觉率。Agent(智能体)系统测任务完成率、步骤效率、工具调用正确性。每个维度要有数据集、要有基线、要有自动化的回归检测。

Google的ML Test Score paper里有个细节:他们建议把测试分为"小到能跑完"和"大到能发现问题"两类。小测试快速反馈,大测试 nightly跑。这和传统软件的分层测试策略一致,但执行起来难得多——因为"大测试"需要标注数据,而标注数据是AI项目里最贵的环节之一。

一些正在发生的改变

2023年开始,这个缺口在收窄。不是因为有银弹,而是因为生产事故够多了。

Stripe的AI团队公开分享过他们的测试策略:每个提示词改动必须通过"对抗性测试集"——专门构造的边界案例,包括注入攻击、歧义输入、长上下文压力测试。这套测试集随着线上bad case(坏案例)持续扩充,形成回归防护。

OpenAI的Evals开源框架提供了一种结构化方式:定义数据集、运行模型、打分、对比基线。这本来是给模型开发者用的,越来越多团队拿它来测自己的提示词工程。

更激进的团队在搞"提示词版本控制+CI/CD"。把提示词当代码管,PR(Pull Request,代码合并请求)触发自动化评估,分数掉超过阈值就阻断合并。这要求测试够快、够稳定、够全面——目前只有头部团队能跑通。

但方向是清楚的。AI工程正在从"炼丹"往"工程化"走,测试是这条路上的必修课。

那个87%的死亡率会降下来吗?取决于多少团队愿意把提示词测试从"有空再做"挪到"发版必做"。

你现在是怎么测提示词的—— eyeball,还是有套自动化流程在跑?

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
郑丽文行程安排费心思,首访南京却落地上海,临行前透露原因

郑丽文行程安排费心思,首访南京却落地上海,临行前透露原因

TVB的四小花
2026-04-02 09:30:55
陈光标赠张雪劳斯莱斯骑虎难下,想私了热度太高,二手车商已盯上

陈光标赠张雪劳斯莱斯骑虎难下,想私了热度太高,二手车商已盯上

小怪吃美食
2026-04-03 04:56:08
特大喜讯!郎平回归执教尘埃落定,蔡斌弃用朱婷真相曝光!

特大喜讯!郎平回归执教尘埃落定,蔡斌弃用朱婷真相曝光!

拳击时空
2026-04-03 05:44:16
伊朗回应特朗普宣布“胜利”:纯属胡言乱语,伊朗的导弹能力日益增强,浓缩铀安然无恙,霍尔木兹海峡也仍在伊朗的控制之下

伊朗回应特朗普宣布“胜利”:纯属胡言乱语,伊朗的导弹能力日益增强,浓缩铀安然无恙,霍尔木兹海峡也仍在伊朗的控制之下

极目新闻
2026-04-03 08:00:00
蔡正元入狱第三天,大陆正式发布公告,信号明确,郑丽文或成功臣

蔡正元入狱第三天,大陆正式发布公告,信号明确,郑丽文或成功臣

流史岁月
2026-04-02 13:10:03
惊人的两倍电力鸿沟,让所有制裁成了笑话

惊人的两倍电力鸿沟,让所有制裁成了笑话

李荣茂
2026-01-20 08:45:13
突发!伊朗10分钟5波导弹袭击以色列!特朗普开出停火条件,万斯强力施压谈判“中间人”:总统已经“不耐烦了”

突发!伊朗10分钟5波导弹袭击以色列!特朗普开出停火条件,万斯强力施压谈判“中间人”:总统已经“不耐烦了”

每日经济新闻
2026-04-02 00:38:12
震惊!加拿大航空CEO被迫下台,只因学了14年法语,还是只会bonjour!

震惊!加拿大航空CEO被迫下台,只因学了14年法语,还是只会bonjour!

新欧洲
2026-04-02 19:24:33
沦为共享单车的女色虎

沦为共享单车的女色虎

深度报
2026-03-05 22:39:27
东体:蒋光太已经回到上海进行康复,刘若钒接近能踢比赛

东体:蒋光太已经回到上海进行康复,刘若钒接近能踢比赛

懂球帝
2026-04-03 11:44:18
比塔泽害人不浅!兰代尔被他拉倒造成脚踝高位扭伤:至少缺阵两周

比塔泽害人不浅!兰代尔被他拉倒造成脚踝高位扭伤:至少缺阵两周

罗说NBA
2026-04-03 05:56:30
奔着杨瀚森来的!收购者计划让开拓者成为亚洲球队,邓顿成X因素

奔着杨瀚森来的!收购者计划让开拓者成为亚洲球队,邓顿成X因素

你的篮球频道
2026-04-03 07:33:03
为啥中南海至今不挂“中央人民政府”牌子?取而代之的是一句口号

为啥中南海至今不挂“中央人民政府”牌子?取而代之的是一句口号

史之铭
2026-04-01 16:50:21
心理学史上最残忍实验:决定孩子一生的3个变量,缺一个,三代人都还不完

心理学史上最残忍实验:决定孩子一生的3个变量,缺一个,三代人都还不完

阅读第一
2026-03-17 08:34:11
官方通报江西一医院解聘全体职工

官方通报江西一医院解聘全体职工

界面新闻
2026-04-02 13:12:42
70名女子婚纱事件后续:证据曝光退货遭拒反欠50万

70名女子婚纱事件后续:证据曝光退货遭拒反欠50万

领悟看世界
2026-04-03 00:50:33
豪阵沦为笑柄,高薪引援翻车 四大弊病撕开北京男篮管理混乱遮羞布

豪阵沦为笑柄,高薪引援翻车 四大弊病撕开北京男篮管理混乱遮羞布

梦忆之浅
2026-04-03 00:09:24
这3个信号,说明你今天不适合高强度运动

这3个信号,说明你今天不适合高强度运动

Keep
2026-03-31 20:33:39
航运数据显示:委内瑞拉3月石油日出口量突破100万桶大关 为六个月来首次

航运数据显示:委内瑞拉3月石油日出口量突破100万桶大关 为六个月来首次

财联社
2026-04-02 17:04:07
中国科协就2026年NeurIPS会议再发声明 ,道歉并不能获得原谅

中国科协就2026年NeurIPS会议再发声明 ,道歉并不能获得原谅

混沌录
2026-04-01 20:37:11
2026-04-03 12:55:00
赛博兰博
赛博兰博
专注捣鼓AI效率工具,试图在这个时代留下数字分身的探索者。
756文章数 6关注度
往期回顾 全部

科技要闻

5万辆库存车,给了特斯拉一记重拳

头条要闻

牛弹琴:美国干了一件令人发指的事 全世界都无法接受

头条要闻

牛弹琴:美国干了一件令人发指的事 全世界都无法接受

体育要闻

冲击世界杯失败,80岁老帅一气之下病倒了

娱乐要闻

《浪姐7》最新人气TOP 曾沛慈断层第一

财经要闻

专家称长期摄入“飘香剂”存在健康隐患

汽车要闻

你介意和远房亲戚长得很像吗?

态度原创

本地
数码
教育
手机
公开课

本地新闻

跟着歌声游安徽,听古村回响

数码要闻

英伟达RTX 3060等显卡遭遇新型“锤击”威胁,黑客可接管你的电脑

教育要闻

高考志愿不要比着分数填,给大家看个例子,如何把一把好牌打烂的

手机要闻

vivo X300s手机开售:天玑9500、蔡司2亿主摄,4999元起

公开课

李玫瑾:为什么性格比能力更重要?

无障碍浏览 进入关怀版