![]()
去年一家能源公司的测试团队把AI接入流水线后,缺陷逃逸率反而涨了23%。他们以为买了加速器,结果是装了涡轮增压的翻车机。
这不是孤例。软件行业正在集体陷入一种危险的幻觉:用上AI,质量会自动变好。数据正在打脸——AI确实能让团队"自信地犯错"的速度提升一个数量级,而这对复杂工业软件来说是致命的。
绿灯陷阱:为什么"全通过"可能是假的
大多数团队判断质量的方式像体检只看心率:测试全绿、流水线干净、没崩溃。指标健康,人就放松。
但在能源、工程、仿真这类领域,软件运行稳定和它运行正确是两回事。一个仿真系统可以每次输出相同结果,却从头到尾算错了物理参数;一个决策支持工具可以零崩溃运行,却给工程师推荐会炸锅炉的方案。
最危险的缺陷从不大张旗鼓。它们穿着"有效输出"的外衣,混在正常结果里。
AI在这个环节的角色很微妙。它擅长处理显性信息:把模糊需求翻译成测试用例、补全边界条件、重写垃圾Bug描述、生成探索式测试章程。对大型系统里的手工测试人员,AI像个思维加速器。
但加速器有个盲区——它只能加速你已经能看见的东西。需求本身错了?业务规则有 subtle 的漏洞?工程假设脱离现实?AI不会报警,它只会帮你更快地把这些错误执行一遍。
自信地错:AI放大的是什么
技术正确性和业务正确性的鸿沟,在简单应用里可能被掩盖,在复杂系统里就是深渊。
我见过一个案例:某运营规划软件的AI辅助测试套件跑了三个月,全部通过。上线后用户发现,系统在特定季节组合下会推荐"用负成本采购"——数学上自洽,商业上荒谬。测试脚本检查的是公式有没有算错,没检查公式该不该这么算。
这就是"自信地错"的典型形态。AI没有帮你发现盲区,它让你的盲区覆盖了更多代码。
原文作者James Bach和Michael Bolton在《Rapid Software Testing》里提过这个概念:测试的核心不是验证"系统是否按设计工作",而是调查"系统是否以对我们重要的方式工作"。AI擅长前者,对后者几乎无能为力。
![]()
具体表现有三层:
第一层,需求污染。AI生成的测试用例再漂亮,也是基于输入材料。如果需求文档本身漏了关键约束,AI会帮你把漏洞执行得更彻底。一个能源调度系统漏了"极端天气下的电网孤岛保护",AI不会补这个常识,它只会生成200条没覆盖这个场景的"高覆盖率"用例。
第二层,现实扭曲。工程软件里大量依赖领域假设:材料强度系数、流体简化模型、经济预测基准。这些假设在文档里可能是"行业惯例",在现实中可能是五年前的过时数据。AI不会质疑假设,它会帮你把过时假设翻译成更优雅的测试断言。
第三层,输出幻觉。最隐蔽的——系统输出技术上有效,操作上误导。一个成本估算工具返回"项目ROI 15%",计算过程没错,但隐藏前提是"原材料价格维持2021年水平"。AI辅助的断言检查会验证15%算得准不准,不会问这个前提现在有多离谱。
好测试员的不可替代性:在AI盲区里打猎
所以问题变成:AI时代,什么样的测试员更值钱?
不是会用AI的——这门槛正在归零。是能在AI盲区里持续找到猎物的。
原文举了几个关键能力,我翻译成国内团队能落地的:
第一,"这需求有问题"的嗅觉。 好测试员读需求时会问:这个业务规则有没有反例?这个计算逻辑在边界条件下物理上成立吗?AI可以帮你格式化这些问题,但提出问题的冲动必须来自人。一个资深测试员在评审能源系统需求时,会本能地追问"如果风电出力骤降30%,这个调度算法的响应时间够吗"——这种领域直觉是AI的训练数据覆盖不到的上下文。
第二,"用户不会这么用"的想象力。 探索式测试的核心是构造"合理但意外"的场景。AI能基于历史数据生成变异,但真正的创新破坏来自对业务痛点的理解。一个测试过三代制造执行系统的老手,知道计划员在月底赶工时真的会手动改数据库——这种"用户会作弊"的洞察,不会出现在任何训练语料里。
第三,"这个数字感觉不对"的警觉。 复杂系统的输出验证不能只靠比对。好测试员会对"过于完美"的结果起疑:这个仿真收敛速度比同类快一个数量级,是算法突破还是单位搞错了?AI可以帮你画趋势图,但"这曲线漂亮得可疑"的判断需要领域经验。
第四,"我们测错了东西"的元认知。 最狠的能力——质疑测试策略本身。当AI让生成用例变得 trivial,测试员的价值转向决定"哪些东西根本不该测,哪些必须人工盯"。一个团队把80%精力花在UI自动化上,可能漏掉的是核心算法在极端输入下的数值稳定性。这种战略级的盲区识别,是AI的架构外任务。
AI作为镜子:照出的是谁的短板
![]()
换个角度,AI可能是测试行业最好的照妖镜。
那些用上AI后质量提升的团队,通常原本就有扎实的测试文化:需求评审严格、探索式测试常态化、缺陷根因分析到位。AI给他们的是杠杆,放大的是既有能力。
而那些翻车更狠的团队,问题早在AI介入前就存在:测试用例和需求文档互相抄袭、自动化脚本只覆盖 happy path、生产事故复盘流于形式。AI只是让这些问题暴露得更快、更壮观。
原文作者提了一个尖锐的观察:AI不会取代好测试员,但会加速暴露弱测试。这个"弱"不是个人能力差,是整个测试体系 shallow——把测试当成验证而非调查,当成成本中心而非风险探测器,当成可以外包的流水线环节而非需要深度 domain 知识的认知劳动。
国内某头部云厂商的测试负责人跟我聊过,他们去年裁了30%的"用例执行人员",同时给剩下的测试架构师涨了40%。不是人少了,是人变了——从"跑脚本"转向"设计测试策略、分析风险模式、训练AI辅助工具"。
这个转变的残酷在于:它奖励的是那些本来就在做"好测试"的人,惩罚的是把测试当体力活的团队。AI没有创造新的不平等,它只是让原有的差距变得无法掩盖。
实用建议:怎么让AI成为杠杆而非陷阱
如果你正在或打算把AI引入测试流程,几条从原文和实践中提炼的 checklist:
1. 先审计你的测试基础,再上AI。 如果现在的测试用例和需求文档是互相复制的,AI会让这个循环转得更快。先解决"测的是什么"的问题,再解决"怎么测更快"。
2. 把AI用在"加速思考"而非"替代思考"的场景。 生成测试想法、整理模糊信息、翻译技术文档——这些是人慢机器快的环节。生成断言、判断输出合理性、决定测试优先级——这些需要人把关。
3. 保留"人工怀疑"的环节。 无论AI辅助到什么程度,关键输出的评审必须有人签字。签字的标准不是"AI说没问题",而是"我理解这个输出在什么条件下会失效"。
4. 投资领域知识,而非工具链。 测试能源系统和测试电商下单,用的可能是同一套AI工具,但值钱的是知道"电网频率偏差超过0.5Hz意味着什么"的人。工具会贬值,domain 知识不会。
5. 用生产事故反向训练测试策略。 每次线上问题,问的不是"为什么没测到",而是"我们的测试设计里,有没有可能发现这类问题的机制"。如果没有,补的是测试思维,不是用例数量。
最后说一个细节。原文结尾提到,作者最近在一个工程软件团队观察到:引入AI辅助测试三个月后,团队发现的"有意思的问题"比例上升了,但"确信这是缺陷"的比例下降了。测试员花更多时间在调查模糊地带,而不是验证已知假设。
这大概是AI能给测试最好的礼物——把人类从"检查对不对"解放出来,去做"怀疑值不值得"。前提是,你的团队准备好接受这种不确定性了吗?
特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.