网易首页 > 网易号 > 正文 申请入驻

Anthropic把测试写进5步:QA团队发现后集体算了一笔账

0
分享至


一个QA工程师写完整套注册页测试要多久?4小时是保守估计,2小时是资深选手的极限操作。Anthropic最新放出的Agentic QA工作流,把这个数字压到了5分钟——从提示词到通过测试,全程零人工干预。

这不是Demo炫技。他们公开了完整的技术栈:CLAUDE.md规则引擎、技能文件(Skill Files)、Playwright浏览器工具,三层架构环环相扣。我看完第一反应是:这哪是AI写测试,这是把QA工程师的脑回路给数字化了。

第一步:读规则,比新人入职培训还快

Agent启动后的第一个动作是打开CLAUDE.md。这个文件里藏着项目的「宪法」:强制规则、工作流、需要加载的技能清单。针对注册页测试任务,Agent自动勾选了5项技能:playwright-cli、selectors、page-objects、test-standards、data-strategy。

人类新人入职,光熟悉这些规范就得半天。Agent的读取时间是——我数了一下原文的描述节奏——基本等于文件打开的瞬间。规则不再是文档,变成了可执行的配置。

这里有个细节值得玩味。CLAUDE.md里写的不是「写个好测试」,而是具体到「Page Object Model怎么分层」「locator getter和action method的区别」「组件如何组合进page object」。颗粒度细到能直接落地,这是大多数团队的文档做不到的。

第二步:探应用,DOM结构秒变结构化数据

Agent通过playwright-cli向浏览器发出指令:「访问/register,列出所有表单字段、按钮、标题和验证信息。」返回的结果是一份机器直接能读的清单:

标题:"Create your account"(role: heading, level: 1)

必填字段:First name、Last name、Email address、Password、Confirm password

密码框带占位提示:"At least 8 characters"

主按钮:"Create account"

辅助链接:"Already have an account? Sign in"

人类做同样的事需要打开DevTools、逐元素检查、复制selector、整理成文档。Agent的「观察」是结构化的、可消费的、直接能进代码的。原文里用了「Discovery result」这个词,很准确——这不是浏览,是勘探。

我注意到一个设计巧思:Agent被要求同时抓取「role、label、placeholder」等多维属性。这意味着它拿到的不是裸DOM,而是带语义标签的地图。可访问性(Accessibility)属性在这里成了机器理解的桥梁,一举两得。

第三步:抄作业,现有代码库就是最佳教材

Agent接下来做了件很「人类」的事:它去翻了pages/app/和test-data/factories/app/,看前辈们怎么写的。Page object怎么分层?Factory用什么格式?Fixture怎么注入?

这一步解决了AI写代码的千古难题——风格一致性。没有这一步,Agent生成的代码会像外包团队交的活:能跑,但和现有 codebase 格格不入。有了这一步,它写的是「我们项目的代码」,不是「AI生成的代码」。

原文在这里留了个悬念,第四步和第五步的内容被截断了。但从已披露的信息推断,完整的流程应该是:生成page object → 创建user factory → 组装fixture → 编写smoke test → 覆盖validation error的回归测试。

传统流程里,这几步环环相扣,一步错步步错。Agent的优势在于上下文不丢失:它记得CLAUDE.md的规则、记得刚才探到的DOM结构、记得现有代码的模式,三股信息流在同一个上下文窗口里碰撞。

算账时刻:4小时 vs 5分钟,省下的时间去哪了?

原文列出的「Before agentic QA」清单很扎心:Inspecting the DOM, writing locators, setting up factories, wiring fixtures, writing tests, debugging failures。6个环节,每个都是时间黑洞。

Agent的输入只有一句话:"The app has a new user registration page at /register. Create a page object, a user factory, a smoke test, and regression tests for validation errors."

我算了笔账。假设一个迭代周期有20个类似的功能点需要测试覆盖,传统模式需要80小时(2人周),Agentic模式需要100分钟。省下的时间如果投入探索性测试、性能压测、安全扫描,QA团队的价值主张会完全变样。

但原文也埋了伏笔:「an agent is only as good as the instructions it follows」。这句话出现在第二篇的结尾,像一句警告。5分钟的奇迹背后,是CLAUDE.md的精心编写、技能文件的领域沉淀、Playwright工具的原子化设计。没有这些基建,Agent就是另一个会胡写的Copilot。

技术栈拆解:三层架构各自扛什么

把五篇文章串起来看,Anthropic搭的是个三层系统:

底层:项目脚手架(Project Scaffold)——给AI设计的目录结构,让Agent知道去哪找什么。

中间层:规则与技能(CLAUDE.md + Skill Files)——规则定边界,技能填内容。「用Page Object Model」是规则,「page object具体怎么写」是技能。

上层:感知与执行(Browser Tool + Agent Loop)——让Agent能看见应用、能操作浏览器、能验证结果。

这个分层很产品经理思维。每一层解决一个明确的问题,层与层之间接口清晰。换团队、换技术栈,可以只换技能文件层,骨架不动。

原文有个类比让我印象很深:「a good structure only gets you so far if the AI is just a code suggester」。代码建议器(Code Suggester)和代理(Agent)的区别,就像导航App和自动驾驶——前者告诉你怎么走,后者直接踩油门。

一个被忽略的细节:调试去哪了?

传统测试开发里,写代码占3成时间,调试占7成。Agentic QA的原文几乎没提调试环节,这是刻意省略还是真的不需要?

从披露的信息推测,调试被前置到了「探索应用」和「检查现有模式」两步。Agent在写第一行代码前,已经确认了DOM结构、确认了代码风格、确认了规则边界。人类调试是因为「不知道会出什么问题」,Agent的确定性来自「先探后写」。

但这有个前提:被测应用是稳定的。如果注册页还在频繁改版,Agent的「勘探」结果可能很快过期。原文没覆盖这个场景,可能是五篇文章的篇幅限制,也可能是留给读者的思考题。

另一个开放问题是验证策略。Agent写的测试,谁来验证它测对了?原文的标题叫「From Prompt to Passing Test」,暗示测试最终是通过状态。但「通过」不等于「有效」,这是QA领域的老生常谈。Anthropic是否设计了元测试(Test for the test),第五篇之后的内容值得期待。

技术债的角度也值得玩味。Agent生成的测试代码,未来由谁维护?如果下一个人类QA接手,他能读懂AI的写法吗?原文强调Agent会「抄现有模式」,这降低了认知门槛,但长期看,团队可能需要建立「AI生成代码」的审查规范。

回到开头那个4小时vs5分钟的对比。数字很刺激,但真正的问题或许是:当机械劳动被压缩到极限,QA工程师的专业价值该如何重新定义?

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
迟迟等不到中企复工,巴拿马强援出山!已正式介入?中方要警惕

迟迟等不到中企复工,巴拿马强援出山!已正式介入?中方要警惕

纪中百大事
2026-03-27 09:55:39
美伊一战,“打醒”3个亚洲国家,中国已经不用再多说啥了!

美伊一战,“打醒”3个亚洲国家,中国已经不用再多说啥了!

小舟谈历史
2026-03-27 09:34:31
据张雪峰公司一位员工透露,镜头前的张雪峰和私下里的他判若两人

据张雪峰公司一位员工透露,镜头前的张雪峰和私下里的他判若两人

砚底沉香
2026-03-27 07:43:52
这些"纯阳之物",每天吃一点,直接把阳气补到根,比吃药强多了

这些"纯阳之物",每天吃一点,直接把阳气补到根,比吃药强多了

小莜读史
2026-03-26 20:10:12
2012年,用U型锁砸日系车并重伤车主的蔡洋早已出狱,如今怎样了

2012年,用U型锁砸日系车并重伤车主的蔡洋早已出狱,如今怎样了

谈史论天地
2026-03-25 09:57:09
这曾经是多少男人心中女神,她竟然这么苍老,真是岁月不饶人呀

这曾经是多少男人心中女神,她竟然这么苍老,真是岁月不饶人呀

东方不败然多多
2026-03-27 00:11:10
北京日报没有错,乐山公交车广告就是封建糟粕

北京日报没有错,乐山公交车广告就是封建糟粕

书写者
2026-03-26 19:54:21
审问3小时,日本军官底细被扒出,中方一锤定音,高市早苗看着办

审问3小时,日本军官底细被扒出,中方一锤定音,高市早苗看着办

谛听骨语本尊
2026-03-26 13:43:30
毛主席看完工资方案沉默良久,对周总理说:这不是把我架炉子上烤吗

毛主席看完工资方案沉默良久,对周总理说:这不是把我架炉子上烤吗

文史明鉴
2026-03-26 15:22:47
把自己吃的圆又大:这一身肉肉,摸起来舒服,看起来喜庆

把自己吃的圆又大:这一身肉肉,摸起来舒服,看起来喜庆

飛娱日记
2026-03-21 07:41:05
中原消费金融为催收“买”借款人手机号码 三大运营商均中标 或涉买卖个人信息惹争议

中原消费金融为催收“买”借款人手机号码 三大运营商均中标 或涉买卖个人信息惹争议

信网
2026-03-26 19:12:37
不是试点是强制执行!2026村村必建的部门,农村这波红利别错过

不是试点是强制执行!2026村村必建的部门,农村这波红利别错过

三农雷哥
2026-03-26 19:35:03
杜伦轰30+10+7无缘今日最佳!对不起,克神暴走创NBA80年历史纪录

杜伦轰30+10+7无缘今日最佳!对不起,克神暴走创NBA80年历史纪录

世界体育圈
2026-03-27 09:52:10
79元太火!小米磁吸玩偶卖断货 官方承诺加快生产

79元太火!小米磁吸玩偶卖断货 官方承诺加快生产

快科技
2026-03-26 07:09:03
公安部172号令落地,70岁以上开车,记住“一测一体检”就够了

公安部172号令落地,70岁以上开车,记住“一测一体检”就够了

阿芒娱乐说
2026-03-25 10:25:03
CCTV5直播国足vs库拉索:邵佳一挂帅后首战 对手头牌陈达毅

CCTV5直播国足vs库拉索:邵佳一挂帅后首战 对手头牌陈达毅

智道足球
2026-03-26 21:34:55
FIFA宣布世界杯新规:换人10秒下场,门球和界外球需5秒掷出

FIFA宣布世界杯新规:换人10秒下场,门球和界外球需5秒掷出

懂球帝
2026-03-27 06:30:08
巴基斯坦把稀土卖给美国,以为捏住中国“七寸”,其实在玩火自焚

巴基斯坦把稀土卖给美国,以为捏住中国“七寸”,其实在玩火自焚

通文知史
2026-03-24 08:35:03
奥委会重磅官宣:只允许生物学女性参加女子赛事 需做基因检测

奥委会重磅官宣:只允许生物学女性参加女子赛事 需做基因检测

醉卧浮生
2026-03-26 22:06:35
川普:我们想让你成为伊朗最高领袖,“不,我不要”

川普:我们想让你成为伊朗最高领袖,“不,我不要”

移光幻影
2026-03-27 07:52:25
2026-03-27 10:48:49
赛博兰博
赛博兰博
专注捣鼓AI效率工具,试图在这个时代留下数字分身的探索者。
257文章数 0关注度
往期回顾 全部

科技要闻

OpenAI果断砍掉"成人模式",死磕生产力

头条要闻

媒体:内塔尼亚胡夫人为两个儿子诉苦 加沙儿童怎么看

头条要闻

媒体:内塔尼亚胡夫人为两个儿子诉苦 加沙儿童怎么看

体育要闻

近29战23胜!这支黄蜂有多强?

娱乐要闻

刘晓庆妹妹发声!称姐姐受身边人挑拨

财经要闻

很反常!油价向上,黄金向下

汽车要闻

线控底盘+千问上车 智己LS8预售权益价25.98万起

态度原创

艺术
旅游
本地
数码
公开课

艺术要闻

2025“殊相”——中国油画学会创作研修作品展 | 作品选刊(一)

旅游要闻

固镇第四届樱花季将于3月28日启幕 15万株樱花邀客共赏

本地新闻

救命,这只酱板鸭已经在我手机复仇了一万遍

数码要闻

新款Meta雷朋联名智能眼镜现身美国FCC认证文件,提供双版本

公开课

李玫瑾:为什么性格比能力更重要?

无障碍浏览 进入关怀版