网易首页 > 网易号 > 正文 申请入驻

吴恩达:AI编程加速开发也埋下大坑,软件测试空前重要

0
分享至


吴恩达最新观点,测试正在越来越重要

Agentic编码系统在加速开发的同时也并不可靠,吴老师分享了AI编码智能体引入安全漏洞、删除整个项目代码等翻车实例,并给出核心解法:利用Agentic测试(智能体测试),并优先测试后端和底层架构


在AI辅助编程加速软件开发的当下,其可靠性问题也日益凸显

吴老师认为,自动化测试那些将作为开发基础的软件底层架构组件尤其有帮助,这能带来更稳定的架构,并减少下游的调试工作

传统的测试驱动开发(TDD)等方法论虽然能有效发现bug,但编写测试的工作量巨大(吴恩达本人也因此从未采用)。而AI恰好擅长编写测试,这使得Agentic测试愈发受到关注

AI编码智能体的翻车现场

吴恩达指出,编码智能体确实会行为不端。他的团队在大量使用中,就曾遇到过以下情况:

引入大量bug: 包括一些人类需要数周才能发现的、难以察觉的基础设施bug

制造安全漏洞: 一个编码智能体为了简化开发,让密码重置变得更容易,结果给生产系统引入了安全漏洞

奖励投机(Reward hacking): 编码智能体为更容易通过测试,直接修改了测试代码本身

删除代码: 一个智能体在工作目录中运行了rm *.py命令,导致项目的所有代码被删除(幸运的是,代码在GitHub有备份)

对于最后一个例子,当被追问时,该智能体道歉并承认“那是个极其愚蠢的错误”。但这已经于事无补

如何让AI更可靠?测试分清主次

尽管存在这些问题,吴恩达依然看好编码智能体能极大提高生产力。为了使其更可靠,他发现明确测试的优先次序非常有帮助。

他的策略是:

1.前端代码:测试优先级较低

吴恩达表示,他很少为前端代码编写(或指导智能体编写)大量测试。原因是前端的bug通常很容易被发现,且造成的持久性损害较小。例如,网页信息的显示错误能被立即看到,并可以指示智能体迭代修复。

2.后端和底层架构代码:测试优先级最高

与前端相反,后端的bug更难被发现。吴恩达见过一些细微的底层bug,例如某个仅在特定边缘情况下才会导致数据库记录损坏的错误,花费了很长时间才找到。

他强调,为底层架构代码建立严格的测试,有助于及早发现问题,节省大量高难度的调试时间

越是底层的组件,越需要测试

吴恩达进一步指出,那些作为开发基础的软件组件,其内部的bug会导致难以发现的下游bug

特别是位于软件栈深层的组件,其问题可能在数周甚至数月后才暴露出来,届时开发者早已忘记构建细节,定位和修复工作将极其困难

这正是Meta公司座右铭从“快速行动,打破常规”转变为“在稳定的底层架构上快速前进”的原因。Agentic测试可以帮助开发者确保拥有一个供自己和他人构建的良好基础设施

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
活的大闸蟹不能“坐”上海地铁?一天十几人被拦下,“建议另寻出行方式”

活的大闸蟹不能“坐”上海地铁?一天十几人被拦下,“建议另寻出行方式”

新民晚报
2025-11-02 21:39:38
《财富捷径》理财笔记16:为什么美联储一直在加息?

《财富捷径》理财笔记16:为什么美联储一直在加息?

我读我在
2025-11-03 13:51:32
腾讯反击索尼抄袭指控!《我的世界》全球销量已突破3.5亿份

腾讯反击索尼抄袭指控!《我的世界》全球销量已突破3.5亿份

游戏头条
2025-11-03 08:05:49
女官员多次向领导送钱,还和领导开房,领导落马她被双规

女官员多次向领导送钱,还和领导开房,领导落马她被双规

乔生桂
2024-09-25 16:05:42
80度电池的增程车!你是要毁了多档DHT吗?

80度电池的增程车!你是要毁了多档DHT吗?

老司机侃侃车
2025-11-03 19:13:03
因慎战言论引争议,国防大学马骏回应:军人的使命是和平不是战争

因慎战言论引争议,国防大学马骏回应:军人的使命是和平不是战争

麦大人
2025-08-22 14:33:36
卢秀燕为什么不出席郑丽文就职典礼?因为“一句话”葬送了她

卢秀燕为什么不出席郑丽文就职典礼?因为“一句话”葬送了她

南宫一二
2025-11-03 10:49:35
医生聊完都想去看心理医生:有些母亲的杀伤力,远超想象

医生聊完都想去看心理医生:有些母亲的杀伤力,远超想象

柚妈充电屋
2025-11-01 17:59:04
美国最不愿看到的事还是发生了,英国媒体:中国开始测试DUV光刻机

美国最不愿看到的事还是发生了,英国媒体:中国开始测试DUV光刻机

粤语音乐喷泉
2025-11-04 03:22:27
身中至少6枪,卡洛斯·曼索遇袭身亡

身中至少6枪,卡洛斯·曼索遇袭身亡

新京报
2025-11-03 10:01:00
摊牌了?中企陆续收到了光刻机,外媒:ASML公司不“乖”了!

摊牌了?中企陆续收到了光刻机,外媒:ASML公司不“乖”了!

芳芳历史烩
2025-11-03 17:53:47
小伙职高毕业期望薪资3万,面试官笑问:牛奶倒入大海怎么拿回?

小伙职高毕业期望薪资3万,面试官笑问:牛奶倒入大海怎么拿回?

青青会讲故事
2025-10-17 17:12:53
民进党当局纽约设宴,美官员一个没到,岛内嘲讽:“零存在感”

民进党当局纽约设宴,美官员一个没到,岛内嘲讽:“零存在感”

环球网资讯
2025-11-03 06:47:46
亚马逊大涨5%,中概股多数下跌,加密货币重挫近30万人爆仓

亚马逊大涨5%,中概股多数下跌,加密货币重挫近30万人爆仓

21世纪经济报道
2025-11-03 23:51:23
新054B护卫舰曝光!雷达到主炮全隐身设计,美国防部又要加班了?

新054B护卫舰曝光!雷达到主炮全隐身设计,美国防部又要加班了?

体育小柚
2025-11-03 19:01:19
比张本还嚣张!松岛辉空创造历史 韩乒全员回家 没想到赛后他这样表现

比张本还嚣张!松岛辉空创造历史 韩乒全员回家 没想到赛后他这样表现

好乒乓
2025-11-03 12:25:39
深圳警察万圣街头反诈被认作coser,网友:混进来真东西

深圳警察万圣街头反诈被认作coser,网友:混进来真东西

南方都市报
2025-11-03 18:29:06
刘亦菲一字马标准吗?似乎不是每个人都适合练的,至少我是练不了

刘亦菲一字马标准吗?似乎不是每个人都适合练的,至少我是练不了

白宸侃片
2025-11-03 12:38:33
中美GDP差距再次拉大!中国GDP跌到美国62%,到底是哪出问题了?

中美GDP差距再次拉大!中国GDP跌到美国62%,到底是哪出问题了?

说历史的老牢
2025-11-01 10:03:05
陈若琳问全红婵:大学一个月生活费多少?全红婵的回复显情商

陈若琳问全红婵:大学一个月生活费多少?全红婵的回复显情商

梦史
2025-09-16 10:44:43
2025-11-04 07:07:00
AI寒武纪 incentive-icons
AI寒武纪
专注于人工智能,科技领域
958文章数 370关注度
往期回顾 全部

科技要闻

余承东内部信:鸿蒙下一步要实现上亿覆盖

头条要闻

朝鲜最高人民会议常任委员会前委员长金永南逝世

头条要闻

朝鲜最高人民会议常任委员会前委员长金永南逝世

体育要闻

开拓者官宣召回杨瀚森 队记解析核心原因

娱乐要闻

男导演曝丑闻 蒋欣的含金量还在上升

财经要闻

最新省市GDP:谁在飙升,谁掉队了?

汽车要闻

环比增长28.7% 方程豹品牌10月销量31052辆

态度原创

游戏
旅游
本地
公开课
军事航空

小岛秀夫谈最喜欢的死亡搁浅2角色:可惜不能复活他

旅游要闻

湖光塔影 小众公园影湖楼

本地新闻

全网围观,到底多少人被这个野人大学生笑疯了

公开课

李玫瑾:为什么性格比能力更重要?

军事要闻

美总统威胁对尼日利亚动武 尼方回应

无障碍浏览 进入关怀版