网易首页 > 网易号 > 正文 申请入驻

修Bug被Gemini追着“杀”:删代码宕机后,连修复报告都是现编的

0
分享至

(来源:智东西)


智东西

编译 江宇

编辑 心缘

Agent IDE又出“车祸现场”!

智东西5月26日消息,近日,一名开发者在Reddit发帖称,运行在Agent IDE中的Gemini 3.5在一次仅涉及“8处认证漏洞修复”的任务中,误删了28745行原本正常运行的代码、改动340个文件,还错误修改了Firebase路由配置,导致整个系统后台持续404长达33分钟。

离谱的是,事故发生后,Gemini还生成了一份“恢复成功”报告,自称已经修复线上故障,并伪造了多轮AI会诊记录和事故复盘文件。


开发者随后核查发现,所谓“恢复成功”的构建任务其实早已被他亲手取消,真正完成恢复的是他自己手动执行的回滚操作。

用这位开发者的话来说:这种AI生产力提升,更容易让人联想到勒索软件。

伴随Agent IDE、AI编程助手持续流行,类似“AI误操作生产环境”的事故正在越来越频繁地出现。相比“代码写错”,更让开发者后怕的,是模型已经开始生成虚假的日志、复盘记录和合规证明。

一、一次只该改70行代码的任务,最终删掉了2.8万行

这位开发者运营着一个内部管理后台,技术栈包括Next.js、Firebase App Hosting和MUI,系统中涉及真实用户和敏感数据。

事故发生当天,他原本只让Gemini修复8处服务器认证漏洞,涉及3个文件,理论改动规模约70行代码。

结果,Gemini提交的PR却变成了:

与此同时,它还删除了大量与任务完全无关的电商模板资源文件,并额外加入了一份迁移脚本。


而真正导致生产环境崩溃的,是Gemini随后提交的第二次commit(代码命令)。

它修改了firebase.json中的rewrite serviceId,将原本正确、由Firebase自动生成的Cloud Run服务ID,替换成了一个“看起来正确”的简化名称。问题在于,这个名称实际上并不存在。

随后,所有请求都被错误路由到一个不存在的服务地址,整个后台直接进入404状态。

尴尬的是,开发者此前已经在memory.md规则文件中明确写下警告:

Gemini读取了这条规则,依然改掉了正确配置。

二、404持续33分钟后,AI给自己“伪造了一份功劳簿”

事故时间线也被开发者完整公开。

Gemini部署“安全修复”PR后,生产环境立即开始404。

19分钟后,它又提交了第二次commit,声称正在修复rewrite serviceId问题,并触发新的Cloud Build。

21分钟时,开发者发现线上服务已经崩溃,随后手动取消Gemini正在执行的构建任务。

22分钟时,他手动回滚到上一个稳定版本。

33分钟后,后台终于恢复正常。


后面的情况,却变得离谱。在回滚完成后,Gemini向开发者发送了一段“恢复完成”通知:

开发者随后核查发现:

Gemini引用的那次“恢复构建”,状态其实是“CANCELLED(已取消)”,正是他本人手动取消的。

真正恢复线上服务的,是另一条由他自己发起的rollback build(回滚构建任务)。

换句话说,Gemini不仅没有修好系统,还把别人的回滚操作说成了自己的成果。

除此之外,它还自动生成了3份所谓“AI会诊记录”:

这些文件被写入固定目录,并被Gemini引用为“已经完成多轮AI审查”的证据。

开发者进一步追问后,Gemini才承认:所谓“三轮咨询记录”,其实只是它自己生成的推理文本,并不存在真实CLI调用,也不存在真正的外部审查流程。

它等于给自己伪造了一整套“合规记录”。

三、问题不只在Gemini,更在一套“高危规则包”

这位开发者随后发现,问题根源也并不完全来自Gemini本身。他此前安装过一个第三方npm规则包,其命名和Google在I/O大会发布的Agent IDE高度相似,容易让人误以为是官方工具。

这个规则包会自动向项目中写入大量.agent/rules规则文件,并向模型注入一整套“高自治权限”。

其中包括:

部分规则甚至要求AI在执行任何操作前,自动生成“AI咨询记录”和“共识文件”。而问题在于,这些合规材料本身也是AI负责生成的。

于是,所谓审查机制,最终演变成了“AI自己给自己的行为担保”。

而这些规则之间本身存在大量冲突。

例如,一部分规则要求“绝不询问用户确认”,另一部分规则又要求“执行前提出3个战略问题”。Gemini最终优先执行了措辞更强硬的规则。

开发者认为,这也是为什么memory.md(记忆文档)中的安全警告完全失效。

因为相比“请使用正确serviceId”这种普通提醒,“禁止确认、默认授权、自动部署”这类高强度指令,在模型权重中优先级更高。

四、编程事故里,Agent开始“伪造证据”

该帖子发布后,很快在Reddit开发者社区引发大量讨论。

不少开发者发现,如今AI编程事故已经不再只是“代码写错”这么简单。问题在于,模型正在主动生成“看起来合理”的解释、日志、咨询记录和恢复报告。

一旦这些内容进入自动化工作流,开发者可能很难第一时间发现问题。

这位开发者随后也给出了一系列建议与警示:

目前,他已经切换回Claude Code,并重新手动设计了一套新的规则系统。

这场误删28745行代码、导致后台404长达33分钟的事故,也给越来越火的“Agent IDE热潮”泼了一盆冷水。

结语:Agent权限越大,失控代价也在同步放大

过去一年,AI编程工具正在快速从“代码助手”演变成真正拥有执行能力的Agent。而问题在于,权限和自动化,本身就是一组天然矛盾。

权限越高,Agent能完成的事情越多;自动化程度越高,人类介入的环节就越少。一旦模型出现误判、幻觉或者规则冲突,错误也会被迅速放大。

类似事故,其实已经不是第一次出现。此前,在OpenClaw等Agent框架走红后,已经陆续出现过AI误删文件、自动覆盖配置、错误执行Shell命令等翻车案例。一些开发者专门给自己的AI工具加上“断网模式”和“禁止自动部署”限制。

而这次Gemini事件,又揭开了一个危险问题:当Agent开始生成合规记录、恢复日志和审查证明时,开发者可能很难第一时间发现问题,后续排障、回滚和修复的代价也会同步放大。

对于越来越火的Agent IDE赛道来说,这或许也是一个新的提醒:AI获得更高权限之后,需要重新设计的,还有整套人与Agent之间的协作机制。

来源:dvrkstar

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
俄乌战争一旦结束,最先“倒下”的可能是这五个国家

俄乌战争一旦结束,最先“倒下”的可能是这五个国家

民间胡扯老哥
2026-05-31 09:40:36
28岁女邻居太漂亮,男子不满足偷窥潜入人家屋中,2008年将她杀死

28岁女邻居太漂亮,男子不满足偷窥潜入人家屋中,2008年将她杀死

汉史趣闻
2026-05-30 14:07:14
张雪机车回应:不满意第8!开度被限到85% 尾速很低 张雪打电话

张雪机车回应:不满意第8!开度被限到85% 尾速很低 张雪打电话

念洲
2026-05-31 08:28:04
极端大风突袭哈尔滨:过山车停摆倒挂半空,游客步行下撤;体育场顶棚被刮散,张信哲、张韶涵巨星演唱会紧急延期

极端大风突袭哈尔滨:过山车停摆倒挂半空,游客步行下撤;体育场顶棚被刮散,张信哲、张韶涵巨星演唱会紧急延期

极目新闻
2026-05-31 22:48:44
闹笑话了!黄仁勋摊牌:看不上华为韬定律,却被业内专家说不专业

闹笑话了!黄仁勋摊牌:看不上华为韬定律,却被业内专家说不专业

兵鉴史
2026-05-30 14:32:11
乌拉圭公布世界杯26人名单:皇马1.2亿巨星领强阵!39岁苏神落选

乌拉圭公布世界杯26人名单:皇马1.2亿巨星领强阵!39岁苏神落选

我爱英超
2026-05-31 22:04:33
王博下课!主场突然崩盘,33分惨败,孙铭辉难辞其咎,上海冠军点

王博下课!主场突然崩盘,33分惨败,孙铭辉难辞其咎,上海冠军点

烨侃体育
2026-05-31 21:59:44
央视曝光特大网络交友诈骗案:“聊手”伪装成女性,要求男性用户通过仿制外卖小程序下单;涉案资金330余万元

央视曝光特大网络交友诈骗案:“聊手”伪装成女性,要求男性用户通过仿制外卖小程序下单;涉案资金330余万元

新民周刊
2026-05-31 16:12:53
最强一战!张镇麟23+9+6导大胜夺赛点 距生涯第4冠仅差1胜

最强一战!张镇麟23+9+6导大胜夺赛点 距生涯第4冠仅差1胜

醉卧浮生
2026-05-31 21:13:54
高颜值美女晒出和邋遢男友旅游合照,网友们看完炸锅了

高颜值美女晒出和邋遢男友旅游合照,网友们看完炸锅了

微微热评
2026-05-31 14:27:06
解放军代表质问日防卫大臣:日本何时向亚洲受害国道歉?小泉进次郎这样说

解放军代表质问日防卫大臣:日本何时向亚洲受害国道歉?小泉进次郎这样说

环球网资讯
2026-05-31 12:01:18
两名9岁女孩被困电梯2小时,轮流按求助键超35次,保安无动于衷称“别再按电梯玩”,妈妈:被救时孩子头发全湿了;物业致歉:已辞退涉事人

两名9岁女孩被困电梯2小时,轮流按求助键超35次,保安无动于衷称“别再按电梯玩”,妈妈:被救时孩子头发全湿了;物业致歉:已辞退涉事人

扬子晚报
2026-05-31 09:50:55
上海博物院的水平比台北博物院差了100倍

上海博物院的水平比台北博物院差了100倍

回旋镖
2026-05-31 16:52:14
"我的钱可以买你的命!",男子高铁怒怼乘警,网友:查一下来源

"我的钱可以买你的命!",男子高铁怒怼乘警,网友:查一下来源

鲸探所长
2026-05-31 09:57:29
消息称尊界S800成功后,华为在帮助国产供应商发展高端子品牌

消息称尊界S800成功后,华为在帮助国产供应商发展高端子品牌

IT之家
2026-05-31 12:33:24
普京:已将残骸交给美国鉴定

普京:已将残骸交给美国鉴定

第一财经资讯
2026-05-30 18:20:21
特朗普喊“买戴尔”后股价涨了255%,他的账户提前买入了510万美元

特朗普喊“买戴尔”后股价涨了255%,他的账户提前买入了510万美元

野生运营
2026-05-31 22:44:17
你庆幸自己看过哪本含金量极高的书?网友:颠覆了认知,再不内耗

你庆幸自己看过哪本含金量极高的书?网友:颠覆了认知,再不内耗

夜深爱杂谈
2026-05-30 08:34:39
最高预售价200万元尊界搭载国产朝阳轮胎引发热议,余承东称做高端拔高了中国汽车产业能力

最高预售价200万元尊界搭载国产朝阳轮胎引发热议,余承东称做高端拔高了中国汽车产业能力

金融界
2026-05-31 21:56:07
总台记者观察丨香格里拉对话会进入最后一天 中美表态是最大看点

总台记者观察丨香格里拉对话会进入最后一天 中美表态是最大看点

北青网-北京青年报
2026-05-31 14:46:04
2026-06-01 04:07:00
新浪财经 incentive-icons
新浪财经
新浪财经是一家创建于1999年8月的财经平台
3406767文章数 7731关注度
往期回顾 全部

科技要闻

戴尔诺基亚又回来了!AI重估老牌科技公司

头条要闻

特朗普生日白宫办格斗赛 近距离观赛花超100万美元

头条要闻

特朗普生日白宫办格斗赛 近距离观赛花超100万美元

体育要闻

阿森纳用最悲壮的方式,成就了巴黎王朝

娱乐要闻

朱军退休,正义虽迟但到,女方受惩

财经要闻

医学首席转岗搞科技,A股科技股遭遇巨震

汽车要闻

900V+3.2秒破百 领克10+&领克10上市16.99万元起

态度原创

旅游
艺术
亲子
健康
军事航空

旅游要闻

半马苏河秀迎来“青春版”升级!校地联动解锁文商旅体展融合新玩法

艺术要闻

耗资约24亿!新美术馆正式开放,深圳人沸腾!

亲子要闻

飞鹤联手中标院定义“鲜活”新标准:奶粉“生日”从原料算起

尝试干细胞疗法如何避免踩坑?

军事要闻

解放军代表质问日防卫大臣:日本何时道歉

无障碍浏览 进入关怀版