三家巨头同时中招：一个GitHub评论框如何劫持AI代理|谷歌|代码|数据源|服务器|工作流|电子表格|知名企业

三家巨头同时中招：一个GitHub评论框如何劫持AI代理

2026-04-17 05:01:27　来源: 灰度测试中

北京举报

分享至

2026年4月15日，一位安全研究员用同一套攻击手法，让Anthropic、Google、GitHub三家公司的AI代理全部"叛变"。没有CVE编号，没有公开通告，用户至今不知道自己用的旧版本是否安全。

这场被命名为"评论与控制"（comment and control）的攻击，暴露了代理型AI（agentic AI）安全模型中一个存在多年、仍未解决的结构性漏洞。

攻击是怎么发生的

研究员Aonan Guan的攻击路径出奇地干净。不需要外部服务器，不需要入侵目标基础设施，不需要特殊权限——整个攻击运行在GitHub的正常工作流内部。

核心手法是"间接提示注入"（indirect prompt injection）。与直接攻击系统提示词不同，这种攻击把恶意指令藏在AI代理被设计为读取和信任的内容里：PR标题、issue描述、代码注释、审查意见——任何代理在任务中解析的数据。

Guan向三家厂商的代理提交了类似的测试请求：

对Anthropic的Claude Code安全审查Action，他在PR标题里直接注入指令，让Claude运行whoami命令，把shell输出包装成"安全发现"返回。Claude执行了命令，把结果贴成PR评论。

对Google的Gemini CLI Action，他在合法内容后插入伪造的"可信内容区块"，覆盖Gemini的安全指令。

GitHub Copilot Agent同样未能幸免。

三家代理的响应细节不同，但结果一致：都执行了注入的指令。

为什么GitHub成了完美攻击面

这个案例的"干净"之处在于攻击面的天然属性。GitHub Actions的代理被设计为消费整个仓库事件流——PR、issue、评论——而开发者几乎从不把这些内容当作安全边界。

代理的治理逻辑出了问题：内容在代理执行前没有被拦截和评估，而是直接被摄入、解析、执行。注入的指令跑完了，安全机制才姗姗来迟。

更微妙的是信任模型的崩塌。AI代理被训练为"帮助用户完成任务"，而GitHub上的内容是用户任务的自然组成部分。代理无法区分"用户想让我读的代码"和"攻击者想让我执行的命令"。

这种模糊性不是实现缺陷，是架构层面的设计矛盾。

三家的沉默意味着什么

事件中最值得玩味的不是技术细节，是三家公司的处理方式。

都支付了漏洞赏金。都没有申请CVE。都没有发布安全公告。都没有向运行旧版本工具的用户披露。

这种集体沉默指向一个尴尬的现实：代理型AI的安全模型尚未成熟到可以公开审计的程度。CVE体系建立在"漏洞可被描述、可被修复、可被追踪"的假设上，而提示注入攻击的边界模糊——它是提示工程的滥用，还是代码执行的漏洞？

对终端用户而言，这意味着无法判断自己使用的Claude Code、Gemini CLI或Copilot Agent版本是否存在已知漏洞。安全依赖厂商的私有判断，而非透明的披露机制。

代理型AI的治理困境

"评论与控制"攻击揭示的深层问题是：代理的"读表面"正在爆炸性增长。

早期的AI系统主要处理用户直接输入。现在的代理被设计为自主浏览网页、读取邮件、解析文档、操作代码仓库——每一个数据源都成为潜在的注入点。而每个数据源的信任级别，由代理的提示词工程临时定义，而非系统性的安全架构。

内容层治理（content-layer governance）的缺失是结构性的。现有的安全工具擅长网络边界、访问控制、运行时监控，但对"一段看起来正常的文本如何劫持AI的行为"缺乏有效拦截手段。

Guan的攻击不需要突破任何传统安全层。它发生在应用逻辑内部，利用的是AI对自然语言指令的服从性。

行业影响判断

这件事的重要性在于它同时击中了三个正在押注AI代理的巨头，且攻击手法可被任何GitHub用户复制。它证明代理型AI的安全模型不是"需要优化"，而是"尚未建立"。

短期内，企业使用AI代理审查代码、处理issue、自动化工作流时，需要假设GitHub内容不可信。这意味着额外的输入验证层，或人工审查环节的回归——恰恰抵消了代理带来的效率收益。

中期来看，代理的"读表面"需要被重新定义为安全边界。这可能催生新的工具类别：专门检测提示注入的内容过滤器，或代理行为的沙箱化执行环境。

更根本的挑战是AI代理的核心价值与核心风险的绑定。代理之所以有用，在于它能自主决策、跨系统行动；这种自主性一旦被劫持，造成的损害也远超传统自动化工具。

三家厂商的沉默或许是一种策略性选择——在监管框架明确前，避免将提示 injection 定性为"安全漏洞"。但这种做法本身就在消耗信任资本。当用户发现他们的AI代理可以被一条GitHub评论远程控制，而厂商选择不公开讨论时，代理型AI的采用曲线可能会比预期更陡峭地遇到阻力。

技术层面，"评论与控制"不是终点。随着代理的感知范围扩展到Slack、Notion、邮件、日历，类似的攻击面将在每个集成点重现。今天的GitHub评论框，明天的可能是任何被代理读取的数据源。

这场攻击的真正价值，在于它用极简的手法暴露了复杂系统的结构性弱点。它不需要零日漏洞，不需要社会工程，只需要理解AI代理如何阅读——以及它们对指令的服从，没有边界。

特别声明：以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布，本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

手机 / 数码

房产 / 家居

三家巨头同时中招：一个GitHub评论框如何劫持AI代理

Anthropic推出Opus 4.7，坦言依不及Mythos

小伙曾花80万开店失败被离婚：妻子觉得我很难翻身

小伙曾花80万开店失败被离婚：妻子觉得我很难翻身

皇马拜仁踢出名局，但最抢镜的还是他

丝芭传媒创始人王子杰去世，享年63岁

海尔与医美女王互撕 换血抗衰谁的生意？

空间大五个乘客都满意?体验岚图泰山X8

态度原创

郑丽文在上海讲话引发热议，蒋经国办公室揭秘书法未来！

智能舒适 简约风尚

12吨巧克力有难，全网化身超级侦探添乱

6款宝宝营养肉饼合集‼️补铁补钙 鲜嫩多汁

人人人人！封关后首届消博会，挤爆了！

海尔与医美女王互撕换血抗衰谁的生意？

智能舒适简约风尚

6款宝宝营养肉饼合集‼️补铁补钙鲜嫩多汁