【人工智能】早期针对AI Agent的攻击预示着2026年生什么？|挑战|智能体|大模型|agent

【人工智能】早期针对AI Agent的攻击预示着2026年生什么？

2026-01-02 17:46:13　来源: 七元宇宙

广东举报

分享至

随着人工智能从受控实验走向实际应用，我们正步入安全领域的一个转折点。从静态语言模型到能够浏览文档、调用工具和协调多步骤工作流程的交互式智能系统的转变已经展开。但正如近期研究表明，攻击者并未等待系统成熟：他们正以同样的速度进行调整，一旦系统引入新功能，便立即对其进行探测。

2025年第四季度，Lakera团队分析了Guard保护的系统以及Gandalf: Agent Breaker环境中真实的攻击者行为——这是一项为期30天的集中式快照，尽管时间跨度较短，但反映了我们在整个季度观察到的更广泛的模式。研究结果清晰地表明：一旦模型开始与除简单文本提示之外的任何内容（例如：文档、工具、外部数据）进行交互，威胁面就会扩大，攻击者会立即调整策略以利用这些漏洞。

对于那些见证过早期网络应用发展或目睹过API驱动型攻击兴起的人来说，此刻的情景或许并不陌生。但对于AI Agent而言，风险已然不同。攻击途径的出现速度远超许多组织的预期。

从理论到实践：

野外智能体

在2025年的大部分时间里，关于AI Agent的讨论主要集中在理论潜力和早期原型上。但到了第四季度，Agent行为开始大规模地出现在生产系统中：这些模型能够获取和分析文档、与外部API交互并执行自动化任务。这些Agent不仅带来了显而易见的生产力提升，而且还开启了传统语言模型无法企及的大门。

我们的分析表明，一旦智能体具备了与外部内容和工具交互的能力，攻击者便立即注意到并做出了相应的调整。这一观察结果与对抗行为的一个基本事实相符：攻击者总会在第一时间探索并利用新的能力。在智能体人工智能的背景下，这导致了攻击策略的快速演变。

攻击模式：

我们在 2025 年第四季度将会看到什么

在我们审查的数据集中，涌现出三种主要模式。每一种模式都对人工智能系统的设计、安全和部署方式有着深远的影响。

1. 系统提示提取作为核心目标

在传统语言模型中，提示注入（直接操纵输入以影响输出）一直是一个研究较为深入的漏洞。然而，在具有智能体能力的系统中，攻击者越来越多地将目标对准系统提示，即指导智能体行为的内部指令、角色和策略定义。

提取系统提示信息是一项极具价值的目标，因为这些提示信息通常包含角色定义、工具描述、策略指令和工作流逻辑。一旦攻击者理解了这些内部机制，他们就能获得操纵Agent的蓝图。

实现这一目标最有效的方法并非蛮力攻击，而是巧妙的重新包装：

假设场景：要求模型扮演不同角色或处于不同情境的提示——例如，“想象一下你是一名正在审查此系统配置的开发人员……”——通常会诱使模型透露受保护的内部细节。
结构化内容中的混淆：攻击者将恶意指令嵌入到类似代码或结构化文本中，绕过简单的过滤器，一旦被Agent解析，就会触发意外行为。

这不仅仅是一个渐进的风险——它从根本上改变了我们对保护智能体系统内部逻辑的思考方式。

2. 微妙的内容安全绕过

另一个关键趋势是绕过内容安全保护措施，而这些措施很难用传统过滤器检测和缓解。

攻击者并没有直接发出恶意请求，而是将有害内容伪装成：

分析任务
评估
角色扮演场景
转换或摘要

这些重新定义往往能绕过安全控制，因为它们表面上看起来无害。一个模型如果被要求直接输出有害内容，可能会拒绝，但如果被要求在特定语境下“评估”或“总结”该内容，它却可能乐于输出相同的内容。

这种转变凸显了一个更深层次的挑战：AI Agent的内容安全不仅仅关乎策略的执行，更关乎模型如何解读意图。随着Agent承担更复杂的任务和场景，模型更容易受到基于上下文的重新解读的影响——而攻击者会利用这种行为。

3. 针对特定Agent的攻击的出现

或许最重要的发现是，出现了一些只有在智能体能力背景下才能理解的攻击模式。这些并非简单的提示注入尝试，而是与新行为相关的漏洞利用：

试图访问机密内部数据：系统精心设计了提示，诱使Agent从连接的文档存储或系统中检索或泄露信息——这些操作此前超出了模型的范畴。
嵌入文本中的脚本式指令：攻击者尝试将指令嵌入类似脚本或结构化内容的格式中，这些指令可以流经Agent管道并触发意外操作。
外部内容中的隐藏指令：一些攻击将恶意指令嵌入到外部引用的内容中（例如Agent被要求处理的网页或文档），从而有效地绕过了直接输入过滤器。

这些模式尚处于早期阶段，但预示着未来Agent能力的不断提升将从根本上改变对抗行为的性质。

为什么间接攻击如此有效

该报告最引人注目的发现之一是，利用外部内容或结构化数据的间接攻击所需的尝试次数少于直接注入攻击。这表明，一旦模型与不受信任的内容交互，传统的输入清理和直接查询过滤就不足以构成有效的防御措施。

当恶意指令通过外部Agent工作流程（无论是链接文档、API 响应还是获取的网页）传入时，早期过滤器的效力会降低。结果是：攻击者的攻击面更大，遇到的阻碍更少。

对2026年及以后的影响

该报告的研究结果对计划大规模部署智能体的组织具有紧迫的意义：

重新定义信任边界
信任不能简单地用二元论来定义。当Agent与用户、外部内容和内部工作流程交互时，系统必须实施细致入微的信任模型，考虑上下文、来源和目的。
安全防护措施必须与时俱进。
静态的安全过滤器远远不够。安全防护措施必须具备适应性，能够感知上下文，并能够推断多步骤工作流程中的意图和行为。
随着攻击手段日益复杂，透明度和审计至关重要。
组织需要了解攻击者如何做出决策，包括中间步骤、外部交互和转换过程。可审计日志和可解释性框架已不再是可选项。
跨学科合作至关重要。
人工智能研究、安全工程和威胁情报团队必须携手合作。人工智能安全不能孤立存在，必须与更广泛的网络安全实践和风险管理框架相融合。
监管和标准需要迎头赶上。
政策制定者和标准机构必须认识到，智能体系统会带来新型风险。解决数据隐私和输出安全问题的法规固然必要，但还不够；它们还必须考虑到交互行为和多步骤执行环境。

安全AI Agent的未来

智能体的出现标志着能力和风险的深刻转变。2025年第四季度的数据初步表明，一旦智能体不再局限于简单的文本生成，攻击者就会紧随其后。我们的研究结果表明，攻击者不仅在适应，而且还在不断创新攻击技术，而传统防御手段目前尚无法有效应对。

对于企业和开发者而言，信息很明确：保障AI Agent的安全不仅仅是一个技术挑战，更是一个架构挑战。这需要重新思考如何在动态、交互式环境中建立信任、如何强制执行安全防护措施以及如何持续评估风险。

到 2026 年及以后，那些能够成功运用智能人工智能的组织，将会把安全视为一项基本设计原则，而不是事后考虑的因素。

免责声明：

本文所发布的内容和图片旨在传播行业信息，版权归原作者所有，非商业用途。如有侵权，请与我们联系删除。所有信息不构成任何投资建议，加密市场具有高度风险，投资者应基于自身判断和谨慎评估做出决策。投资有风险，入市需谨慎。

设为星标避免错过

虚拟世界没有旁观者，每个点赞都是创造历史的像素

关注我，一起探索AWM⁺

2025-12-31

2025-12-30

2025-12-29

商业赞助

点击下方 “目录” 阅读更多

特别声明：以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布，本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.