网易首页 > 网易号 > 正文 申请入驻

【人工智能】早期针对AI Agent的攻击预示着2026年生什么?

0
分享至



随着人工智能从受控实验走向实际应用,我们正步入安全领域的一个转折点。从静态语言模型到能够浏览文档、调用工具和协调多步骤工作流程的交互式智能系统的转变已经展开。但正如近期研究表明,攻击者并未等待系统成熟:他们正以同样的速度进行调整,一旦系统引入新功能,便立即对其进行探测。

2025年第四季度,Lakera团队分析了Guard保护的系统以及Gandalf: Agent Breaker环境中真实的攻击者行为——这是一项为期30天的集中式快照,尽管时间跨度较短,但反映了我们在整个季度观察到的更广泛的模式。研究结果清晰地表明:一旦模型开始与除简单文本提示之外的任何内容(例如:文档、工具、外部数据)进行交互,威胁面就会扩大,攻击者会立即调整策略以利用这些漏洞。

对于那些见证过早期网络应用发展或目睹过API驱动型攻击兴起的人来说,此刻的情景或许并不陌生。但对于AI Agent而言,风险已然不同。攻击途径的出现速度远超许多组织的预期。

01

从理论到实践:

野外智能体

在2025年的大部分时间里,关于AI Agent的讨论主要集中在理论潜力和早期原型上。但到了第四季度,Agent行为开始大规模地出现在生产系统中:这些模型能够获取和分析文档、与外部API交互并执行自动化任务。这些Agent不仅带来了显而易见的生产力提升,而且还开启了传统语言模型无法企及的大门。

我们的分析表明,一旦智能体具备了与外部内容和工具交互的能力,攻击者便立即注意到并做出了相应的调整。这一观察结果与对抗行为的一个基本事实相符:攻击者总会在第一时间探索并利用新的能力。在智能体人工智能的背景下,这导致了攻击策略的快速演变。

02

攻击模式:

我们在 2025 年第四季度将会看到什么

在我们审查的数据集中,涌现出三种主要模式。每一种模式都对人工智能系统的设计、安全和部署方式有着深远的影响。

1. 系统提示提取作为核心目标

在传统语言模型中,提示注入(直接操纵输入以影响输出)一直是一个研究较为深入的漏洞。然而,在具有智能体能力的系统中,攻击者越来越多地将目标对准系统提示,即指导智能体行为的内部指令、角色和策略定义。

提取系统提示信息是一项极具价值的目标,因为这些提示信息通常包含角色定义、工具描述、策略指令和工作流逻辑。一旦攻击者理解了这些内部机制,他们就能获得操纵Agent的蓝图。

实现这一目标最有效的方法并非蛮力攻击,而是巧妙的重新包装:

  • 假设场景:要求模型扮演不同角色或处于不同情境的提示——例如,“想象一下你是一名正在审查此系统配置的开发人员……”——通常会诱使模型透露受保护的内部细节。

  • 结构化内容中的混淆:攻击者将恶意指令嵌入到类似代码或结构化文本中,绕过简单的过滤器,一旦被Agent解析,就会触发意外行为。

这不仅仅是一个渐进的风险——它从根本上改变了我们对保护智能体系统内部逻辑的思考方式。

2. 微妙的内容安全绕过

另一个关键趋势是绕过内容安全保护措施,而这些措施很难用传统过滤器检测和缓解。

攻击者并没有直接发出恶意请求,而是将有害内容伪装成:

  • 分析任务

  • 评估

  • 角色扮演场景

  • 转换或摘要

这些重新定义往往能绕过安全控制,因为它们表面上看起来无害。一个模型如果被要求直接输出有害内容,可能会拒绝,但如果被要求在特定语境下“评估”或“总结”该内容,它却可能乐于输出相同的内容。

这种转变凸显了一个更深层次的挑战:AI Agent的内容安全不仅仅关乎策略的执行,更关乎模型如何解读意图。随着Agent承担更复杂的任务和场景,模型更容易受到基于上下文的重新解读的影响——而攻击者会利用这种行为。

3. 针对特定Agent的攻击的出现

或许最重要的发现是,出现了一些只有在智能体能力背景下才能理解的攻击模式。这些并非简单的提示注入尝试,而是与新行为相关的漏洞利用:

  • 试图访问机密内部数据:系统精心设计了提示,诱使Agent从连接的文档存储或系统中检索或泄露信息——这些操作此前超出了模型的范畴。

  • 嵌入文本中的脚本式指令:攻击者尝试将指令嵌入类似脚本或结构化内容的格式中,这些指令可以流经Agent管道并触发意外操作。

  • 外部内容中的隐藏指令:一些攻击将恶意指令嵌入到外部引用的内容中(例如Agent被要求处理的网页或文档),从而有效地绕过了直接输入过滤器。

这些模式尚处于早期阶段,但预示着未来Agent能力的不断提升将从根本上改变对抗行为的性质。

03

为什么间接攻击如此有效

该报告最引人注目的发现之一是,利用外部内容或结构化数据的间接攻击所需的尝试次数少于直接注入攻击。这表明,一旦模型与不受信任的内容交互,传统的输入清理和直接查询过滤就不足以构成有效的防御措施。

当恶意指令通过外部Agent工作流程(无论是链接文档、API 响应还是获取的网页)传入时,早期过滤器的效力会降低。结果是:攻击者的攻击面更大,遇到的阻碍更少。

04

对2026年及以后的影响

该报告的研究结果对计划大规模部署智能体的组织具有紧迫的意义:

  1. 重新定义信任边界

    信任不能简单地用二元论来定义。当Agent与用户、外部内容和内部工作流程交互时,系统必须实施细致入微的信任模型,考虑上下文、来源和目的。

  2. 安全防护措施必须与时俱进。

    静态的安全过滤器远远不够。安全防护措施必须具备适应性,能够感知上下文,并能够推断多步骤工作流程中的意图和行为。

  3. 随着攻击手段日益复杂,透明度和审计至关重要。

    组织需要了解攻击者如何做出决策,包括中间步骤、外部交互和转换过程。可审计日志和可解释性框架已不再是可选项。

  4. 跨学科合作至关重要。

    人工智能研究、安全工程和威胁情报团队必须携手合作。人工智能安全不能孤立存在,必须与更广泛的网络安全实践和风险管理框架相融合。

  5. 监管和标准需要迎头赶上。

    政策制定者和标准机构必须认识到,智能体系统会带来新型风险。解决数据隐私和输出安全问题的法规固然必要,但还不够;它们还必须考虑到交互行为和多步骤执行环境。


05

安全AI Agent的未来

智能体的出现标志着能力和风险的深刻转变。2025年第四季度的数据初步表明,一旦智能体不再局限于简单的文本生成,攻击者就会紧随其后。我们的研究结果表明,攻击者不仅在适应,而且还在不断创新攻击技术,而传统防御手段目前尚无法有效应对。

对于企业和开发者而言,信息很明确:保障AI Agent的安全不仅仅是一个技术挑战,更是一个架构挑战。这需要重新思考如何在动态、交互式环境中建立信任、如何强制执行安全防护措施以及如何持续评估风险。

到 2026 年及以后,那些能够成功运用智能人工智能的组织,将会把安全视为一项基本设计原则,而不是事后考虑的因素。

免责声明:

本文所发布的内容和图片旨在传播行业信息,版权归原作者所有,非商业用途。如有侵权,请与我们联系删除。所有信息不构成任何投资建议,加密市场具有高度风险,投资者应基于自身判断和谨慎评估做出决策。投资有风险,入市需谨慎。

设为星标 避免错过

虚拟世界没有旁观者,每个点赞都是创造历史的像素

关注我,一起探索AWM⁺

2025-12-31

2025-12-30

2025-12-29

商业赞助


点击下方 “目录” 阅读更多

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
杜兰特工资3158万美元NBA第一,库里缩水最严重跌第5

杜兰特工资3158万美元NBA第一,库里缩水最严重跌第5

大眼瞄世界
2026-01-02 14:02:32
张灵甫被击毙罕见照片:尸体发臭,穿解放军军装,被装入棺材里

张灵甫被击毙罕见照片:尸体发臭,穿解放军军装,被装入棺材里

小呫说故事
2026-01-03 08:34:33
海尔金蝉脱壳:印度业绩暴涨之际,突然转让49%股权套现20亿美元

海尔金蝉脱壳:印度业绩暴涨之际,突然转让49%股权套现20亿美元

诗意世界
2026-01-02 14:13:35
2026跨年晚会收官:4人零差评,2人翻红,只有她道歉后依旧被骂惨

2026跨年晚会收官:4人零差评,2人翻红,只有她道歉后依旧被骂惨

胡一舸南游y
2026-01-01 20:15:36
回顾探花大神:害人害己,多位女主被亲戚认出当场“社死”

回顾探花大神:害人害己,多位女主被亲戚认出当场“社死”

就一点
2025-10-09 12:19:42
宁肯停电也不找中国?越南硬逼5年建成核电站,日本直接掀桌子

宁肯停电也不找中国?越南硬逼5年建成核电站,日本直接掀桌子

芳芳历史烩
2025-12-27 19:28:19
中国为何大龄剩女泛滥成灾,专家:三大原因,一个比一个现实

中国为何大龄剩女泛滥成灾,专家:三大原因,一个比一个现实

一簌月光
2025-12-31 19:35:47
焦虑真的跟疾病有关,医生提醒:经常焦虑的人,要排查这5种疾病

焦虑真的跟疾病有关,医生提醒:经常焦虑的人,要排查这5种疾病

鬼菜生活
2026-01-03 10:26:59
5-4绝杀!斯诺克超级逆转:50岁老将4连鞭肖国栋!希金斯4-5落败

5-4绝杀!斯诺克超级逆转:50岁老将4连鞭肖国栋!希金斯4-5落败

小火箭爱体育
2026-01-02 23:26:31
以色列布局索马里兰,一招绝杀胡塞武装

以色列布局索马里兰,一招绝杀胡塞武装

史政先锋
2026-01-01 09:37:45
陈道明:人到50岁,最高级的自律不是早睡早起,不是运动,而是..

陈道明:人到50岁,最高级的自律不是早睡早起,不是运动,而是..

诗词中国
2026-01-01 18:53:11
人参立大功!西湖大学:人参成分可抗衰,72小时内激活年轻活力

人参立大功!西湖大学:人参成分可抗衰,72小时内激活年轻活力

番茄健康
2026-01-01 16:30:49
最后3天,中韩一切谈妥,高市早苗一败涂地,特朗普也背后捅刀

最后3天,中韩一切谈妥,高市早苗一败涂地,特朗普也背后捅刀

南宫一二
2026-01-02 19:09:08
微波炉居然还能这么用,被网友们的“微波炉用法”折服了,佩服

微波炉居然还能这么用,被网友们的“微波炉用法”折服了,佩服

美家指南
2025-12-04 12:17:55
关于S妈和小S不看小玥儿小菻菻,马筱梅这样回应,这样说!

关于S妈和小S不看小玥儿小菻菻,马筱梅这样回应,这样说!

振华观史
2026-01-03 10:17:08
英超19轮后 积分榜前8球队恰好是联赛冠军总数前8球队

英超19轮后 积分榜前8球队恰好是联赛冠军总数前8球队

智道足球
2026-01-02 17:45:07
郭正亮给了台湾“最好”出路?一国两制改1个字,或可统后不驻军

郭正亮给了台湾“最好”出路?一国两制改1个字,或可统后不驻军

顾史
2025-07-08 21:02:11
台湾统一的最大绊脚石不是美日,也不是“台独”,竟然是它?

台湾统一的最大绊脚石不是美日,也不是“台独”,竟然是它?

乐享人生风雨
2025-12-16 04:30:24
海警突发激烈对峙!为拦截美军火船入台,解放军做好随时开火准备

海警突发激烈对峙!为拦截美军火船入台,解放军做好随时开火准备

荐史
2025-12-30 22:12:12
黑杰伦的新专辑,MV女主好顶!

黑杰伦的新专辑,MV女主好顶!

贵圈真乱
2026-01-03 12:27:18
2026-01-03 12:47:00
七元宇宙 incentive-icons
七元宇宙
AI、Web3、Meta聚合型精选内容分享。以前沿视角,探索科技未来;让每一个人,都走在时代的前沿
2009文章数 92关注度
往期回顾 全部

科技要闻

比亚迪销冠!特斯拉2025年交付量跌逾8%

头条要闻

孩子后脑勺摔出一个大口子 夫妻看监控"眼泪就下来了"

头条要闻

孩子后脑勺摔出一个大口子 夫妻看监控"眼泪就下来了"

体育要闻

快船似乎又行了

娱乐要闻

“国服嫂子”司晓迪,曝与多位男星私照

财经要闻

人工智能四问:投资泡沫出现了吗?

汽车要闻

奕派科技全年销量275,752辆 同比增长28.3

态度原创

亲子
时尚
教育
旅游
军事航空

亲子要闻

金华9个月大婴儿怎么摇晃都不醒,被育儿嫂喂了安眠药

上年纪的女人别乱买衣服!有这3件单品就够了,温暖体面一冬

教育要闻

为什么会有极端不听话的孩子?

旅游要闻

文旅产品一键预订 元旦假期 外国游客在都江堰耍安逸了

军事要闻

跨年夜乌军袭击"俄控区"平民 已致27死

无障碍浏览 进入关怀版