网易首页 > 网易号 > 正文 申请入驻

AI Agent 是长期运行的“风险系统”,如果你还只在防 Prompt Injection,说明已经落后一代了

0
分享至


作者 | Sergio De Simone

译者 | 田橙

为防止大语言模型和 AI Agent 执行嵌入在外部数据中的恶意指令,所有进入 Agent 上下文的文本在完成校验之前都必须被视为不可信数据,其中不仅包括用户输入的提示,还包括来自外部系统的各类信息。AI 安全公司 CyberArk 的首席软件架构师 Niv Rabin 表示。为此,他所在的团队提出了一种基于“指令检测”(Instruction Detection)与“历史感知校验”(History-Aware Validation)的方法,用于同时防御恶意输入数据和上下文历史投毒攻击。

Rabin 介绍说,团队设计了多种防御机制,并将其组织成一个分层的处理流水线。流水线中的每一层都针对不同类型的威胁,目的是减少单一防护手段不可避免存在的盲区。

这些防御措施包括“蜜罐动作”(honeypot actions)以及指令检测器,用于拦截具备指令特征的文本,确保模型最终接触到的仅是经过验证、且不包含指令的数据。同时,这些机制也会应用于整个上下文历史中,以防止所谓的“历史投毒”(history poisoning)。这种攻击方式指的是,原本看似无害的内容片段在多轮交互中逐步累积,最终拼接成一条完整的恶意指令。

所谓“蜜罐动作”,本质上是一种用于诱捕恶意意图的安全陷阱,即 Agent 在任何正常业务场景下都不应选择的合成动作。

这些动作对应的是一些不会真正执行任何操作的虚拟工具。它们并非用于完成实际任务,而是作为安全信号存在,其工具描述被刻意设计成能够暴露可疑行为。

在提示中出现的可疑行为包括对系统内部机制的元层级探测、异常的数据提取尝试,以及试图诱导模型泄露系统提示(system prompt)的操纵行为等。如果 LLM 在动作映射阶段选择了其中一个蜜罐动作,通常就意味着存在明显的异常或越界行为。

Rabin 指出,真正的安全风险并不主要来自用户输入,而是来自外部 API 或数据库的返回结果。针对这一问题,团队引入了指令检测器作为关键防护手段。

这种检测已经不再是传统意义上对“恶意内容”的搜索,也并非基于关键词、文本毒性或策略违规的判断,而是聚焦于识别文本中所蕴含的意图、行为模式以及指令在结构层面的特征。

指令检测器本身是基于 LLM 构建的“裁判模型”。在任何外部数据被送入主模型之前,检测器都会对其进行审查,并被明确要求识别任何形式的指令,无论其表现得多么直白或隐蔽,从而使系统能够在第一时间阻断可疑数据。

此外,时间也被证明是一种重要的攻击向量。早期响应中零散存在的恶意指令片段,可能会在后续交互中被重新组合,最终形成一条完整指令。这种现象被称为“历史投毒”。

示意图展示了一个典型案例:LLM 被要求分别获取三段数据,单独来看,这些数据完全无害;但合并在一起后,内容实际拼成了一条指令,要求系统停止处理并返回特定结果。


为防止历史投毒,所有历史 API 响应都会与最新获取的数据一并提交给指令检测器,作为一个统一输入进行分析。

Rabin 指出,历史投毒并不是发生在数据进入系统的入口阶段,而是发生在系统从历史记录中重建上下文的过程中。通过引入这一机制,即便对话历史中隐藏着试图干扰模型推理的细微线索,系统也能够在模型受到影响之前及时发现异常。

上述所有步骤都会在同一条流水线中运行。一旦任意一个阶段检测到风险,请求就会在模型处理之前被直接拦截;只有通过全部校验后,模型才会处理已经净化过的数据。

Rabin 总结,这种方法的关键在于将 LLM 视为一个长期运行、跨多轮交互的工作流系统,而非一次性的请求响应组件。他在原文中对这一方案进行了更为深入的展开,对于关注 AI 安全问题的读者而言,值得进一步阅读。

https://www.infoq.com/news/2026/01/cyberark-agents-defenses/

声明:本文为 InfoQ 翻译,未经许可禁止转载。

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
山西一景区发布最大承载量的公告

山西一景区发布最大承载量的公告

黄河新闻网吕梁频道
2026-02-18 14:25:36
34岁文莱最帅王子当父亲了,两年前结婚,漂亮王妃和他门当户对

34岁文莱最帅王子当父亲了,两年前结婚,漂亮王妃和他门当户对

小书生吃瓜
2026-02-15 22:41:52
一天一次!降糖新药西格列他钠重磅上市空腹餐后都能管还能调血脂

一天一次!降糖新药西格列他钠重磅上市空腹餐后都能管还能调血脂

王二哥老搞笑
2026-02-18 22:28:45
国足迎来大喜讯 最理想外援本月就可归化 邵佳一或喜添中场小孔卡

国足迎来大喜讯 最理想外援本月就可归化 邵佳一或喜添中场小孔卡

零度眼看球
2026-02-18 08:28:08
俄罗斯至今都想不到,这场打了四年的俄乌战争,正在打掉自己国运

俄罗斯至今都想不到,这场打了四年的俄乌战争,正在打掉自己国运

安安说
2026-01-14 14:27:23
成为这个项目最伟大的运动员!徐梦桃创历史卫冕,邵琪斩获一枚铜牌!

成为这个项目最伟大的运动员!徐梦桃创历史卫冕,邵琪斩获一枚铜牌!

上观新闻
2026-02-18 21:50:05
哪些抵债方式让你出乎意料?网友:她没有再提,临走悄悄给了两万

哪些抵债方式让你出乎意料?网友:她没有再提,临走悄悄给了两万

夜深爱杂谈
2026-01-23 20:20:15
中国冰壶女队7-8不敌丹麦,循环赛2胜5负无缘4强

中国冰壶女队7-8不敌丹麦,循环赛2胜5负无缘4强

懂球帝
2026-02-18 19:04:44
宋喆近况曝光,今隐居县城太落魄,判若两人,前妻杨慧过上新生活

宋喆近况曝光,今隐居县城太落魄,判若两人,前妻杨慧过上新生活

丰谭笔录
2026-01-08 07:20:07
32.3万!丰田官宣:新车正式发布

32.3万!丰田官宣:新车正式发布

高科技爱好者
2026-02-18 23:16:49
就在今天!2月18日,冬奥最新金牌榜!0.09秒,中国队爆冷创历史

就在今天!2月18日,冬奥最新金牌榜!0.09秒,中国队爆冷创历史

皮皮观天下
2026-02-18 04:08:04
新加坡终于醒了?才过三个月,黄循财就痛斥日本:苦难教训极重!

新加坡终于醒了?才过三个月,黄循财就痛斥日本:苦难教训极重!

青青子衿
2026-02-17 22:11:09
回顾“91女神”琪琪:五官出众,却因天真让自己“受伤”

回顾“91女神”琪琪:五官出众,却因天真让自己“受伤”

就一点
2025-11-22 10:36:39
与名模离婚净身出户5年后,40岁的前男篮国手孙悦,今已判若两人

与名模离婚净身出户5年后,40岁的前男篮国手孙悦,今已判若两人

小熊侃史
2026-02-16 07:10:12
未来新星 + 3000 万!皇马砸王炸求购利物浦核心,谈判已启动!

未来新星 + 3000 万!皇马砸王炸求购利物浦核心,谈判已启动!

澜归序
2026-02-18 06:08:48
一家三口开特斯拉跑1600公里,花费让人惊掉下巴

一家三口开特斯拉跑1600公里,花费让人惊掉下巴

华庭讲美食
2026-02-18 13:34:07
北京男子张先生去世,年仅38岁,儿女上小学,误诊20多天错过治疗

北京男子张先生去世,年仅38岁,儿女上小学,误诊20多天错过治疗

法老不说教
2025-12-25 13:40:58
收好不谢,都是些《镖人》电影没法播的图

收好不谢,都是些《镖人》电影没法播的图

动漫艺术家
2026-02-17 18:32:33
林孝埈保持大赛连续3年500米爆发定律,冬奥救赎之战验证巨星成色

林孝埈保持大赛连续3年500米爆发定律,冬奥救赎之战验证巨星成色

杨华评论
2026-02-17 22:26:19
国安部“点名”张艺谋,释放三个强烈信号,原来我们确实低估他了

国安部“点名”张艺谋,释放三个强烈信号,原来我们确实低估他了

生命之泉的奥秘
2026-01-25 06:30:36
2026-02-18 23:56:49
InfoQ incentive-icons
InfoQ
有内容的技术社区媒体
12064文章数 51756关注度
往期回顾 全部

科技要闻

怒烧45亿,腾讯字节阿里决战春节

头条要闻

36岁徐梦桃卫冕:16年间参加5届冬奥 10年做4次大手术

头条要闻

36岁徐梦桃卫冕:16年间参加5届冬奥 10年做4次大手术

体育要闻

首金!苏翊鸣唱国歌落泪 自信比1呐喊

娱乐要闻

明星过年百态!黄晓明等现身三亚

财经要闻

面条火腿香菇酱!上市公司这些年请你吃

汽车要闻

量产甲醇插混 吉利银河星耀6甲醇插混版申报图

态度原创

时尚
本地
数码
健康
公开课

马年壁纸送上,祝大家新年快乐,马上发财!

本地新闻

春花齐放2026:《骏马奔腾迎新岁》

数码要闻

谷歌 Android XR 设计文档曝光,安卓17流畅度提升

转头就晕的耳石症,能开车上班吗?

公开课

李玫瑾:为什么性格比能力更重要?

无障碍浏览 进入关怀版