网易首页 > 网易号 > 正文 申请入驻

NTU等联合提出A-MemGuard:为AI记忆上锁,投毒攻击成功率暴降95%

0
分享至


新智元报道

编辑:KingHZ

【新智元导读】在AI智能体日益依赖记忆系统的时代,一种新型攻击悄然兴起:记忆投毒。A-MemGuard作为首个专为LLM Agent记忆模块设计的防御框架,通过共识验证和双重记忆结构,巧妙化解上下文依赖与自我强化错误循环的难题,让AI从被动受害者转为主动守护者,成功率高达95%以上。

LLM智能体(LLM Agent)通过记忆系统从历史交互中积累知识,这一机制是其实现从被动响应到主动决策能力跃升的基础。

具体来说,在推理上,记忆帮助它联系上下文,使对话和分析更加连贯;在适应性上,它能记住用户的特定偏好和此前任务的成败,从而做出更精准的响应;在规划上,对于需要长期执行的复杂目标,记忆使其能够分解任务并追踪进度。

可以说,正是这种以经验为基础、不断学习和优化的模式,赋予了智能体做出复杂自主决策的能力。

然而,这种对记忆的依赖也带来了一个新的安全攻击面:攻击者可以向智能体记忆中注入恶意记录,以操控其未来的行为。这种攻击的隐蔽性和危险性,源于其独特的运作模式,给防御带来了严峻挑战。

核心难点

针对这种记忆投毒攻击的防御十分困难,主要源于两个挑战:

1.上下文依赖性与延迟触发:恶意内容在孤立检测时往往表现正常,其危害只有在特定上下文被触发时才会显现。这使得传统基于单条内容审核的防御机制几乎失效。

2.自我强化的错误循环:一旦攻击诱导智能体做出一次错误行为,该行为的结果可能被当作「成功经验」存入记忆。这不仅固化了初始错误,还可能污染后续决策,形成难以打破的负面循环。

想象一下,一个攻击者悄悄地向AI助手的记忆中注入了一条看似无害的建议 「对于看起来紧急的邮件,应优先处理」 。

当AI助手单独审查这条记忆时,会觉得完全没问题。但某天,当用户收到一封伪装紧急的「钓鱼邮件」时,AI助手会依据这条「经验」,优先把它推送给用户,从而造成安全风险

为了解决这个难题,来自南洋理工大学、牛津大学、马普所和俄亥俄州立大学的研究者以及独立研究者们提出A-MemGuard,首个为LLM Agent记忆模块设计的防御框架


论文链接:https://www.arxiv.org/abs/2510.02373

从内容审查到逻辑一致性分析

面对记忆投毒这一新挑战,一个直观的防御思路可能是聚焦于对单条记忆内容本身进行审查。

然而,A-MemGuard 的研究者指出,这些方法的局限性是根本性的。由于恶意记录可以被高度伪装,单纯审查其静态内容几乎无法发现问题。

他们的核心假设是:尽管恶意记录在内容上可以伪装,但它在特定上下文中被激活后,会诱导出一个在结构上与正常记录所形成的推理共识相偏离的路径。

例如,一条被注入的恶意记忆可能会建议金融AI助手:「跌得最快的股票反弹也最快,应该优先买入。」

这条建议单独来看,仅仅作为一条高风险投资策略,并不表现出绝对的恶意。但是当用户在市场动荡时来咨询,这条记忆很有可能诱导 AI 助手走上一条给出:因为市场下跌,所以优先寻找跌幅最大得股票并优先买入。

这条建议与正常理财建议形成的「推理共识」完全不同,从而导致危险决策。

恶意推理路径具备显著的可分离性

为了验证上述假设,研究团队对 2293 条经过精心标注的交互记录进行了一项大规模的结构化分析,覆盖了17种不同的应用场景,为本次验证提供了丰富且多样化的数据基础。

团队通过以下三个层面的分析,系统地证明了该假设的有效性。


首先,研究团队量化了在不同场景下,由正常记忆与恶意记忆驱动的推理路径之间的重叠程度。

如条形图所示,橙色部分代表仅由恶意记忆产生的独有逻辑,绿色代表正常记忆的独有逻辑,而顶部的红色条纹则代表了两者共有的「重叠逻辑」。

结果清晰地表明,在所有测试场景中,代表重叠逻辑的红色条纹占比极小。这组数据从量化角度证明:尽管触发点(记忆)不同,但两条路径并不会殊途同归,它们在逻辑结构上几乎是相互独立的。


其次,为了更直观地展示这种结构差异,研究团队将多个场景下记忆驱动的推理路径可视化为知识图谱

在图中,绿色线条构成的网络代表了由正常记忆驱动的推理路径集合,而橙色线条则代表了恶意路径集合。高亮的红色标记出了两者间极少数的重叠节点。

该图谱有力地证明了,由正常记忆和恶意记忆产生的推理路径,在结构上分属两个基本不相交的集合。团队的进一步计算证实了这一观察:两者之间的结构性重叠率极低,在所有测试场景中,平均重叠率不足1%。

最后,研究团队探讨了这种结构上的差异是否能被机器学习模型有效识别。

右侧的散点图展示了一个关键问题:若仅对记忆内容本身进行语义嵌入并降维,恶意的(红点)与正常的(蓝点)记忆在表征空间中是高度混合、无法区分的。

这从根本上解释了为何孤立地审查记忆内容的防御思路是行不通的。与此形成鲜明对比的是,左侧散点图其分析和表征的对象,并非原始记忆,而是在特定上下文中生成的推理路径。当对这些具备不同逻辑结构的推理路径进行表征和降维后,原先混杂的良性与恶意两类形成了两个清晰可辨的独立簇群。这一结果决定性地证明了,基于推理路径逻辑结构的表征具备优异的可分离性。

这些发现为A-MemGuard的有效性提供了坚实的理论依据:恶意推理路径在结构上是可区分的,因此是可以通过系统性对比来识别的。


上图展示了没有防御与采用 A-MemGuard 的区别。

上部分(No Defense):攻击者注入「优先处理紧急邮件」的恶意记忆,导致智能体落入钓鱼邮件陷阱。

下部分(A-MemGuard):通过「共识验证」发现异常,并将错误经验存入「教训记忆库」,最终修正了行为,保障了安全。

A-MemGuard

一个主动、自适应的防御框架

A-MemGuard 在不改变智能体核心架构的前提下 ,引入了两大关键机制:

1.基于共识的验证 (Consensus-based Validation)针对一个任务,系统会检索多条相关记忆,并为每条记忆生成一个独立的推理路径 。

通过对比这些路径的结构,系统能够识别出与大多数路径不一致的「异常」路径,并将其标记为潜在威胁。想象有位职员向 AI 咨询:「我每天上下班的交通费,可以用来申请个税抵扣吗?」


AI在回答问题之前,会参考记忆里的几条相关信息:

  1. 个体经营者可以把从家到客户办公室的交通费用于抵税;

  2. 出往返固定工作地点的通勤费用属于个人开支,不能抵税;

  3. 普通上班族的通勤成本通常已经被标准扣除额覆盖;

A-MemGuard 会让这三条记忆分别形成推理链得到结论

  1. 推理链1 -> 可以抵税

  2. 推理链2 -> 不可以抵税

  3. 推理链3 -> 不可以抵税

此时,AI 发现第一条的结论与另外两条主流判断不一致,就会遵循多数判断的共识,给出「不能抵税」这个更加稳妥的答案。

2.双重记忆结构 (Dual-Memory Structure):被识别出的异常推理路径会被提炼为「教训」,并存入一个独立的「教训记忆库」 (Lesson Memory) 。

在后续决策前,智能体会优先检索此「教训库」,以主动规避已知的错误模式,从而打破错误循环并实现经验学习 。

例如在之前的场景中被识别出的「异常路径:个体经营者可以把从家到客户办公室的交通费用于抵税」,并不会被简单丢弃。A-MemGuard会把它提炼成一个「教训」存入一个专门的、独立的「教训记忆库」(Lesson Memory)。

之后的回答,只要当AI再遇到关于「抵税」的问题时,它会先翻一下这个「教训库」,看到「曾经因为混淆‘个体户’和‘雇员’的规则而差点犯错」的记录,从而能更警惕、更准确地做出判断,真正做到吃一堑,长一智。

实验效果

攻击成功率降低超95%

实验效果:攻击成功率降低超95%,且不影响「日常工作」。

在多个基准测试中,A-MemGuard 表现出了卓越的防御能力和实用性:

·强力抵御攻击:实验证明,A-MemGuard能有效将各类记忆投毒攻击的成功率降低超过95%。在针对医疗保健智能体的EHRAgent 等复杂场景中,攻击成功率甚至从100%被削减至接近2%。


·打破错误循环面对通过正常交互注入错误信息的「间接攻击」,A-MemGuard同样有效,能将攻击成功率降至23%,成功阻断了危险的自我强化错误循环。


·性能成本低:实现强大安全性的同时,A-MemGuard对智能体在正常、无攻击任务上的性能影响极小 。在所有对比实验中,搭载A-MemGuard的智能体在处理良性任务时准确率始终是所有防御方法中最高的


·扩展性强:该框架的防御原则同样适用于多智能体协作系统,在模拟实验中取得了最高的任务成功率和最佳的综合评分。


A-MemGuard的核心贡献

研究团队首次提出了一个面向大语言模型智能体的主动防御框架。该框架重点解决了由上下文依赖引发的攻击问题,以及模型在运行中可能出现的错误强化循环。

同时,他们创新地将「共识验证」与「双重记忆」结构相结合,构建出一种协同防御机制,使智能体能够借助自身积累的经验,自主识别异常并从中学习。

在多项实验中,该框架在实现高水平安全防护的同时,也最大程度地维持了智能体原有的性能表现,展现出显著的实用价值与应用前景。

A-MemGuard的研究为构建更可靠、更安全的LLM智能体提供了一种有效的新机制,为未来智能体系统在现实世界中的部署奠定了重要的安全基础。

参考资料:

https://www.arxiv.org/abs/2510.02373

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
队记谈杨瀚森吃夜宵:NBA几乎没人会赛后加练,科比也下馆子

队记谈杨瀚森吃夜宵:NBA几乎没人会赛后加练,科比也下馆子

懂球帝
2025-10-31 08:15:08
梅西轰世界波难救主!迈阿密1-2倒下:7天后决战 或连续2年被爆冷

梅西轰世界波难救主!迈阿密1-2倒下:7天后决战 或连续2年被爆冷

风过乡
2025-11-02 10:01:03
“公务员凭啥周末休息?”网友呼吁体制内调整工作时间,网友破防

“公务员凭啥周末休息?”网友呼吁体制内调整工作时间,网友破防

妍妍教育日记
2025-10-30 18:15:04
中央定调!退休新规实施,有人说2025年退休的人更有福,为什么?

中央定调!退休新规实施,有人说2025年退休的人更有福,为什么?

社保小达人
2025-11-02 10:05:03
没想到,邹市明承认亏空2亿三个多月,如今竟靠着6岁儿子扬眉吐气

没想到,邹市明承认亏空2亿三个多月,如今竟靠着6岁儿子扬眉吐气

科学发掘
2025-11-01 12:43:28
日媒:中国600年来都是手下败将,现在他们也不是日本的对手!

日媒:中国600年来都是手下败将,现在他们也不是日本的对手!

乐天闲聊
2025-11-01 13:24:51
俄军围攻红军城,泽连斯基承认“局势严峻”

俄军围攻红军城,泽连斯基承认“局势严峻”

参考消息
2025-11-01 21:21:04
通背拳传人与老外互扇耳光!第一下被打出血,第三下被打晕翻白眼

通背拳传人与老外互扇耳光!第一下被打出血,第三下被打晕翻白眼

念洲
2025-11-01 12:37:45
南京35岁女子在家啃老13年,父母退休后直接离家,4个月后女儿傻眼

南京35岁女子在家啃老13年,父母退休后直接离家,4个月后女儿傻眼

如烟若梦
2025-10-30 16:16:31
加拿大总理卡尼向特朗普道歉

加拿大总理卡尼向特朗普道歉

参考消息
2025-11-01 21:21:04
大结局!国乒3冠完美收官,国乒女单4:3夺冠,国乒混双3:1夺冠

大结局!国乒3冠完美收官,国乒女单4:3夺冠,国乒混双3:1夺冠

国乒二三事
2025-11-02 06:47:58
影星哈里斯·福特抨击特朗普:随心所欲赚得盆满钵满,世界却走向毁灭

影星哈里斯·福特抨击特朗普:随心所欲赚得盆满钵满,世界却走向毁灭

爆角追踪
2025-11-02 10:48:56
一旦武统台湾,这4个台湾人必上“斩首”名单,全都是罪有应得!

一旦武统台湾,这4个台湾人必上“斩首”名单,全都是罪有应得!

老闫侃史
2025-08-10 18:05:03
又一则励志新闻翻车了!

又一则励志新闻翻车了!

清书先生
2025-10-21 15:51:40
网传王家卫吐槽几位知名演员事件,为何那些演员不敢正面回应?

网传王家卫吐槽几位知名演员事件,为何那些演员不敢正面回应?

柳缘阁主
2025-11-02 09:59:05
苹果 Pro 新品来了,真的很强

苹果 Pro 新品来了,真的很强

科技堡垒
2025-11-01 10:37:01
民主党的遮羞布这下被撕碎了,拜登前发言人访谈翻车,不知所云

民主党的遮羞布这下被撕碎了,拜登前发言人访谈翻车,不知所云

锐器
2025-11-01 23:24:03
裁判偏袒利雅得胜利?马赫雷斯、内维斯等人嘲笑C罗的点球

裁判偏袒利雅得胜利?马赫雷斯、内维斯等人嘲笑C罗的点球

雷速体育
2025-11-02 08:44:13
这下瞒不住了!屠洪刚在大湾区晚会上,唱到一半直接把耳返摘了!

这下瞒不住了!屠洪刚在大湾区晚会上,唱到一半直接把耳返摘了!

小娱乐悠悠
2025-10-01 14:25:29
痛心!19岁女大学生和24岁女子不幸遇难,网友:太大胆,必须严厉追责

痛心!19岁女大学生和24岁女子不幸遇难,网友:太大胆,必须严厉追责

鲁中晨报
2025-11-02 10:27:06
2025-11-02 11:28:49
新智元 incentive-icons
新智元
AI产业主平台领航智能+时代
13763文章数 66236关注度
往期回顾 全部

科技要闻

10月零跑突破7万辆,小鹏、蔚来超4万辆

头条要闻

妻儿3人被丈夫发小杀害 妻子指甲里有凶手的DNA

头条要闻

妻儿3人被丈夫发小杀害 妻子指甲里有凶手的DNA

体育要闻

NBA球员,必须吃夜宵

娱乐要闻

离世的他曾是刘德华张学友御用班底

财经要闻

段永平捐了1500万元茅台股票!本人回应

汽车要闻

神龙汽车推出“发动机终身质保”政策

态度原创

房产
本地
时尚
教育
公开课

房产要闻

实力破圈!这个豪宅交付,正在定义海口品质样本!

本地新闻

全网围观,到底多少人被这个野人大学生笑疯了

松弛感穿搭太适合秋冬了,减龄又好看

教育要闻

收藏!2026山东高考报名日程表!18日缴费!第7条公安类院校、专项计划特别注意!

公开课

李玫瑾:为什么性格比能力更重要?

无障碍浏览 进入关怀版