网易首页 > 网易号 > 正文 申请入驻

NTU等联合提出A-MemGuard:为AI记忆上锁,投毒攻击成功率暴降95%

0
分享至


新智元报道

编辑:KingHZ

【新智元导读】在AI智能体日益依赖记忆系统的时代,一种新型攻击悄然兴起:记忆投毒。A-MemGuard作为首个专为LLM Agent记忆模块设计的防御框架,通过共识验证和双重记忆结构,巧妙化解上下文依赖与自我强化错误循环的难题,让AI从被动受害者转为主动守护者,成功率高达95%以上。

LLM智能体(LLM Agent)通过记忆系统从历史交互中积累知识,这一机制是其实现从被动响应到主动决策能力跃升的基础。

具体来说,在推理上,记忆帮助它联系上下文,使对话和分析更加连贯;在适应性上,它能记住用户的特定偏好和此前任务的成败,从而做出更精准的响应;在规划上,对于需要长期执行的复杂目标,记忆使其能够分解任务并追踪进度。

可以说,正是这种以经验为基础、不断学习和优化的模式,赋予了智能体做出复杂自主决策的能力。

然而,这种对记忆的依赖也带来了一个新的安全攻击面:攻击者可以向智能体记忆中注入恶意记录,以操控其未来的行为。这种攻击的隐蔽性和危险性,源于其独特的运作模式,给防御带来了严峻挑战。

核心难点

针对这种记忆投毒攻击的防御十分困难,主要源于两个挑战:

1.上下文依赖性与延迟触发:恶意内容在孤立检测时往往表现正常,其危害只有在特定上下文被触发时才会显现。这使得传统基于单条内容审核的防御机制几乎失效。

2.自我强化的错误循环:一旦攻击诱导智能体做出一次错误行为,该行为的结果可能被当作「成功经验」存入记忆。这不仅固化了初始错误,还可能污染后续决策,形成难以打破的负面循环。

想象一下,一个攻击者悄悄地向AI助手的记忆中注入了一条看似无害的建议 「对于看起来紧急的邮件,应优先处理」 。

当AI助手单独审查这条记忆时,会觉得完全没问题。但某天,当用户收到一封伪装紧急的「钓鱼邮件」时,AI助手会依据这条「经验」,优先把它推送给用户,从而造成安全风险

为了解决这个难题,来自南洋理工大学、牛津大学、马普所和俄亥俄州立大学的研究者以及独立研究者们提出A-MemGuard,首个为LLM Agent记忆模块设计的防御框架


论文链接:https://www.arxiv.org/abs/2510.02373

从内容审查到逻辑一致性分析

面对记忆投毒这一新挑战,一个直观的防御思路可能是聚焦于对单条记忆内容本身进行审查。

然而,A-MemGuard 的研究者指出,这些方法的局限性是根本性的。由于恶意记录可以被高度伪装,单纯审查其静态内容几乎无法发现问题。

他们的核心假设是:尽管恶意记录在内容上可以伪装,但它在特定上下文中被激活后,会诱导出一个在结构上与正常记录所形成的推理共识相偏离的路径。

例如,一条被注入的恶意记忆可能会建议金融AI助手:「跌得最快的股票反弹也最快,应该优先买入。」

这条建议单独来看,仅仅作为一条高风险投资策略,并不表现出绝对的恶意。但是当用户在市场动荡时来咨询,这条记忆很有可能诱导 AI 助手走上一条给出:因为市场下跌,所以优先寻找跌幅最大得股票并优先买入。

这条建议与正常理财建议形成的「推理共识」完全不同,从而导致危险决策。

恶意推理路径具备显著的可分离性

为了验证上述假设,研究团队对 2293 条经过精心标注的交互记录进行了一项大规模的结构化分析,覆盖了17种不同的应用场景,为本次验证提供了丰富且多样化的数据基础。

团队通过以下三个层面的分析,系统地证明了该假设的有效性。


首先,研究团队量化了在不同场景下,由正常记忆与恶意记忆驱动的推理路径之间的重叠程度。

如条形图所示,橙色部分代表仅由恶意记忆产生的独有逻辑,绿色代表正常记忆的独有逻辑,而顶部的红色条纹则代表了两者共有的「重叠逻辑」。

结果清晰地表明,在所有测试场景中,代表重叠逻辑的红色条纹占比极小。这组数据从量化角度证明:尽管触发点(记忆)不同,但两条路径并不会殊途同归,它们在逻辑结构上几乎是相互独立的。


其次,为了更直观地展示这种结构差异,研究团队将多个场景下记忆驱动的推理路径可视化为知识图谱

在图中,绿色线条构成的网络代表了由正常记忆驱动的推理路径集合,而橙色线条则代表了恶意路径集合。高亮的红色标记出了两者间极少数的重叠节点。

该图谱有力地证明了,由正常记忆和恶意记忆产生的推理路径,在结构上分属两个基本不相交的集合。团队的进一步计算证实了这一观察:两者之间的结构性重叠率极低,在所有测试场景中,平均重叠率不足1%。

最后,研究团队探讨了这种结构上的差异是否能被机器学习模型有效识别。

右侧的散点图展示了一个关键问题:若仅对记忆内容本身进行语义嵌入并降维,恶意的(红点)与正常的(蓝点)记忆在表征空间中是高度混合、无法区分的。

这从根本上解释了为何孤立地审查记忆内容的防御思路是行不通的。与此形成鲜明对比的是,左侧散点图其分析和表征的对象,并非原始记忆,而是在特定上下文中生成的推理路径。当对这些具备不同逻辑结构的推理路径进行表征和降维后,原先混杂的良性与恶意两类形成了两个清晰可辨的独立簇群。这一结果决定性地证明了,基于推理路径逻辑结构的表征具备优异的可分离性。

这些发现为A-MemGuard的有效性提供了坚实的理论依据:恶意推理路径在结构上是可区分的,因此是可以通过系统性对比来识别的。


上图展示了没有防御与采用 A-MemGuard 的区别。

上部分(No Defense):攻击者注入「优先处理紧急邮件」的恶意记忆,导致智能体落入钓鱼邮件陷阱。

下部分(A-MemGuard):通过「共识验证」发现异常,并将错误经验存入「教训记忆库」,最终修正了行为,保障了安全。

A-MemGuard

一个主动、自适应的防御框架

A-MemGuard 在不改变智能体核心架构的前提下 ,引入了两大关键机制:

1.基于共识的验证 (Consensus-based Validation)针对一个任务,系统会检索多条相关记忆,并为每条记忆生成一个独立的推理路径 。

通过对比这些路径的结构,系统能够识别出与大多数路径不一致的「异常」路径,并将其标记为潜在威胁。想象有位职员向 AI 咨询:「我每天上下班的交通费,可以用来申请个税抵扣吗?」


AI在回答问题之前,会参考记忆里的几条相关信息:

  1. 个体经营者可以把从家到客户办公室的交通费用于抵税;

  2. 出往返固定工作地点的通勤费用属于个人开支,不能抵税;

  3. 普通上班族的通勤成本通常已经被标准扣除额覆盖;

A-MemGuard 会让这三条记忆分别形成推理链得到结论

  1. 推理链1 -> 可以抵税

  2. 推理链2 -> 不可以抵税

  3. 推理链3 -> 不可以抵税

此时,AI 发现第一条的结论与另外两条主流判断不一致,就会遵循多数判断的共识,给出「不能抵税」这个更加稳妥的答案。

2.双重记忆结构 (Dual-Memory Structure):被识别出的异常推理路径会被提炼为「教训」,并存入一个独立的「教训记忆库」 (Lesson Memory) 。

在后续决策前,智能体会优先检索此「教训库」,以主动规避已知的错误模式,从而打破错误循环并实现经验学习 。

例如在之前的场景中被识别出的「异常路径:个体经营者可以把从家到客户办公室的交通费用于抵税」,并不会被简单丢弃。A-MemGuard会把它提炼成一个「教训」存入一个专门的、独立的「教训记忆库」(Lesson Memory)。

之后的回答,只要当AI再遇到关于「抵税」的问题时,它会先翻一下这个「教训库」,看到「曾经因为混淆‘个体户’和‘雇员’的规则而差点犯错」的记录,从而能更警惕、更准确地做出判断,真正做到吃一堑,长一智。

实验效果

攻击成功率降低超95%

实验效果:攻击成功率降低超95%,且不影响「日常工作」。

在多个基准测试中,A-MemGuard 表现出了卓越的防御能力和实用性:

·强力抵御攻击:实验证明,A-MemGuard能有效将各类记忆投毒攻击的成功率降低超过95%。在针对医疗保健智能体的EHRAgent 等复杂场景中,攻击成功率甚至从100%被削减至接近2%。


·打破错误循环面对通过正常交互注入错误信息的「间接攻击」,A-MemGuard同样有效,能将攻击成功率降至23%,成功阻断了危险的自我强化错误循环。


·性能成本低:实现强大安全性的同时,A-MemGuard对智能体在正常、无攻击任务上的性能影响极小 。在所有对比实验中,搭载A-MemGuard的智能体在处理良性任务时准确率始终是所有防御方法中最高的


·扩展性强:该框架的防御原则同样适用于多智能体协作系统,在模拟实验中取得了最高的任务成功率和最佳的综合评分。


A-MemGuard的核心贡献

研究团队首次提出了一个面向大语言模型智能体的主动防御框架。该框架重点解决了由上下文依赖引发的攻击问题,以及模型在运行中可能出现的错误强化循环。

同时,他们创新地将「共识验证」与「双重记忆」结构相结合,构建出一种协同防御机制,使智能体能够借助自身积累的经验,自主识别异常并从中学习。

在多项实验中,该框架在实现高水平安全防护的同时,也最大程度地维持了智能体原有的性能表现,展现出显著的实用价值与应用前景。

A-MemGuard的研究为构建更可靠、更安全的LLM智能体提供了一种有效的新机制,为未来智能体系统在现实世界中的部署奠定了重要的安全基础。

参考资料:

https://www.arxiv.org/abs/2510.02373

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
陈俊崧惊艳多哈,不被看好的左手在扛旗,谁又能定义他这特殊打法

陈俊崧惊艳多哈,不被看好的左手在扛旗,谁又能定义他这特殊打法

徐骧老表哥
2026-01-16 12:35:13
U23男足3场亚洲杯总结:2人少用,3人快调整,6人能踢国足主力

U23男足3场亚洲杯总结:2人少用,3人快调整,6人能踢国足主力

男足的小球童
2026-01-15 16:43:30
聂卫平本可以安享晚年!生前生活放纵、烟不离手,坏习惯害了他

聂卫平本可以安享晚年!生前生活放纵、烟不离手,坏习惯害了他

老吴教育课堂
2026-01-16 01:34:54
女演员佟丽娅连续三年收到苏翊鸣赠送的滑板,承诺“今年一定站上雪道”,两人因《智取威虎山》结缘

女演员佟丽娅连续三年收到苏翊鸣赠送的滑板,承诺“今年一定站上雪道”,两人因《智取威虎山》结缘

极目新闻
2026-01-15 11:22:20
跟了自己十几年的贴身秘书,是美国间谍?仅一个眼神就发现不对劲

跟了自己十几年的贴身秘书,是美国间谍?仅一个眼神就发现不对劲

墨兰史书
2026-01-03 05:45:03
1995年,葛优拍戏赚了350万,谁知贺聪转身就在北京买了4套房。

1995年,葛优拍戏赚了350万,谁知贺聪转身就在北京买了4套房。

南权先生
2025-12-24 16:55:06
大当家没打!勇士半场领先3分,巴特勒15+4+2攻防一体!

大当家没打!勇士半场领先3分,巴特勒15+4+2攻防一体!

运筹帷幄的篮球
2026-01-16 12:17:59
新一轮货币宽松到来

新一轮货币宽松到来

泽平宏观展望
2026-01-16 00:07:16
王鸥王仁君新年拜访曹翠芬,81岁没子女住北京,家里简朴挺温馨

王鸥王仁君新年拜访曹翠芬,81岁没子女住北京,家里简朴挺温馨

李健政观察
2026-01-15 12:06:39
1950年,师级首长在成都遭活剥?毛主席拍案而起:116万土匪,一个不留!

1950年,师级首长在成都遭活剥?毛主席拍案而起:116万土匪,一个不留!

寄史言志
2026-01-07 20:37:09
大学生偷外卖被拘5日,警方的通报公开立在外卖架旁,派出所:是为了警示教育

大学生偷外卖被拘5日,警方的通报公开立在外卖架旁,派出所:是为了警示教育

极目新闻
2026-01-15 19:44:57
中年觉醒:经营好自己的40-50岁

中年觉醒:经营好自己的40-50岁

诗词中国
2026-01-14 20:47:21
特朗普开战前,中方先发制人,2则警告按住美军,断的就是美后路

特朗普开战前,中方先发制人,2则警告按住美军,断的就是美后路

浪子阿邴聊体育
2026-01-15 12:03:37
罗马诺:皇马内部很欣赏克洛普,但请他的前提他想重返教练席

罗马诺:皇马内部很欣赏克洛普,但请他的前提他想重返教练席

懂球帝
2026-01-16 00:27:11
金立群卸任亚投行行长

金立群卸任亚投行行长

三湘都市报
2026-01-16 00:35:37
美军集结!特朗普或24小时内打击伊朗,中国能源命脉将遭受冲击?

美军集结!特朗普或24小时内打击伊朗,中国能源命脉将遭受冲击?

纾瑶
2026-01-15 20:11:46
毛远新叫江青“妈妈”,毛主席严厉呵斥:你亲爹是毛泽民,不要六亲不认!

毛远新叫江青“妈妈”,毛主席严厉呵斥:你亲爹是毛泽民,不要六亲不认!

历史回忆室
2026-01-13 23:39:16
大姑子一家欧洲游花30万,账单寄我家,我转发给婆婆,她秒回

大姑子一家欧洲游花30万,账单寄我家,我转发给婆婆,她秒回

热心市民小黄
2026-01-16 11:14:51
难道我们都被当年明月的叙述 “带偏” 了?现实中的徐霞客处境十分艰难,根本不是可以效仿的对象

难道我们都被当年明月的叙述 “带偏” 了?现实中的徐霞客处境十分艰难,根本不是可以效仿的对象

老杉说历史
2026-01-15 22:45:26
杨瀚森带领混音队豪取胜利,展现新星内线统治力

杨瀚森带领混音队豪取胜利,展现新星内线统治力

诗远文案馆
2026-01-16 12:40:11
2026-01-16 13:11:00
新智元 incentive-icons
新智元
AI产业主平台领航智能+时代
14342文章数 66503关注度
往期回顾 全部

科技要闻

被网友"催"着走,小米紧急"抄"了特斯拉

头条要闻

特朗普终于拿到诺奖 马查多或为换取委内瑞拉总统宝座

头条要闻

特朗普终于拿到诺奖 马查多或为换取委内瑞拉总统宝座

体育要闻

聂卫平:黑白棋盘上的凡人棋圣

娱乐要闻

黄慧颐手撕保剑锋 曾黎意外卷入风波

财经要闻

深圳有白银商家爆雷 维权群超350人

汽车要闻

从 "商务" 变 "潮酷" 全新一汽奥迪A6L首秀亮相

态度原创

健康
游戏
房产
公开课
军事航空

血常规3项异常,是身体警报!

谁都能做恐怖游戏 但迅哥留下的“人窟”你敢进吗?

房产要闻

突发!商业用房购房贷款最低首付比例下调至30%

公开课

李玫瑾:为什么性格比能力更重要?

军事要闻

美国已正式开始出售委内瑞拉石油

无障碍浏览 进入关怀版