厦门大学团队找到了让AI"选择性失忆"的优雅方法，代价几乎为零|gd|数学|实验|新论文

分享至

这项由厦门大学信息学院与人工智能研究院联合领导、厦门大学胶片学院及国防科技大学协同参与的研究，发表于2026年第43届国际机器学习大会（ICML 2026），论文编号为arXiv:2605.18879。

大型语言模型（也就是ChatGPT、LLaMA这类AI）的训练方式，就像是让一个孩子把整个图书馆的书都读一遍。读得越多，懂得越多，本来是好事。但问题来了：书里不只有百科全书和诗歌，还有各种隐私信息、有害内容、过时的错误知识。等孩子长大，你想让他"忘掉"其中某些不该记住的东西，才发现这件事比你想象的要难得多。

研究团队面对的正是这个难题。现有的"让AI忘事"方案要么代价极大——把AI推倒重来重新训练，就像因为孩子记了几条错误信息就让他重读十二年书；要么副作用严重——用一种粗暴的方式强行让AI忘掉某些内容，结果连带着把旁边的正常知识也一起损毁了，就像为了消除脑子里一段不好的记忆，把整块脑区都烧掉。

这支来自厦门大学的团队提出了一个完全不同的思路，他们把这套方法叫做ZeroUnlearn。他们的核心想法是：与其让AI"忘掉"敏感知识，不如把那些敏感知识"重新覆写"，让AI在遇到危险问题时，输出的不再是有害答案，而是一种中性的、无意义的终止信号。更精妙的是，这个覆写过程可以做得极度精准，只动"需要动的那一小块"，完全不影响AI其余的知识储备。

一、为什么"让AI忘事"这么难

先来理解一下AI是怎么存储知识的。现代大型语言模型内部有数十亿个参数，每个参数都是一个数字，知识就分散编码在这些数字的分布关系里。你没法打开AI的大脑，找到"法国首都是巴黎"这条记忆住在哪个格子里，然后把它单独删掉。知识是弥散的、交织的，像一张复杂的蜘蛛网，每一根丝都可能和多条知识有关。

目前常见的方案大概有两类。第一类是"梯度上升"（研究里简称GA），原理是：训练AI的时候，我们通过反复让它做对题、调整参数来让它学会知识；那忘掉知识，就反过来，把调整方向倒过来，让AI在这道题上变得越来越"错"。道理上行得通，但实际操作就像你用橡皮猛力擦掉试卷上一个字，结果把纸都擦破了，周围好几个字也跟着毁了。实验数据证明，GA让AI的"困惑度"（衡量语言模型正常程度的指标，越低越好）直接爆炸到超过1000，而原始AI只有七八左右——这基本意味着AI说话已经完全乱了套。

第二类是"微调"（FT），原理是：既然要忘掉旧答案，那就强行训练AI给出新答案。听起来温柔一些，但同样有灾难性副作用。在实验里，用这种方式处理后，AI对于"邻近知识"（和被删除知识相关但不应该被删除的知识）的保留率直接跌到了接近零——也就是说，为了删掉一条信息，AI把整片相关知识都一并丢失了。

研究团队由此看到了机会：现有方法的核心问题，是它们太粗糙，影响范围太大。能不能找到一把精确到毫米级的手术刀，而不是一把大锤？

二、从"知识编辑"里得到的灵感

这支团队的灵感来自另一个AI研究领域——"知识编辑"。知识编辑做的事是：当AI记错了或者记了过时的信息，怎么快速修正？比如AI以为某个城市的市长还是五年前那个人，那能不能只修改这条记录，而不重新训练整个模型？

研究者们意识到，知识编辑和知识遗忘其实是同一枚硬币的两面。编辑是"把A改成B"，遗忘可以是"把A改成什么都不是"。顺着这个思路，ZeroUnlearn的核心思想就成形了：与其删掉危险知识，不如把它重新映射到一个安全的"终点"。

这个终点被设定为一个特殊标记，在语言模型里叫做""，也就是"句子结束"的信号。当AI遇到危险的输入，ZeroUnlearn想让它输出的不是有害答案，而是这个"句子结束"标记——相当于AI礼貌地闭嘴了。

但仅仅做到"输出EOS"还不够。如果AI内部对危险信息的表征（也就是它大脑里处理这个信息时形成的中间状态）还是原来那个样子，只是最后被强行拦截了，那危险知识其实还在那里，只是被压住了。ZeroUnlearn的更大野心是：不只改变输出，还要从根源上改变AI对危险信息的内部理解方式——要让它在内心深处就已经"不认识"这条危险信息了。

三、数学上的零空间：一个永不重叠的维度

现在进入ZeroUnlearn最核心的技术部分。研究团队借用了线性代数里的一个概念，叫做"零空间"（null space）。用一个非常直观的比喻来理解：假设你站在一个三维空间里，"危险知识"占据了某个特定的方向，比如正北方。零空间就是除了正北方之外所有其他方向组成的世界——只要你的行动发生在零空间里，就永远不会和正北方那条线相交，自然也就永远不会"唤醒"危险知识。

ZeroUnlearn的做法，是为AI的权重矩阵（你可以把它理解为AI大脑里存储知识的"配方本"）设计一个特殊的变换操作。这个操作把对危险知识的处理方式压进了零空间——数学上保证了变换后的输出和原来危险知识的方向完全垂直，相似度为零。

具体来说，研究团队先对危险知识矩阵做了一个叫做"奇异值分解"（SVD）的操作，这本质上是把一个复杂的矩阵分解成几个有规律的部分，好比把一首复杂的交响乐拆解成小提琴声部、大提琴声部、长笛声部分别来看。通过这个分解，他们找到了危险知识所占据的"方向"，然后构造了一个投影矩阵P，这个矩阵的效果就是：任何东西乘上它，都会被"投影"到和危险知识完全垂直的空间里去。

整个框架有三个同时工作的目标。第一个是"零目标"：确保修改后的AI对危险知识的内部表征，和原来的危险知识在数学上夹角为九十度，两者毫无相似性。第二个是"遗忘目标"：确保当AI遇到危险输入时，它确实输出那个中性的"句子结束"标记，而不是有害内容。第三个是"实用目标"：在进行这一切操作的同时，AI对普通知识的处理能力必须保持不变——好比你修理了钢琴的某根琴弦，但整首曲子的其他音符还是能正常弹出来。

最令人惊喜的是，这三个目标被整合成一个数学优化问题后，研究团队找到了一个"闭合形式解"——也就是说，这个问题不需要反复试探、迭代求解，而是有一个像一元二次方程求根公式那样的直接答案。代入数字，一步算出，就得到了最优的权重修改方案。这使得ZeroUnlearn在处理少量样本时极为高效。

四、当需要忘掉的东西很多时怎么办

ZeroUnlearn的闭合形式解非常优雅，但它天然适合"少量遗忘"的场景。当需要同时删除成百上千条知识时，情况变得复杂了。

研究团队因此提出了ZeroUnlearn的升级版，叫做ZeroUnlearn-GD。这个版本改用了一种叫做"梯度下降"的迭代优化方式。如果说原版ZeroUnlearn是直接用公式算出答案，ZeroUnlearn-GD则是像用GPS导航一样，每走一步都判断一下当前方向是否正确，然后调整，再走，再调整，最终一步一步逼近目标。

这个升级版在数学上同样有严格的理论保障。研究团队证明了这个优化目标是一个凸函数——这在数学上意味着它只有一个最低点，没有"掉进局部陷阱"的风险，梯度下降一定能找到全局最优解。

两个版本各有适用场景：当只需要删除少量敏感信息时，用ZeroUnlearn的闭合解，速度极快；当需要批量处理大量样本时，用ZeroUnlearn-GD的梯度方案，虽然需要更多计算，但结果同样可靠。

五、AI的"知识体检"：找到最需要动手术的地方

在真正进行遗忘操作之前，研究团队还解决了一个重要的前置问题：该改哪一层？

现代大型语言模型像一栋多层楼，每一层都在处理信息，而知识并不均匀地存在于所有楼层。研究团队采用了一种叫做"因果追踪"的诊断方法。原理是这样的：先给AI一个正常的提问，记录它的回答准确度；然后故意把输入里的关键词破坏掉（相当于把提问写错了），观察AI的准确度下降了多少；最后，逐层"修复"AI内部的激活状态，看修复哪一层能让准确度恢复得最多——恢复最多的那一层，就是这条知识最主要的"栖息地"。

通过对三个不同大小的模型（Llama-3.2-3B、Llama-3.1-8B、Qwen-3-4B）进行这种"体检"，研究团队发现了一个有趣的规律：知识主要集中在模型中间偏前的某些连续层里，而不是均匀分布在所有层中。就像一栋楼里，档案室不是随机分布在每一层，而是集中在某几个特定楼层。找到这些楼层，手术就只在这里进行，其他楼层完全不受干扰。

值得一提的是，研究团队发现对于Llama系列模型，虽然知识的峰值效应在更底层，但直接修改底层会严重损害模型的整体能力。因此他们选择了"最后一个词"对应的峰值层（位于模型中段），这体现了工程实践和理论最优之间需要灵活权衡的一面。

六、实验说话：数字背后的故事

研究团队在三个模型上做了全面测试，用了三个知识数据集：MCF（一个专门测试事实知识的大型数据集）、ZsRE（一个关系抽取问答数据集）、MQUAKE（一个多跳推理数据集，被改造成单跳形式使用）。

考核指标分四项。"遗忘效果"看的是被删除的知识是否还能被AI答出来，数字越低越好；"泛化效果"看的是换一种问法，AI还是否会给出被删除的答案，同样越低越好；"特异性"看的是AI对周边正常知识的保留程度，越高越好；"困惑度"则衡量AI的整体语言生成质量，越低越好。

在"少量遗忘"场景下，研究团队用10个随机种子、每次随机抽取50个样本进行测试。在Llama-3.1模型上，ZeroUnlearn在MCF数据集上的遗忘效果达到了0%——也就是被删除的知识完全无法被答出。相比之下，ROME这类方法的遗忘效果几乎和没改过的原始模型一样糟糕（24.40%对比原始的24.60%），MEMIT稍好一些但也只降到了9.60%，AlphaEdit降到了0.20%。

但仅仅"忘得好"还不够，还要"不误伤"。GA虽然也能把遗忘效果降得很低，但代价是困惑度爆炸超过1000，特异性跌到接近于零——相当于把AI的大脑烧成了白板。FT同样如此，特异性在MCF数据集上直接归零。ZeroUnlearn的困惑度维持在13左右（原始模型是12.88），特异性维持在14到17之间，算是在彻底遗忘的同时，对正常能力损伤最小的方法。

在"大量遗忘"场景下，用1000个样本测试ZeroUnlearn-GD，结果同样出色。在Llama-3.2模型的MCF数据集上，遗忘效果同样达到0%，而AlphaEdit这个目前最好的竞争对手只能做到1.40%，MEMIT则是13.80%。ZeroUnlearn-GD的困惑度维持在13.05，特异性为12.41，在所有能达到完全遗忘的方法里，对模型能力的保护是最好的。

研究团队还对六个下游任务进行了测试，包括情感分析（SST）、多任务语言理解（MMLU）、语义匹配（MRPC）、语法判断（COLA）、文本蕴含（RTE）和自然语言推理（NLI）。结果显示，ZeroUnlearn处理后的模型在所有六项任务上，表现与未改动的原始模型在统计上没有显著差异，而GA和FT则在其中多项任务上出现了接近于随机猜测的崩溃表现。

七、用眼睛看见"遗忘"的发生

研究团队还提供了一种非常直观的验证方式：PCA可视化。PCA（主成分分析）可以把AI内部高维的信息处理状态，压缩到人眼能看懂的二维图。

图上有两种点：蓝色（青色）的点代表原始模型处理这些知识时的内部状态，红色的点代表修改后的模型处理同样知识时的内部状态。如果两种颜色的点混在一起，说明修改几乎没有效果，AI内部还是以同样的方式理解这些知识。如果两种颜色的点分开成两个不同的聚类，则说明AI对这些知识的内部表征已经发生了根本性的改变。

在图上，ZeroUnlearn的结果非常明显：红色点和蓝色点形成了两个清晰分开的聚类，相隔很远。而AlphaEdit和MEMIT的结果则是两种颜色的点大量重叠，意味着这些方法虽然在某种程度上改变了输出，但并没有从根本上改变AI对这些知识的内部编码。这个可视化结果从直觉层面印证了ZeroUnlearn"从内而外"彻底覆写知识的效果。

八、效率账单：花了多少时间和内存

实际部署一项技术，效率同样重要。研究团队测量了ZeroUnlearn在不同规模下的运行时间和内存占用，以Llama-3.2模型为基准。

SVD分解（构建零空间投影矩阵的步骤）本身非常轻量：即使遗忘样本从10个增加到1000个，SVD时间也始终低于0.3秒，内存仅从约13.8GB增加到14.1GB。端到端的完整流程时间随样本数量接近线性增长：10个样本约0.04小时，1000个样本约3.35到3.82小时。总内存稳定在约15到17.4GB之间。

对于一个不需要重新训练整个模型、只需要修改少数层参数的方案来说，这个效率是完全可以接受的。研究团队也指出，真正的时间瓶颈不在于那个闭合解的计算，而在于从模型里提取每个知识的"键值对"（也就是那些k和m向量）以及逐层更新权重的过程。

归根结底，这项研究做的事情，可以用一句话来概括：他们找到了一种方法，让AI可以精准地"从心里忘掉"某些知识，而不只是假装忘了，同时又确保AI的其他一切能力安然无恙。这背后的关键洞见是：遗忘不必是破坏，可以是重新映射；而重新映射可以发生在一个对原有知识"数学上完全正交"的空间里，从而在物理层面保证两者互不干扰。

对普通用户而言，这项研究的意义在于：未来当你希望某个AI产品删除你的隐私数据、修正它已知的错误信息、或者禁止它产生某类有害内容时，背后实现这一切的技术路径有望变得更快、更准、更安全，而不会以牺牲AI整体能力为代价。有兴趣深入了解技术细节的读者，可以通过论文编号arXiv:2605.18879查阅完整原文。

Q&A

Q1：ZeroUnlearn和普通的"让AI忘掉某些信息"的方法有什么本质区别？

A：普通方法（如梯度上升GA）是强行让AI在特定知识上变得越来越"错"，但这会连带破坏周围的正常知识，就像用橡皮用力擦字把纸都擦破了。ZeroUnlearn则是把危险知识"重新映射"到一个数学上和原始危险知识完全垂直（正交）的空间里，从根本上改变AI对这些信息的内部理解方式，同时对其他知识的影响极小，甚至接近于零。

Q2：ZeroUnlearn能不能用来删除AI里某个真实人物的个人隐私信息？

A：理论上可以。ZeroUnlearn处理的是结构化的"知识三元组"，即主语-关系-宾语这样的形式，只要能把隐私信息表达成这种格式（比如某人的住址、生日、联系方式），就可以用ZeroUnlearn将其从模型中精准清除。不过现实中个人隐私可能以更复杂的形式存在，需要更多工程适配工作才能实际部署。

Q3：ZeroUnlearn处理完的AI，真的完全不会再输出被删除的信息了吗？

A：在实验中，ZeroUnlearn在Llama-3.1模型上对MCF数据集实现了0%的遗忘效果，即完全无法输出被删除信息。但"泛化效果"指标显示，换一种问法时还有约4.6%的残留，说明极端情况下仍有极小概率泄露。研究团队通过中性目标状态的引入显著改善了这一问题，但彻底的100%全场景遗忘在技术上仍是开放挑战。

特别声明：以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布，本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.