网易首页 > 网易号 > 正文 申请入驻

厦门大学团队找到了让AI"选择性失忆"的优雅方法,代价几乎为零

0
分享至


这项由厦门大学信息学院与人工智能研究院联合领导、厦门大学胶片学院及国防科技大学协同参与的研究,发表于2026年第43届国际机器学习大会(ICML 2026),论文编号为arXiv:2605.18879。

大型语言模型(也就是ChatGPT、LLaMA这类AI)的训练方式,就像是让一个孩子把整个图书馆的书都读一遍。读得越多,懂得越多,本来是好事。但问题来了:书里不只有百科全书和诗歌,还有各种隐私信息、有害内容、过时的错误知识。等孩子长大,你想让他"忘掉"其中某些不该记住的东西,才发现这件事比你想象的要难得多。

研究团队面对的正是这个难题。现有的"让AI忘事"方案要么代价极大——把AI推倒重来重新训练,就像因为孩子记了几条错误信息就让他重读十二年书;要么副作用严重——用一种粗暴的方式强行让AI忘掉某些内容,结果连带着把旁边的正常知识也一起损毁了,就像为了消除脑子里一段不好的记忆,把整块脑区都烧掉。

这支来自厦门大学的团队提出了一个完全不同的思路,他们把这套方法叫做ZeroUnlearn。他们的核心想法是:与其让AI"忘掉"敏感知识,不如把那些敏感知识"重新覆写",让AI在遇到危险问题时,输出的不再是有害答案,而是一种中性的、无意义的终止信号。更精妙的是,这个覆写过程可以做得极度精准,只动"需要动的那一小块",完全不影响AI其余的知识储备。

一、为什么"让AI忘事"这么难

先来理解一下AI是怎么存储知识的。现代大型语言模型内部有数十亿个参数,每个参数都是一个数字,知识就分散编码在这些数字的分布关系里。你没法打开AI的大脑,找到"法国首都是巴黎"这条记忆住在哪个格子里,然后把它单独删掉。知识是弥散的、交织的,像一张复杂的蜘蛛网,每一根丝都可能和多条知识有关。

目前常见的方案大概有两类。第一类是"梯度上升"(研究里简称GA),原理是:训练AI的时候,我们通过反复让它做对题、调整参数来让它学会知识;那忘掉知识,就反过来,把调整方向倒过来,让AI在这道题上变得越来越"错"。道理上行得通,但实际操作就像你用橡皮猛力擦掉试卷上一个字,结果把纸都擦破了,周围好几个字也跟着毁了。实验数据证明,GA让AI的"困惑度"(衡量语言模型正常程度的指标,越低越好)直接爆炸到超过1000,而原始AI只有七八左右——这基本意味着AI说话已经完全乱了套。

第二类是"微调"(FT),原理是:既然要忘掉旧答案,那就强行训练AI给出新答案。听起来温柔一些,但同样有灾难性副作用。在实验里,用这种方式处理后,AI对于"邻近知识"(和被删除知识相关但不应该被删除的知识)的保留率直接跌到了接近零——也就是说,为了删掉一条信息,AI把整片相关知识都一并丢失了。

研究团队由此看到了机会:现有方法的核心问题,是它们太粗糙,影响范围太大。能不能找到一把精确到毫米级的手术刀,而不是一把大锤?

二、从"知识编辑"里得到的灵感

这支团队的灵感来自另一个AI研究领域——"知识编辑"。知识编辑做的事是:当AI记错了或者记了过时的信息,怎么快速修正?比如AI以为某个城市的市长还是五年前那个人,那能不能只修改这条记录,而不重新训练整个模型?

研究者们意识到,知识编辑和知识遗忘其实是同一枚硬币的两面。编辑是"把A改成B",遗忘可以是"把A改成什么都不是"。顺着这个思路,ZeroUnlearn的核心思想就成形了:与其删掉危险知识,不如把它重新映射到一个安全的"终点"。

这个终点被设定为一个特殊标记,在语言模型里叫做"",也就是"句子结束"的信号。当AI遇到危险的输入,ZeroUnlearn想让它输出的不是有害答案,而是这个"句子结束"标记——相当于AI礼貌地闭嘴了。

但仅仅做到"输出EOS"还不够。如果AI内部对危险信息的表征(也就是它大脑里处理这个信息时形成的中间状态)还是原来那个样子,只是最后被强行拦截了,那危险知识其实还在那里,只是被压住了。ZeroUnlearn的更大野心是:不只改变输出,还要从根源上改变AI对危险信息的内部理解方式——要让它在内心深处就已经"不认识"这条危险信息了。

三、数学上的零空间:一个永不重叠的维度

现在进入ZeroUnlearn最核心的技术部分。研究团队借用了线性代数里的一个概念,叫做"零空间"(null space)。用一个非常直观的比喻来理解:假设你站在一个三维空间里,"危险知识"占据了某个特定的方向,比如正北方。零空间就是除了正北方之外所有其他方向组成的世界——只要你的行动发生在零空间里,就永远不会和正北方那条线相交,自然也就永远不会"唤醒"危险知识。

ZeroUnlearn的做法,是为AI的权重矩阵(你可以把它理解为AI大脑里存储知识的"配方本")设计一个特殊的变换操作。这个操作把对危险知识的处理方式压进了零空间——数学上保证了变换后的输出和原来危险知识的方向完全垂直,相似度为零。

具体来说,研究团队先对危险知识矩阵做了一个叫做"奇异值分解"(SVD)的操作,这本质上是把一个复杂的矩阵分解成几个有规律的部分,好比把一首复杂的交响乐拆解成小提琴声部、大提琴声部、长笛声部分别来看。通过这个分解,他们找到了危险知识所占据的"方向",然后构造了一个投影矩阵P,这个矩阵的效果就是:任何东西乘上它,都会被"投影"到和危险知识完全垂直的空间里去。

整个框架有三个同时工作的目标。第一个是"零目标":确保修改后的AI对危险知识的内部表征,和原来的危险知识在数学上夹角为九十度,两者毫无相似性。第二个是"遗忘目标":确保当AI遇到危险输入时,它确实输出那个中性的"句子结束"标记,而不是有害内容。第三个是"实用目标":在进行这一切操作的同时,AI对普通知识的处理能力必须保持不变——好比你修理了钢琴的某根琴弦,但整首曲子的其他音符还是能正常弹出来。

最令人惊喜的是,这三个目标被整合成一个数学优化问题后,研究团队找到了一个"闭合形式解"——也就是说,这个问题不需要反复试探、迭代求解,而是有一个像一元二次方程求根公式那样的直接答案。代入数字,一步算出,就得到了最优的权重修改方案。这使得ZeroUnlearn在处理少量样本时极为高效。

四、当需要忘掉的东西很多时怎么办

ZeroUnlearn的闭合形式解非常优雅,但它天然适合"少量遗忘"的场景。当需要同时删除成百上千条知识时,情况变得复杂了。

研究团队因此提出了ZeroUnlearn的升级版,叫做ZeroUnlearn-GD。这个版本改用了一种叫做"梯度下降"的迭代优化方式。如果说原版ZeroUnlearn是直接用公式算出答案,ZeroUnlearn-GD则是像用GPS导航一样,每走一步都判断一下当前方向是否正确,然后调整,再走,再调整,最终一步一步逼近目标。

这个升级版在数学上同样有严格的理论保障。研究团队证明了这个优化目标是一个凸函数——这在数学上意味着它只有一个最低点,没有"掉进局部陷阱"的风险,梯度下降一定能找到全局最优解。

两个版本各有适用场景:当只需要删除少量敏感信息时,用ZeroUnlearn的闭合解,速度极快;当需要批量处理大量样本时,用ZeroUnlearn-GD的梯度方案,虽然需要更多计算,但结果同样可靠。

五、AI的"知识体检":找到最需要动手术的地方

在真正进行遗忘操作之前,研究团队还解决了一个重要的前置问题:该改哪一层?

现代大型语言模型像一栋多层楼,每一层都在处理信息,而知识并不均匀地存在于所有楼层。研究团队采用了一种叫做"因果追踪"的诊断方法。原理是这样的:先给AI一个正常的提问,记录它的回答准确度;然后故意把输入里的关键词破坏掉(相当于把提问写错了),观察AI的准确度下降了多少;最后,逐层"修复"AI内部的激活状态,看修复哪一层能让准确度恢复得最多——恢复最多的那一层,就是这条知识最主要的"栖息地"。

通过对三个不同大小的模型(Llama-3.2-3B、Llama-3.1-8B、Qwen-3-4B)进行这种"体检",研究团队发现了一个有趣的规律:知识主要集中在模型中间偏前的某些连续层里,而不是均匀分布在所有层中。就像一栋楼里,档案室不是随机分布在每一层,而是集中在某几个特定楼层。找到这些楼层,手术就只在这里进行,其他楼层完全不受干扰。

值得一提的是,研究团队发现对于Llama系列模型,虽然知识的峰值效应在更底层,但直接修改底层会严重损害模型的整体能力。因此他们选择了"最后一个词"对应的峰值层(位于模型中段),这体现了工程实践和理论最优之间需要灵活权衡的一面。

六、实验说话:数字背后的故事

研究团队在三个模型上做了全面测试,用了三个知识数据集:MCF(一个专门测试事实知识的大型数据集)、ZsRE(一个关系抽取问答数据集)、MQUAKE(一个多跳推理数据集,被改造成单跳形式使用)。

考核指标分四项。"遗忘效果"看的是被删除的知识是否还能被AI答出来,数字越低越好;"泛化效果"看的是换一种问法,AI还是否会给出被删除的答案,同样越低越好;"特异性"看的是AI对周边正常知识的保留程度,越高越好;"困惑度"则衡量AI的整体语言生成质量,越低越好。

在"少量遗忘"场景下,研究团队用10个随机种子、每次随机抽取50个样本进行测试。在Llama-3.1模型上,ZeroUnlearn在MCF数据集上的遗忘效果达到了0%——也就是被删除的知识完全无法被答出。相比之下,ROME这类方法的遗忘效果几乎和没改过的原始模型一样糟糕(24.40%对比原始的24.60%),MEMIT稍好一些但也只降到了9.60%,AlphaEdit降到了0.20%。

但仅仅"忘得好"还不够,还要"不误伤"。GA虽然也能把遗忘效果降得很低,但代价是困惑度爆炸超过1000,特异性跌到接近于零——相当于把AI的大脑烧成了白板。FT同样如此,特异性在MCF数据集上直接归零。ZeroUnlearn的困惑度维持在13左右(原始模型是12.88),特异性维持在14到17之间,算是在彻底遗忘的同时,对正常能力损伤最小的方法。

在"大量遗忘"场景下,用1000个样本测试ZeroUnlearn-GD,结果同样出色。在Llama-3.2模型的MCF数据集上,遗忘效果同样达到0%,而AlphaEdit这个目前最好的竞争对手只能做到1.40%,MEMIT则是13.80%。ZeroUnlearn-GD的困惑度维持在13.05,特异性为12.41,在所有能达到完全遗忘的方法里,对模型能力的保护是最好的。

研究团队还对六个下游任务进行了测试,包括情感分析(SST)、多任务语言理解(MMLU)、语义匹配(MRPC)、语法判断(COLA)、文本蕴含(RTE)和自然语言推理(NLI)。结果显示,ZeroUnlearn处理后的模型在所有六项任务上,表现与未改动的原始模型在统计上没有显著差异,而GA和FT则在其中多项任务上出现了接近于随机猜测的崩溃表现。

七、用眼睛看见"遗忘"的发生

研究团队还提供了一种非常直观的验证方式:PCA可视化。PCA(主成分分析)可以把AI内部高维的信息处理状态,压缩到人眼能看懂的二维图。

图上有两种点:蓝色(青色)的点代表原始模型处理这些知识时的内部状态,红色的点代表修改后的模型处理同样知识时的内部状态。如果两种颜色的点混在一起,说明修改几乎没有效果,AI内部还是以同样的方式理解这些知识。如果两种颜色的点分开成两个不同的聚类,则说明AI对这些知识的内部表征已经发生了根本性的改变。

在图上,ZeroUnlearn的结果非常明显:红色点和蓝色点形成了两个清晰分开的聚类,相隔很远。而AlphaEdit和MEMIT的结果则是两种颜色的点大量重叠,意味着这些方法虽然在某种程度上改变了输出,但并没有从根本上改变AI对这些知识的内部编码。这个可视化结果从直觉层面印证了ZeroUnlearn"从内而外"彻底覆写知识的效果。

八、效率账单:花了多少时间和内存

实际部署一项技术,效率同样重要。研究团队测量了ZeroUnlearn在不同规模下的运行时间和内存占用,以Llama-3.2模型为基准。

SVD分解(构建零空间投影矩阵的步骤)本身非常轻量:即使遗忘样本从10个增加到1000个,SVD时间也始终低于0.3秒,内存仅从约13.8GB增加到14.1GB。端到端的完整流程时间随样本数量接近线性增长:10个样本约0.04小时,1000个样本约3.35到3.82小时。总内存稳定在约15到17.4GB之间。

对于一个不需要重新训练整个模型、只需要修改少数层参数的方案来说,这个效率是完全可以接受的。研究团队也指出,真正的时间瓶颈不在于那个闭合解的计算,而在于从模型里提取每个知识的"键值对"(也就是那些k和m向量)以及逐层更新权重的过程。

归根结底,这项研究做的事情,可以用一句话来概括:他们找到了一种方法,让AI可以精准地"从心里忘掉"某些知识,而不只是假装忘了,同时又确保AI的其他一切能力安然无恙。这背后的关键洞见是:遗忘不必是破坏,可以是重新映射;而重新映射可以发生在一个对原有知识"数学上完全正交"的空间里,从而在物理层面保证两者互不干扰。

对普通用户而言,这项研究的意义在于:未来当你希望某个AI产品删除你的隐私数据、修正它已知的错误信息、或者禁止它产生某类有害内容时,背后实现这一切的技术路径有望变得更快、更准、更安全,而不会以牺牲AI整体能力为代价。有兴趣深入了解技术细节的读者,可以通过论文编号arXiv:2605.18879查阅完整原文。

Q&A

Q1:ZeroUnlearn和普通的"让AI忘掉某些信息"的方法有什么本质区别?

A:普通方法(如梯度上升GA)是强行让AI在特定知识上变得越来越"错",但这会连带破坏周围的正常知识,就像用橡皮用力擦字把纸都擦破了。ZeroUnlearn则是把危险知识"重新映射"到一个数学上和原始危险知识完全垂直(正交)的空间里,从根本上改变AI对这些信息的内部理解方式,同时对其他知识的影响极小,甚至接近于零。

Q2:ZeroUnlearn能不能用来删除AI里某个真实人物的个人隐私信息?

A:理论上可以。ZeroUnlearn处理的是结构化的"知识三元组",即主语-关系-宾语这样的形式,只要能把隐私信息表达成这种格式(比如某人的住址、生日、联系方式),就可以用ZeroUnlearn将其从模型中精准清除。不过现实中个人隐私可能以更复杂的形式存在,需要更多工程适配工作才能实际部署。

Q3:ZeroUnlearn处理完的AI,真的完全不会再输出被删除的信息了吗?

A:在实验中,ZeroUnlearn在Llama-3.1模型上对MCF数据集实现了0%的遗忘效果,即完全无法输出被删除信息。但"泛化效果"指标显示,换一种问法时还有约4.6%的残留,说明极端情况下仍有极小概率泄露。研究团队通过中性目标状态的引入显著改善了这一问题,但彻底的100%全场景遗忘在技术上仍是开放挑战。

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
头号大热出炉!世界杯6大夺冠热门来了!阿根廷仅第4,葡萄牙第5

头号大热出炉!世界杯6大夺冠热门来了!阿根廷仅第4,葡萄牙第5

球叮足球
2026-06-03 09:47:29
牙线的“邪修用法”,没想到小小一个牙线,能解决这么多麻烦事!

牙线的“邪修用法”,没想到小小一个牙线,能解决这么多麻烦事!

抠搜侠
2026-06-03 14:35:23
胡歌拿下白玉兰视帝,于和伟陪跑真可惜

胡歌拿下白玉兰视帝,于和伟陪跑真可惜

情感大头说说
2026-06-03 19:18:27
6月3日俄乌:圣彼得堡遭袭击,俄后勤线继续被封锁

6月3日俄乌:圣彼得堡遭袭击,俄后勤线继续被封锁

山河路口
2026-06-03 18:40:42
Lisa带球逼宫驴老三失败,独自“抓娃娃”!

Lisa带球逼宫驴老三失败,独自“抓娃娃”!

八卦疯叔
2026-06-03 11:17:00
独苗,陈达毅是库拉索世界杯名单中唯一一名出生于当地的球员

独苗,陈达毅是库拉索世界杯名单中唯一一名出生于当地的球员

懂球帝
2026-06-03 15:03:47
张学友的嘴,是开了光的预言家…

张学友的嘴,是开了光的预言家…

慧翔百科
2026-06-03 08:46:01
奥斯卡:听说濒死之际会看见自己模样,但我心脏骤停时像做梦

奥斯卡:听说濒死之际会看见自己模样,但我心脏骤停时像做梦

懂球帝
2026-06-03 22:09:19
哈马斯宣布:愿移交加沙所有治理权!以军遭无人机袭击,多人受伤,真主党:不接受“部分停火”!遭特朗普怒斥“疯了”,以总理强硬表态

哈马斯宣布:愿移交加沙所有治理权!以军遭无人机袭击,多人受伤,真主党:不接受“部分停火”!遭特朗普怒斥“疯了”,以总理强硬表态

每日经济新闻
2026-06-03 12:38:20
中纪委重拳出击!2026年将“重点查处”5类人群,一个都别想跑

中纪委重拳出击!2026年将“重点查处”5类人群,一个都别想跑

细说职场
2026-06-02 20:33:47
黄仁勋:AI投资或带来“疯狂”回报,“疯子”才会质疑

黄仁勋:AI投资或带来“疯狂”回报,“疯子”才会质疑

IT之家
2026-06-03 19:18:06
历史首败捷克,女排教练赵勇:年轻选手欠缺大赛硬仗历练

历史首败捷克,女排教练赵勇:年轻选手欠缺大赛硬仗历练

懂球帝
2026-06-03 23:02:32
结束访华不到20天,特朗普紧急下禁令,要斩断中国“经济命脉”?

结束访华不到20天,特朗普紧急下禁令,要斩断中国“经济命脉”?

傲傲讲历史
2026-06-02 11:48:57
独家:原中国兵器工业集团董事长实际上是秘书出身!33岁就当集团办公厅主任  很优秀!

独家:原中国兵器工业集团董事长实际上是秘书出身!33岁就当集团办公厅主任  很优秀!

新浪财经
2026-06-03 02:10:08
网传北京大学发表在顶刊《Nature》一篇文论文被质疑数据造假?

网传北京大学发表在顶刊《Nature》一篇文论文被质疑数据造假?

文忆天下
2026-06-03 21:38:08
老婆出轨后,我去找对方老婆,谁料他老婆:给你套房,但有个条件

老婆出轨后,我去找对方老婆,谁料他老婆:给你套房,但有个条件

千秋文化
2026-05-29 19:56:40
心理学:永远不要在儿女面前,随口说出这两句话,会毁掉孩子一生

心理学:永远不要在儿女面前,随口说出这两句话,会毁掉孩子一生

心理观察局
2026-05-30 07:08:20
痛心!广西失联18岁女孩李思绮去世,月薪3000,晚上11点才下班

痛心!广西失联18岁女孩李思绮去世,月薪3000,晚上11点才下班

黑哥讲现代史
2026-06-03 18:16:59
夫妻性生活别急着进入!学会这招“延迟满足”,爽感增倍

夫妻性生活别急着进入!学会这招“延迟满足”,爽感增倍

精彩分享快乐
2026-05-13 12:05:07
马斯克搞了个全语言自动翻译,X上的全球网友乱成了一锅粥

马斯克搞了个全语言自动翻译,X上的全球网友乱成了一锅粥

BB姬
2026-06-02 22:35:44
2026-06-04 02:59:00
科技行者 incentive-icons
科技行者
科技正在如何变革商业世界
8634文章数 564关注度
往期回顾 全部

科技要闻

传DeepSeek融资意向500亿:腾讯投100亿

头条要闻

男子不想上班辞职后上武当山当道士 8个月后选择下山

头条要闻

男子不想上班辞职后上武当山当道士 8个月后选择下山

体育要闻

选择中国品牌的库里,和他们的巨大野心

娱乐要闻

官方痛批乱象 刘涛郑恺等艺人遭点名

财经要闻

AI,开始偷懒了?

汽车要闻

专访蒋平:安全不做高低配 长安要让安全技术普惠

态度原创

手机
数码
家居
房产
公开课

手机要闻

华为Mate90系列重磅爆料:全新Deco设计登场,三大梯队排名曝光!

数码要闻

高通CEO安蒙:“2026年是智能体之年”,Token成AI新货币

家居要闻

江畔轻奢 观云大宅

房产要闻

突发!254亩调规,海口江东的超级学校真的快来了!

公开课

李玫瑾:为什么性格比能力更重要?

无障碍浏览 进入关怀版