网易首页 > 网易号 > 正文 申请入驻

模型遗忘不代表记忆抹除!首次系统发现「可逆性遗忘」背后规律

0
分享至

  新智元报道

  编辑:LRST

  【新智元导读】研究人员发现,大语言模型的遗忘并非简单的信息删除,而是可能隐藏在模型内部。通过构建表示空间分析工具,区分了可逆遗忘和不可逆遗忘,揭示了真正遗忘的本质是结构性的抹除,而非行为的抑制。

  近年来,大语言模型(LLM)的能力突飞猛进,但随之而来的隐私风险也逐渐浮出水面,训练数据中的敏感信息也会被模型「记住」,并在推理阶段暴露出来。

  在此背景下,机器遗忘(Machine Unlearning)技术应运而生,其目标是在不影响整体能力的前提下,有选择性地抹除特定知识。

  然而,当前评估方法主要聚焦于token级别的表现(如准确率、困惑度),这些表层指标真的足以说明模型已「遗忘」?

  最近,香港理工大学、卡内基梅隆大学和加州大学圣克鲁兹分校的研究人员首次揭示了遗忘现象背后的表示结构变化规律,通过构建一套表示空间的诊断工具,系统性地区分了「可逆性遗忘」与「灾难性不可逆遗忘」的本质差异

  论文中整理成了一个统一的表示层分析工具箱(PCA相似度与偏移、CKA、Fisher信息),支持诊断大模型在Unlearning / Relearning / Finetuning等过程中的内在变化。

  论文地址:https://arxiv.org/abs/2505.16831

  工具箱地址:https://github.com/XiaoyuXU1/Representational_Analysis_Tools.git

  研究人员在多种方法(GA、NPO、RLabel)、数据集(arXiv、GitHub、NuminaMath)与模型(Yi-6B、Qwen-2.5-7B)上进行了全面实证,并从参数扰动角度揭示遗忘可逆性的理论依据。

  模型遗忘

  真正的遗忘,是结构性的抹除,而非行为的抑制

  研究人员提出:「一个模型若仅仅在token输出上『忘记』,而其内部结构几乎未变,那它随时可以恢复原样。」

  上图左侧(a)展示了两种典型遗忘场景:

  上方:虽然Unlearning阶段准确率急剧下降,但Relearning之后快速恢复,表示空间保持稳定,属于可逆(灾难性)遗忘

  下方:虽然行为表现下降,但结构严重扰动,重训练也难以恢复,属于不可逆(灾难性)遗忘

  右侧(b)则展示了研究人员构建的表示空间分析工具,包括PCA Similarity / Shift、CKA相似性分析、Fisher信息矩阵(FIM)。

  表征空间分析揭示了「遗忘的可逆边界」

  研究人员在Yi-6B模型上对不同方法(GA, GA+KL, NPO, RLabel)进行了单次遗忘实验,比较了三种指标:

  MIA:攻击者能否识别遗忘目标是否出现过;

  F.Acc:遗忘样本的准确率;

  R.Acc:保留样本的准确率。

  在不同学习率下,多种方法的单次遗忘结果对比

  进一步,研究人员探究了不同请求数量(N)和学习率(LR)组合下的变化:

  在持续遗忘场景下,更大规模的遗忘实验配置(N×LR组合)下的性能波动

  可视化诊断:模型真的「忘记」了吗?

  
PCA Similarity:衡量表示空间主方向变化

  可以发现,对于可逆性遗忘,其表示空间在Relearning后高度恢复原始主方向,而不可逆性遗忘则呈现广泛漂移:

  各层PCA主方向变化(Cosine相似度)分析

  PCA Shift:量化表示分布中心的偏移程度

  对于不可逆性遗忘,其「表示漂移」不仅方向变化,更伴随大尺度的空间位移,Relearning难以还原:

  各阶段的PCA散点漂移示意图

  CKA:表示空间结构相似性分析

  Linear CKA可以测量各层之间的结构保留程度。

  可逆性场景下,CKA几乎未受破坏,而不可逆性场景则迅速退化为低相关结构:

  CKA曲线分析(逐层)

  Fisher信息矩阵:重要参数的扰动程度

  FIM从参数空间的角度提供了视角,研究人员聚焦Layer 31,观察其Fisher分布是否仍保留原始结构。

  更复杂任务:可逆性能否扩展至复杂任务?

  在Qwen2.5-7B上,研究人员扩展实验至MATH和GSM8K推理任务。

  尽管任务复杂,依然能观察到「受控Relearning」可带来准确率恢复,尤其在可逆场景中甚至超越初始性能

  MATH与GSM8K任务下各方法表现对比

  结论

  研究人员们从结构层面系统剖析了大模型遗忘的可逆性,得出以下核心结论:

  持续遗忘风险远高于单次操作,GA/RLabel破坏性强:单次遗忘多数可恢复,而持续性遗忘(如100条请求)易导致彻底崩溃。GA、RLabel易过度遗忘,GA+KL、NPO类方法能显著提高稳定性。

  真正的遗忘表现为结构漂移而非输出下降:不可逆遗忘伴随PCA主方向旋转、分布漂移、Fisher质量下降;仅凭token-level指标难以揭示这种深层变化。

  遗忘可能带来隐式增强效果:在部分场景中,Relearning后模型对遗忘集的表现优于原始状态,提示Unlearning可能具有对比式正则化或课程学习效果。

  结构诊断工具支持可控性遗忘设计:PCA/CKA/FIM不仅揭示是否崩溃,更可定位破坏位置,为实现「可控、局部、不可逆」的安全遗忘机制奠定基础。

  参考资料:

  https://arxiv.org/abs/2505.16831

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
写小说判十年,把生殖器放女孩嘴巴里判两年九个月

写小说判十年,把生殖器放女孩嘴巴里判两年九个月

昊轩看世界
2026-03-24 19:56:42
徐阳点评U23国足2-2泰国:句句实在话,理性看球更懂赛场本质!

徐阳点评U23国足2-2泰国:句句实在话,理性看球更懂赛场本质!

田先生篮球
2026-03-26 06:00:06
利空突袭,全线杀跌!

利空突袭,全线杀跌!

中国基金报
2026-03-26 13:16:51
东契奇43分7助攻湖人战胜步行者,勒布朗23分9板9助里夫斯25分

东契奇43分7助攻湖人战胜步行者,勒布朗23分9板9助里夫斯25分

湖人崛起
2026-03-26 09:32:48
这次下跌不一样,主力跑了?没有利空,连续下跌,跌停开板继续跌

这次下跌不一样,主力跑了?没有利空,连续下跌,跌停开板继续跌

有范又有料
2026-03-26 11:44:17
ATP的灾难:无趣的辛纳和事业心不足的阿尔卡拉斯

ATP的灾难:无趣的辛纳和事业心不足的阿尔卡拉斯

网球之家
2026-03-26 13:25:06
航天少帅谭瑞松被判死缓 不执行死刑和终身监禁

航天少帅谭瑞松被判死缓 不执行死刑和终身监禁

小鹿姐姐情感说
2026-03-26 02:23:54
张雪峰现任妻子遭扒,曝其去年再婚有儿子,年轻漂亮还很清纯

张雪峰现任妻子遭扒,曝其去年再婚有儿子,年轻漂亮还很清纯

古希腊掌管松饼的神
2026-03-25 14:28:44
陪老婆追星坐张凌赫旁边,全网笑称追星天花板

陪老婆追星坐张凌赫旁边,全网笑称追星天花板

可乐谈情感
2026-03-26 11:56:06
没护照没签证,这只叫LV的猫天天跨国走私老鼠,两国海关都拿它没辙!

没护照没签证,这只叫LV的猫天天跨国走私老鼠,两国海关都拿它没辙!

英国那些事儿
2026-03-24 23:16:58
自作自受!欧尔班硬刚欧盟阻援乌,160亿欧元信贷被直接冻结

自作自受!欧尔班硬刚欧盟阻援乌,160亿欧元信贷被直接冻结

老马拉车莫少装
2026-03-26 10:24:28
张雪峰死因:吃外卖撑住了?

张雪峰死因:吃外卖撑住了?

李万卿
2026-03-26 10:48:19
伊朗外长:霍尔木兹海峡只对敌人关闭 中国、俄罗斯等国船只都安全通过了

伊朗外长:霍尔木兹海峡只对敌人关闭 中国、俄罗斯等国船只都安全通过了

闪电新闻
2026-03-26 10:48:55
河南街头用头撞车事件,警方回应后续来了!评论区彻底炸锅

河南街头用头撞车事件,警方回应后续来了!评论区彻底炸锅

奇思妙想草叶君
2026-03-25 13:12:39
越扒越猛!释永信在少林寺有多爽,你根本想不到!终于落到这下场

越扒越猛!释永信在少林寺有多爽,你根本想不到!终于落到这下场

林轻吟
2026-03-26 07:34:21
坚决反对中国任何城市申办奥运会,国际奥委会这次怕是真失算了

坚决反对中国任何城市申办奥运会,国际奥委会这次怕是真失算了

南权先生
2026-03-25 15:25:11
从广东到东北!刘强东游艇版图扩容,150亿元项目进驻大连

从广东到东北!刘强东游艇版图扩容,150亿元项目进驻大连

南方都市报
2026-03-26 14:42:13
谁还敢充长期会员?男子视频VIP充到2028年,被一纸新规一夜返贫

谁还敢充长期会员?男子视频VIP充到2028年,被一纸新规一夜返贫

温读史
2026-03-26 10:41:06
人社部明确:事业编制改革启动,3100万人的“铁饭碗”要变了

人社部明确:事业编制改革启动,3100万人的“铁饭碗”要变了

慧眼看世界哈哈
2026-03-24 06:36:05
1965年,毛主席点名让彭德怀复出,背后有人拼命阻挠,这人后来判了18年

1965年,毛主席点名让彭德怀复出,背后有人拼命阻挠,这人后来判了18年

史海孤雁
2026-03-25 18:31:11
2026-03-26 16:36:49
新智元 incentive-icons
新智元
AI产业主平台领航智能+时代
14819文章数 66720关注度
往期回顾 全部

科技要闻

Meta高管狂分百亿期权,700名员工却下岗

头条要闻

上海妈妈寻亲27年悬赏市区一套房:不用尽孝 要个拥抱

头条要闻

上海妈妈寻亲27年悬赏市区一套房:不用尽孝 要个拥抱

体育要闻

35岁替补门将,凭什么入选英格兰队?

娱乐要闻

张雪峰家人首发声 不设追思会丧事从简

财经要闻

黄仁勋:芯片公司的时代已经结束了

汽车要闻

一汽奥迪A6L e-tron开启预售 CLTC最大续航815km

态度原创

本地
手机
旅游
艺术
数码

本地新闻

救命,这只酱板鸭已经在我手机复仇了一万遍

手机要闻

苹果回应iPhone自动打电话 升级系统可解决

旅游要闻

济南动物园“花朝荟”系列活动浪漫上演

艺术要闻

哪一座桥不是风景?

数码要闻

三星更新870 EVO系列SATA SSD:最高8TB 定价超1万元

无障碍浏览 进入关怀版