网易首页 > 网易号 > 正文 申请入驻

EMNLP 2024 | 基于知识编辑的大模型敏感知识擦除

0
分享至

大模型(LLMs)的训练数据中可能涉及敏感信息,例如个人隐私或受版权保护的内容,因此需要有效地移除这些知识。然而,直接从预训练数据中删除相关信息并重新训练模型,不仅成本高昂,还会带来巨大的计算开销。为了解决这一问题,敏感知识擦除技术应运而生,作为一种后训练阶段的解决方案,可高效移除模型参数中不适宜的知识。然而,目前的知识擦除评估方法难以区分敏感知识(如隐私、版权)与通用知识。

为此,本文提出了一个新的基准——Knowledge Unlearning with Differentiated Scope in LLMs(KnowUnDo),用于更精确地评估针对版权内容和用户隐私的知识擦除效果。同时,我们提出了一种名为MemFlex的新方法,通过利用梯度信息,精准定位并移除模型中的敏感知识。

论文题目: To Forget or Not? Towards Practical Knowledge Unlearning for Large Language Models 论文链接: https://arxiv.org/abs/2407.01920 代码链接: https://github.com/zjunlp/KnowUnDo

一、引言

大模型(LLMs)的训练数据中可能包含敏感信息,例如个人隐私和受版权保护的内容,因此需要对这些知识进行有效擦除。然而,直接从预训练语料中移除相关数据并重新训练模型不仅成本高昂,且计算量巨大。为此,基于知识编辑的敏感知识擦除技术应运而生,作为一种后训练阶段的解决方案,可高效地清除模型参数中不适宜的知识

现阶段的知识擦除评估范式难以区分敏感(如隐私、版权等)和通用知识。基于此,本文提出Knowledge Unlearning with Differentiated Scope in LLMs(KnowUnDo)基准,用于更细致地评估版权内容和用户隐私领域的知识擦除方法,同时提出MemFlex方法,利用梯度信息精确地定位和擦除敏感知识。

二、数据集

本数据集分为版权内容和用户隐私两部分。对于版权内容,从GoodReads网站“Best Books Ever”榜单选取代表性书籍,再依据美国版权法分别定义擦除和保留范围内的知识类型,结合书籍和知识类型利用GPT-4生成问题-答案对构建数据集;对于用户隐私,构建虚构作者信息数据集,按照相关隐私法规把私人信息归为擦除范围知识,公共信息归为保留范围知识,同样使用GPT-4生成相应问题-答案对。同时,还确定了评估指标,擦除评估包括擦除成功率、保留成功率、困惑度和ROUGE-L,通用任务性能评估使用MMLU、ARC Challenge、TruthfulQA和SIQA等数据集来评估模型在知识理解、真实性和知识推理等通用任务上的性能。

三、方法

MemFlex方法受到知识编辑中的知识定位以及利用梯度信息提高定位精度相关研究的启发。其核心是通过分析梯度信息来确定模型参数空间中的擦除范围(Unlearn Scope)和保留范围(Retention Scope),然后在擦除阶段仅对擦除范围内的参数进行更新。以下是具体步骤:

确定擦除和保留梯度矩阵

对于擦除范围内的知识:

给定其中(表示擦除数据集),将标签替换为随机标签形成的。

通过反向传播获取梯度信息

重复上述随机替换 和反向传播过程五次,取平均值得到稳定的擦除梯度矩阵 。

对于保留范围内的知识,采用类似的过程,将属于保留数据集 中的数据进行处理,得到保留梯度矩阵 。

分析梯度矩阵

通过对梯度矩阵进行L2正则化,得到梯度信息的两个构成要素:方向和大小。计算擦除和保留梯度矩阵之间的余弦相似度 ,如果方向相似度高,表示在擦除过程中会对保留知识产生干扰。同时考虑梯度的大小,如果擦除知识的梯度大小 较大,则表示这些参数需要较大的更新。

识别知识擦除关键区域

通过综合考虑方向和大小,设置阈值(如

)来识别参数区域。满足 的参数区域 被确定为关键擦除区域,这些区域的梯度方向对于擦除知识与保留知识有明显差异,且梯度大小显著。

参数更新

在擦除阶段,仅更新关键擦除区域的参数 即将原始模型参数 中的 部分按照以下方式更新: ,其中 表示在第

t
个时间步模型
M
所有模块的参数。

四、实验

实验结果表明,在用户隐私领域,GA和随机标签微调虽能擦除敏感知识却未能保留通用知识,对抗样本擦除方法虽保持通用知识和低困惑度,但没有很好擦除敏感知识,梯度上升和下降组合方法在区分范围和通用任务性能上有一定表现,MemFlex在保留知识方面取得最佳平衡;在效率方面,MemFlex通过在擦除范围内更新参数提高了擦除性能和效率。

五、分析

知识定位分析:MemFlex通过冻结与保留知识对齐的关键参数区域来保留整体性能,而其他方法由于过度更新参数导致整体性能下降,以至于重新在保留知识上学习也难以恢复。‍

知识擦除的鲁棒性分析:我们通过在问题前拼接简单的提示检验知识擦除的鲁棒性,可以发现相比于GA类方法的明显下降,MemFlex具有较高的稳定性。同时,使用RoBERTa分类器区分擦除范围时,在添加简单的提示后擦除成功率下降,表明分类器缺乏鲁棒性。

六、总结

在本论文中,我们基于知识编辑进行大模型隐私知识擦除,提出了新基准 KnowUnDo和新基线方法MemFlex,其通过定位再擦除,实现擦除敏感知识的同时通用知识。未来可以在以下几个方向改进:1) 保护多模态的版权内容和用户隐私 (图像、视频、语音信息等);2) 精细化定义需要擦除和保留的知识类型;3) 优化知识定位方法,实现更精准的知识擦除。


作者:田博中 来源:公众号【ZJUKG】

llustration From IconScout By IconScout Store

-The End-

本周上新!

扫码观看!

“AI技术流”原创投稿计划

TechBeat是由将门创投建立的AI学习社区(

www.techbeat.net
) 。 社区上线500+期talk视频,3000+篇技术干货文章,方向覆盖CV/NLP/ML/Robotis等;每月定期举办顶会及其他线上交流活动,不定期举办技术人线下聚会交流活动。我们正在努力成为AI人才喜爱的高质量、知识型交流平台,希望为AI人才打造更专业的服务和体验,加速并陪伴其成长。

投稿内容

// 最新技术解读/系统性知识分享 //

// 前沿资讯解说/心得经历讲述 //

投稿须知

稿件需要为原创文章,并标明作者信息。

我们会选择部分在深度技术解析及科研心得方向,对用户启发更大的文章,做原创性内容奖励

投稿方式

发送邮件到

melodybai@thejiangmen.com

或添加工作人员微信(yellowsubbj)投稿,沟通投稿详情;还可以关注“将门创投”公众号,后台回复“投稿”二字,获得投稿说明。

关于我“门”

将门是一家以专注于数智核心科技领域新型创投机构,也是北京市标杆型孵化器。 公司致力于通过连接技术与商业,发掘和培育具有全球影响力的科技创新企业,推动企业创新发展与产业升级。

将门成立于2015年底,创始团队由微软创投在中国的创始团队原班人马构建而成,曾为微软优选和深度孵化了126家创新的技术型创业公司。

如果您是技术领域的初创企业,不仅想获得投资,还希望获得一系列持续性、有价值的投后服务,欢迎发送或者推荐项目给我“门”:

bp@thejiangmen.com

点击右上角,把文章分享到朋友圈

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
奇怪的现象:凡是家里打扫的很干净的人,都有共同的特点

奇怪的现象:凡是家里打扫的很干净的人,都有共同的特点

木言观
2026-02-19 22:58:09
这一次,和罗康瑞一起露面的霍家兄弟,彻底撕下了父亲的“体面”

这一次,和罗康瑞一起露面的霍家兄弟,彻底撕下了父亲的“体面”

不似少年游
2026-02-05 09:31:14
“书记,你一件冲锋衣顶农民一年收成!”女选调生下乡,却被威胁

“书记,你一件冲锋衣顶农民一年收成!”女选调生下乡,却被威胁

妍妍教育日记
2026-02-04 18:29:23
日本男篮不敌中国!日媒直言:若非裁判帮忙,日本这次会输的更惨

日本男篮不敌中国!日媒直言:若非裁判帮忙,日本这次会输的更惨

阅微札记
2026-02-27 17:06:50
马筱梅产后首表态,一句话显格局,小S怒骂具俊晔里子面子都丢了

马筱梅产后首表态,一句话显格局,小S怒骂具俊晔里子面子都丢了

青梅侃史啊
2026-02-28 07:54:32
11胜0负!联盟第1!西部豪门露出冠军相,文班亚马表态MVP

11胜0负!联盟第1!西部豪门露出冠军相,文班亚马表态MVP

世界体育圈
2026-02-28 11:18:59
澳门的赌台,正在批量消失!不是没人赌了而是算法让赌客彻底破防

澳门的赌台,正在批量消失!不是没人赌了而是算法让赌客彻底破防

芭比衣橱
2026-02-28 00:22:21
49年,一老兵拒绝当官,毛主席得知后问道:听说你要回家“还债”

49年,一老兵拒绝当官,毛主席得知后问道:听说你要回家“还债”

寄史言志
2026-02-27 22:42:42
浙江女子15年生9个娃,梦想凑齐12生肖,称:老公基因不能浪费

浙江女子15年生9个娃,梦想凑齐12生肖,称:老公基因不能浪费

福建平子
2026-02-23 11:00:43
中国开盘,世界崩溃!

中国开盘,世界崩溃!

米宅海外
2026-02-28 08:04:00
炸裂!西班牙国王被曝和前总统夫人热恋,莱蒂齐亚 21 年婚姻成笑话?

炸裂!西班牙国王被曝和前总统夫人热恋,莱蒂齐亚 21 年婚姻成笑话?

小鱼爱鱼乐
2026-02-27 22:02:54
天津市人大教育科学文化卫生委员会原副主任委员王平接受纪律审查和监察调查

天津市人大教育科学文化卫生委员会原副主任委员王平接受纪律审查和监察调查

环球网资讯
2026-02-27 16:51:02
17岁嫁56岁将军,新婚夜扬言"绝不生孩子",却8年怀孕16次

17岁嫁56岁将军,新婚夜扬言"绝不生孩子",却8年怀孕16次

小莜读史
2026-02-27 20:10:59
父亲年前从国企退休,我以为退休金也就三四千块钱

父亲年前从国企退休,我以为退休金也就三四千块钱

五元讲堂
2026-02-25 14:26:11
莫迪彻底丢掉了大国的脸面,印度和以色列穿上同一条裤子

莫迪彻底丢掉了大国的脸面,印度和以色列穿上同一条裤子

福建平子
2026-02-28 11:16:40
宝马X9杀疯了!27英寸屏+六座头等舱,还要啥GLS!

宝马X9杀疯了!27英寸屏+六座头等舱,还要啥GLS!

小李子体育
2026-02-25 16:53:50
牺牲时仅19岁:被20多名土匪轮番侵犯,行刑前高呼“毛主席万岁”

牺牲时仅19岁:被20多名土匪轮番侵犯,行刑前高呼“毛主席万岁”

晓风洞察
2026-02-27 13:19:44
等夏:一种关于苏醒的漫长预习

等夏:一种关于苏醒的漫长预习

疾跑的小蜗牛
2026-02-27 21:36:14
司机接180元独享取消60元小单,乘客破防大骂,司机回复太真实!

司机接180元独享取消60元小单,乘客破防大骂,司机回复太真实!

网约车观察室
2026-02-28 09:52:37
美股:三大指数遭遇重挫 金融股集体大跌|开云见山

美股:三大指数遭遇重挫 金融股集体大跌|开云见山

北青网-北京青年报
2026-02-28 11:13:06
2026-02-28 12:04:49
将门创投 incentive-icons
将门创投
加速及投资技术驱动型初创企业
2302文章数 596关注度
往期回顾 全部

科技要闻

狂揽1100亿美元!OpenAI再创融资神话

头条要闻

牛弹琴:伊朗面临生死存亡关键时刻 信号已经很明显了

头条要闻

牛弹琴:伊朗面临生死存亡关键时刻 信号已经很明显了

体育要闻

球队主力全报销?顶风摆烂演都不演了

娱乐要闻

疑似王一博被爆私密聊天记录

财经要闻

沈明高提共富建议 百姓持科技股国家兜底

汽车要闻

岚图泰山黑武士版3月上市 搭载华为四激光智驾方案

态度原创

时尚
游戏
健康
旅游
军事航空

被章若楠、秦岚带火的鞋子竟然是它?春天这样穿又美又气质!

《生化9》满分媒体赞誉图!现代惊悚恐怖杰作

转头就晕的耳石症,能开车上班吗?

旅游要闻

逛吃遛娃、看展淘货,青岛四方机厂1900“瑞马食集”启幕

军事要闻

美国11架F-22隐形战机抵达以色列

无障碍浏览 进入关怀版