网易首页 > 网易号 > 正文 申请入驻

用RLHF 2%的算力让LLM停止有害输出,字节提出LLM遗忘学习

0
分享至



机器之心专栏

机器之心编辑部

如何让 LLM “忘记” 学到的有害内容?

随着大型语言模型(LLM)的发展,从业者面临更多挑战。如何避免 LLM 产生有害回复?如何快速删除训练数据中的版权保护内容?如何减少 LLM 幻觉(hallucinations,即错误事实)? 如何在数据政策更改后快速迭代 LLM?这些问题在人工智能法律和道德的合规要求日益成熟的大趋势下,对于 LLM 的安全可信部署至关重要。

目前业界的主流解决方案为 LLM 对齐 (alignment),即通过建立对比数据(正样本和负样本)用强化学习的方式来对 LLM 进行微调 (Finetuning),也就是 RLHF (Reinforcement Learning from Human Feedback)[1] ,从而保证 LLM 输出符合人类预期和价值观。但对齐过程往往受到 (1) 数据收集;(2) 计算资源的限制。

字节跳动提出让 LLM 进行遗忘学习的方法来进行对齐。本文研究如何在 LLM 上进行 “遗忘” 操作,即忘记有害行为或遗忘学习(Machine Unlearning),作者展示了遗忘学习在三种 LLM 对齐场景上取得的明显效果:(1) 删除有害输出;(2) 移除侵权保护内容;(3) 消除大语言 LLM 幻觉。

遗忘学习有三个优势:(1) 只需负样本(有害样本),负样本比 RLHF 所需的正样本(高质量的人工手写输出)的收集简单的多(比如红队测试或用户报告);(2) 计算成本低;(3) 如果知道哪些训练样本导致 LLM 有害行为时,遗忘学习尤为有效。

作者证明,如果从业者只有较少的资源,因此优先考虑的是停止产生有害输出,而不是试图产生过于理想化的输出,遗忘学习尤为便利。尽管只有负样本,研究表明,和 RLHF 相比,只使用 2% 的计算时间下,遗忘学习仍可以获得更好的对齐性能。



  • 论文地址:https://arxiv.org/abs/2310.10683
  • 代码地址:https://github.com/kevinyaobytedance/llm_unlearn

使用场景

本方法可以在资源有限的情况下,最大程度发挥优势。当没预算请人员写优质样本,或计算资源不足时,应当优先停止 LLM 产生有害输出,而不是试图让其产生有益输出。

有害输出造成的损害远不是有益输出能弥补的。如果一个用户问 LLM100 个问题,他得到一个有害答案,就会失去信任,不管后来 LLM 能给多少有益答案。有害问题的预期输出可以是空格、特殊字符、无意义字符串等,总之,一定要是无害文本。

文中展示了 LLM 遗忘学习的三个成功案例:(1) 停止生成有害回复(图一);这与 RLHF 情境相似,区别是本方法目标是生成无害回复,而不是有益回复。当只有负样本时,这是能期望的最好结果。(2) LLM 使用侵权数据训练后,在作者要求下,成功删除数据,且考虑到成本因素不能重训 LLM;(3) LLM 成功忘记 “幻觉”。



图一

方法

在微调 step t,LLM 更新如下:



第一项损失为梯度上升(graident descent),目的为忘记有害样本:





为有害提示 (prompt),



为对应的有害回复。整体损失反向提升了有害样本的损失,即让 LLM “遗忘” 有害样本。

第二项损失为随机误配,强制 LLM 在有害提示上预测无关回复。类似于分类里的标签平滑(label smoothing [2])。目的是 LLM 更好的忘记有害提示上的有害输出。同时实验发现能增加 LLM 正常输出的性能。



第三项损失为在正常任务上维持性能:



同 RLHF 类似,在预训练 LLM 上计算 KL 散度能更好保持 LLM 性能。

此外,所有的梯度上升和下降都只在输出(y)部分做,而不是像 RLHF 在提示 - 输出对(x, y)上。

应用场景:忘却有害内容等

本文用 PKU-SafeRLHF 数据作为遗忘数据,TruthfulQA 作为正常数据,图二显示了遗忘学习后 LLM 在忘却的有害提示上输出的有害率。文中使用的方法为 GA(梯度上升和 GA+Mismatch:梯度上升 + 随机误配)。遗忘学习后的有害率接近于零。



图二

图三显示了未见过的有害提示(未被忘却过)上的输出。即使在没有忘却过的有害提示上,LLM 的有害率也接近于零,证明 LLM 忘记的不仅仅是具体见过的样本,而是泛化到了包含有害这个概念的内容。



图三

同时 LLM 在正常样本上的性能和忘却前保持类似。

表一展示了生成的样本。可以看到在有害提示下,LLM 生成的样本都是无意义字符串,即无害输出。



表一

该方法在其他场景(如忘却侵权内容和忘却幻觉)的应用原文中有详细描述。

RLHF 比较

表二显示了该方法和 RLHF 的比较,这里 RLHF 已经用了正例,而遗忘学习的方法只有负例,所以比较一开始本方法就占劣势。但即便如此,遗忘学习也能取得和 RLHF 相似的对齐性能。



表二

图四显示了计算时间的比较,本方法只需 RLHF 2% 的计算时间。



图四

尽管只有负样本,遗忘学习的方法仍能达到和 RLHF 相似的无害率,而且只使用 2% 的算力。因此如果目标是停止输出有害输出,遗忘学习比 RLHF 更高效。

结论

该研究首次探索了 LLM 上的遗忘学习。本文的结果表明,遗忘学习是一种有希望的对齐方法,特别是当从业者没有足够的资源时。论文展示了三种情境:遗忘学习可以成功删除有害回复、删除侵权内容和消除错觉。研究表明,尽管只有负样本,遗忘学习仍可在只用 RLHF 计算时间的 2% 的情况下,获得和 RLHF 相近的对齐效果。

参考文献

[1] Ouyang, Long, et al. "Training language models to follow instructions with human feedback." Advances in Neural Information Processing Systems 35 (2022): 27730-27744.

[2] Müller, Rafael, Simon Kornblith, and Geoffrey E. Hinton. "When does label smoothing help?" Advances in neural information processing systems 32 (2019).

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
中国女排大合照!打卡澳门经典景点,袁心玥站C位,朱婷低调靠边

中国女排大合照!打卡澳门经典景点,袁心玥站C位,朱婷低调靠边

跑者排球视角
2024-05-22 11:35:43
网曝猛料:大S或将复出参加《浪姐》,网友:汪小菲终于能喘口气

网曝猛料:大S或将复出参加《浪姐》,网友:汪小菲终于能喘口气

小徐讲八卦
2024-05-21 07:44:29
继美国国务卿布林肯、国务院相继表态后,美国防部也作出表态

继美国国务卿布林肯、国务院相继表态后,美国防部也作出表态

愤怒的猫的怒火之路
2024-05-22 20:42:51
男医生收到私聊尺度能有多大?截图给爷整不会了…

男医生收到私聊尺度能有多大?截图给爷整不会了…

涛涛生活搞笑
2024-04-10 07:10:03
中方宣布对加拉格尔采取反制措施

中方宣布对加拉格尔采取反制措施

环球时报国际
2024-05-22 07:44:19
侯佩岑转发台湾回归祖国!立场坚定获赞,周杰伦、蔡依林等人沉默

侯佩岑转发台湾回归祖国!立场坚定获赞,周杰伦、蔡依林等人沉默

萌神木木
2024-05-22 17:07:24
四川省能源投资集团有限责任公司原工会主席夏公海被开除党籍

四川省能源投资集团有限责任公司原工会主席夏公海被开除党籍

新京报
2024-05-22 19:28:29
广州天河区2024年十大富豪,总身价超2500亿元,年龄最小的仅39岁

广州天河区2024年十大富豪,总身价超2500亿元,年龄最小的仅39岁

老許
2024-05-22 11:21:54
谁能想到520收到这…

谁能想到520收到这…

于小戈
2024-05-22 01:23:01
​见赖清德遭不住,美国对大陆甩出“威力无比”硬招,太有想法了

​见赖清德遭不住,美国对大陆甩出“威力无比”硬招,太有想法了

千里持剑
2024-05-22 15:07:36
亚特兰大确定欧冠第二档,但若联赛第5收官将送罗马去第一档

亚特兰大确定欧冠第二档,但若联赛第5收官将送罗马去第一档

直播吧
2024-05-23 07:52:13
黄金交易提醒:鹰派美联储会议纪要打压降息预期,金价大跌逾40美元

黄金交易提醒:鹰派美联储会议纪要打压降息预期,金价大跌逾40美元

汇通网
2024-05-23 07:16:40
国足新名单出炉,4大实力悍将落选引发巨大争议,伊万选人看不懂

国足新名单出炉,4大实力悍将落选引发巨大争议,伊万选人看不懂

零度眼看球
2024-05-22 13:26:23
外交部:坚决反对借所谓“间谍活动”对中国恶意诋毁,敦促英方停止反华政治操弄

外交部:坚决反对借所谓“间谍活动”对中国恶意诋毁,敦促英方停止反华政治操弄

环球网资讯
2024-05-22 21:12:09
日本已到中方不打不行的地步,不应再有期望,连沙特王储都害怕了

日本已到中方不打不行的地步,不应再有期望,连沙特王储都害怕了

战友老邓
2024-05-21 16:17:22
周销量排行榜,小米有变!

周销量排行榜,小米有变!

电动知家
2024-05-21 14:48:03
中国制裁美顽固反华政客,堵住其退路,本人回应触犯中方“逆鳞”

中国制裁美顽固反华政客,堵住其退路,本人回应触犯中方“逆鳞”

陈菲副教授
2024-05-22 17:00:31
要告诉你的亲人:未来几年,千万不要“得罪”这4类人

要告诉你的亲人:未来几年,千万不要“得罪”这4类人

舒山有鹿
2024-05-22 12:02:39
579元 小米智能猫眼2开售:红外感应 300万像素成像

579元 小米智能猫眼2开售:红外感应 300万像素成像

快科技
2024-05-22 16:45:11
降薪1个亿!NBA史上最牛X的硬汉!

降薪1个亿!NBA史上最牛X的硬汉!

左右为篮
2024-05-22 13:28:15
2024-05-23 08:24:49
机器之心Pro
机器之心Pro
专业的人工智能媒体
9008文章数 141928关注度
往期回顾 全部

科技要闻

强劲!英伟达营收同比涨2.6倍,净利涨6倍

头条要闻

美国前副国务卿警告多国:不要在乌境内建立训练基地

头条要闻

美国前副国务卿警告多国:不要在乌境内建立训练基地

体育要闻

官方:橡树资本接管国米 8年苏宁时代结束

娱乐要闻

乔欣助理离职大爆料!涉及明星超10位

财经要闻

“风口上的猪”熬伤了猪巨头

汽车要闻

舒适价值拉满 奇瑞风云T9售12.99-16.99万元

态度原创

游戏
家居
时尚
艺术
公开课

《黄金树幽影》支持15种字幕 新增阿拉伯语

家居要闻

化实为虚 理性与柔美的交互

火遍全网的干巴lunch是一种怎样的存在?

艺术要闻

穿越时空的艺术:《马可·波罗》AI沉浸影片探索人类文明

公开课

近视只是视力差?小心并发症

无障碍浏览 进入关怀版