网易首页 > 网易号 > 正文 申请入驻

用RLHF 2%的算力让LLM停止有害输出,字节提出LLM遗忘学习

0
分享至

机器之心专栏

机器之心编辑部

如何让 LLM “忘记” 学到的有害内容?

随着大型语言模型(LLM)的发展,从业者面临更多挑战。如何避免 LLM 产生有害回复?如何快速删除训练数据中的版权保护内容?如何减少 LLM 幻觉(hallucinations,即错误事实)? 如何在数据政策更改后快速迭代 LLM?这些问题在人工智能法律和道德的合规要求日益成熟的大趋势下,对于 LLM 的安全可信部署至关重要。

目前业界的主流解决方案为 LLM 对齐 (alignment),即通过建立对比数据(正样本和负样本)用强化学习的方式来对 LLM 进行微调 (Finetuning),也就是 RLHF (Reinforcement Learning from Human Feedback)[1] ,从而保证 LLM 输出符合人类预期和价值观。但对齐过程往往受到 (1) 数据收集;(2) 计算资源的限制。

字节跳动提出让 LLM 进行遗忘学习的方法来进行对齐。本文研究如何在 LLM 上进行 “遗忘” 操作,即忘记有害行为或遗忘学习(Machine Unlearning),作者展示了遗忘学习在三种 LLM 对齐场景上取得的明显效果:(1) 删除有害输出;(2) 移除侵权保护内容;(3) 消除大语言 LLM 幻觉。

遗忘学习有三个优势:(1) 只需负样本(有害样本),负样本比 RLHF 所需的正样本(高质量的人工手写输出)的收集简单的多(比如红队测试或用户报告);(2) 计算成本低;(3) 如果知道哪些训练样本导致 LLM 有害行为时,遗忘学习尤为有效。

作者证明,如果从业者只有较少的资源,因此优先考虑的是停止产生有害输出,而不是试图产生过于理想化的输出,遗忘学习尤为便利。尽管只有负样本,研究表明,和 RLHF 相比,只使用 2% 的计算时间下,遗忘学习仍可以获得更好的对齐性能。

  • 论文地址:https://arxiv.org/abs/2310.10683
  • 代码地址:https://github.com/kevinyaobytedance/llm_unlearn

使用场景

本方法可以在资源有限的情况下,最大程度发挥优势。当没预算请人员写优质样本,或计算资源不足时,应当优先停止 LLM 产生有害输出,而不是试图让其产生有益输出。

有害输出造成的损害远不是有益输出能弥补的。如果一个用户问 LLM100 个问题,他得到一个有害答案,就会失去信任,不管后来 LLM 能给多少有益答案。有害问题的预期输出可以是空格、特殊字符、无意义字符串等,总之,一定要是无害文本。

文中展示了 LLM 遗忘学习的三个成功案例:(1) 停止生成有害回复(图一);这与 RLHF 情境相似,区别是本方法目标是生成无害回复,而不是有益回复。当只有负样本时,这是能期望的最好结果。(2) LLM 使用侵权数据训练后,在作者要求下,成功删除数据,且考虑到成本因素不能重训 LLM;(3) LLM 成功忘记 “幻觉”。

图一

方法

在微调 step t,LLM 更新如下:

第一项损失为梯度上升(graident descent),目的为忘记有害样本:

为有害提示 (prompt),

为对应的有害回复。整体损失反向提升了有害样本的损失,即让 LLM “遗忘” 有害样本。

第二项损失为随机误配,强制 LLM 在有害提示上预测无关回复。类似于分类里的标签平滑(label smoothing [2])。目的是 LLM 更好的忘记有害提示上的有害输出。同时实验发现能增加 LLM 正常输出的性能。

第三项损失为在正常任务上维持性能:

同 RLHF 类似,在预训练 LLM 上计算 KL 散度能更好保持 LLM 性能。

此外,所有的梯度上升和下降都只在输出(y)部分做,而不是像 RLHF 在提示 - 输出对(x, y)上。

应用场景:忘却有害内容等

本文用 PKU-SafeRLHF 数据作为遗忘数据,TruthfulQA 作为正常数据,图二显示了遗忘学习后 LLM 在忘却的有害提示上输出的有害率。文中使用的方法为 GA(梯度上升和 GA+Mismatch:梯度上升 + 随机误配)。遗忘学习后的有害率接近于零。

图二

图三显示了未见过的有害提示(未被忘却过)上的输出。即使在没有忘却过的有害提示上,LLM 的有害率也接近于零,证明 LLM 忘记的不仅仅是具体见过的样本,而是泛化到了包含有害这个概念的内容。

图三

同时 LLM 在正常样本上的性能和忘却前保持类似。

表一展示了生成的样本。可以看到在有害提示下,LLM 生成的样本都是无意义字符串,即无害输出。

表一

该方法在其他场景(如忘却侵权内容和忘却幻觉)的应用原文中有详细描述。

RLHF 比较

表二显示了该方法和 RLHF 的比较,这里 RLHF 已经用了正例,而遗忘学习的方法只有负例,所以比较一开始本方法就占劣势。但即便如此,遗忘学习也能取得和 RLHF 相似的对齐性能。

表二

图四显示了计算时间的比较,本方法只需 RLHF 2% 的计算时间。

图四

尽管只有负样本,遗忘学习的方法仍能达到和 RLHF 相似的无害率,而且只使用 2% 的算力。因此如果目标是停止输出有害输出,遗忘学习比 RLHF 更高效。

结论

该研究首次探索了 LLM 上的遗忘学习。本文的结果表明,遗忘学习是一种有希望的对齐方法,特别是当从业者没有足够的资源时。论文展示了三种情境:遗忘学习可以成功删除有害回复、删除侵权内容和消除错觉。研究表明,尽管只有负样本,遗忘学习仍可在只用 RLHF 计算时间的 2% 的情况下,获得和 RLHF 相近的对齐效果。

参考文献

[1] Ouyang, Long, et al. "Training language models to follow instructions with human feedback." Advances in Neural Information Processing Systems 35 (2022): 27730-27744.

[2] Müller, Rafael, Simon Kornblith, and Geoffrey E. Hinton. "When does label smoothing help?" Advances in neural information processing systems 32 (2019).

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
“是多大的官?怎么这么大官威啊?”女教授节目中直批当地政府工作人员!她称“没有彩排”

“是多大的官?怎么这么大官威啊?”女教授节目中直批当地政府工作人员!她称“没有彩排”

每日经济新闻
2024-08-31 23:58:07
马翔宇从体制内辞职后会给政府的形象带来非常大的负面影响

马翔宇从体制内辞职后会给政府的形象带来非常大的负面影响

笑熬浆糊111
2024-09-01 06:15:50
美网16强再迎两位中国姑娘!30岁的王雅繁排名火箭提升的背后有何奥秘

美网16强再迎两位中国姑娘!30岁的王雅繁排名火箭提升的背后有何奥秘

上观新闻
2024-08-31 13:11:09
北京信息科技大学4700余新生报到,64人“闯关”走进新学院

北京信息科技大学4700余新生报到,64人“闯关”走进新学院

新京报
2024-08-30 18:24:09
注意!你的手机可能正被监听

注意!你的手机可能正被监听

看看新闻Knews
2024-08-31 16:18:27
与郑钦文会师决赛!美网再出中国新面孔,直落三盘晋级16强

与郑钦文会师决赛!美网再出中国新面孔,直落三盘晋级16强

十点体坛
2024-08-31 20:13:55
李佩霞被留置后首次发声信息量很大,受贿金额或在二十万以下

李佩霞被留置后首次发声信息量很大,受贿金额或在二十万以下

姜大叔侃球
2024-08-31 05:44:14
被批“不男不女”的毕凌,把父亲毕福剑自以为豪的体面,撕得稀碎

被批“不男不女”的毕凌,把父亲毕福剑自以为豪的体面,撕得稀碎

谈娱新语
2024-08-31 22:07:54
善恶终有报!63岁在美国捡垃圾的吕丽萍,已经活成了一个“笑话”

善恶终有报!63岁在美国捡垃圾的吕丽萍,已经活成了一个“笑话”

华人星光
2024-08-30 16:53:59
蒙古国,风萧萧兮,普京此行会否落泪?

蒙古国,风萧萧兮,普京此行会否落泪?

新民周刊
2024-09-01 09:06:55
令人气愤!网传潘展乐赴港期间依旧每天要尿检,感冒甚至不能吃药

令人气愤!网传潘展乐赴港期间依旧每天要尿检,感冒甚至不能吃药

老雷的体育频道
2024-08-31 22:37:59
79岁老汉捉0.8公斤螺蛳被判刑,主办法官:零容忍

79岁老汉捉0.8公斤螺蛳被判刑,主办法官:零容忍

渔夫姜尚
2024-08-31 10:41:53
7:0,巴萨打出惨案!巴西尖刀造5球,亚马尔双响,莱万比肩梅西

7:0,巴萨打出惨案!巴西尖刀造5球,亚马尔双响,莱万比肩梅西

阿超他的体育圈
2024-09-01 00:57:14
250名哈马斯全部战死,以军冲进地下室:发现大批中方前卫18导弹

250名哈马斯全部战死,以军冲进地下室:发现大批中方前卫18导弹

林林爱天堂
2024-08-31 16:56:44
不出意外,未来最有可能接班周继红的,仅此4人!

不出意外,未来最有可能接班周继红的,仅此4人!

田先生篮球
2024-09-01 05:53:13
中东媒体:美国把顶级科学家逼到中国

中东媒体:美国把顶级科学家逼到中国

微能量
2024-08-31 14:31:59
告诉大家一个坏消息:上海深圳已出现3大怪象,值得每个人深思

告诉大家一个坏消息:上海深圳已出现3大怪象,值得每个人深思

风起云间
2024-08-31 22:50:19
53岁男子刺伤4户人家6个人,致5人身亡!被悬赏5万,老乡曝原因

53岁男子刺伤4户人家6个人,致5人身亡!被悬赏5万,老乡曝原因

林大师热点
2024-09-01 08:05:55
李阳:黑神话悟空爆火是民族悲哀,所有开发游戏的都应判刑

李阳:黑神话悟空爆火是民族悲哀,所有开发游戏的都应判刑

映射生活的身影
2024-08-31 10:38:21
被女司机打伤的退伍军人如果还手是什么后果?网友分享:同样的经历,我还手后被判刑9个月

被女司机打伤的退伍军人如果还手是什么后果?网友分享:同样的经历,我还手后被判刑9个月

小萝卜丝
2024-08-31 13:10:11
2024-09-01 11:22:44
机器之心Pro
机器之心Pro
专业的人工智能媒体
9396文章数 141998关注度
往期回顾 全部

科技要闻

估值150亿,中国GPU独角兽一夜之间解散

头条要闻

美术系主任涉嫌抄袭画作 给中国美协写了一封道歉信

头条要闻

美术系主任涉嫌抄袭画作 给中国美协写了一封道歉信

体育要闻

欧冠36队中,有个快乐的“倒数第一”

娱乐要闻

这个瓜牵扯的太多……

财经要闻

国有六大行上半年合计日赚37.54亿元

汽车要闻

第三季度后上市 方程豹豹8亮相成都车展

态度原创

艺术
房产
手机
数码
公开课

艺术要闻

故宫珍藏的墨迹《十七帖》,比拓本更精良,这才是地道的魏晋写法

房产要闻

恭喜业主!广州最大烂尾楼有救了!

手机要闻

罗永浩微博暗示年末将公布新品

数码要闻

联想拯救者《黑神话:悟空》联名主机开售,首发 15999 元

公开课

曾激光治近视的人,现在后悔吗?

无障碍浏览 进入关怀版