网易首页 > 网易号 > 正文 申请入驻

ARGRE框架实现高效LLM解毒:自回归奖励引导,安全对齐更快、更准

0
分享至



作者为北京航空航天大学的肖宜松,刘艾杉,应宗浩,刘祥龙,新加坡国立大学的梁思源,新加坡南洋理工大学的陶大程。本文已被 NeurIPS 2025 录用。

LLM 已在智能创作、企业服务等领域广泛应用,但其内容安全问题仍是落地过程中的关键挑战。仇恨、歧视、威胁性言论等潜在风险,使得 LLM 的安全部署与可信使用面临困难,而现有的内容过滤或对齐方案在效果、效率与成本之间往往难以兼顾。

近期,来自北航等机构的研究提出了一种新的解决思路:自回归奖励引导表征编辑(ARGRE)框架。该方法首次在 LLM 的潜在表征空间中可视化了毒性从高到低的连续变化路径,实现了在测试阶段进行高效「解毒」。



  • 论文标题:Detoxifying Large Language Models via Autoregressive Reward Guided Representation Editing
  • 论文地址:https://arxiv.org/abs/2510.01243

实验结果显示,ARGRE 在降低模型毒性(62.21%)、缩短推理时间(47.58%)的同时,几乎不影响模型原有能力,为提升大模型内容安全提供了新的方向。

在 8 个主流 LLM(参数覆盖 355M 的 GPT-2 Medium 到 30B 的 LLaMA-30B)上的测试显示,其性能全面碾压当前所有基线方法,为 LLM 安全落地提供了「又快又准又轻」的全新方法。



图1 ARGRE 框架图

研究背景

当前大语言模型解毒技术虽已形成两大主流路径,但均存在难以突破的核心瓶颈,严重制约其在实际场景中的落地效果:

其一,以直接偏好优化(DPO)为代表的训练时解毒方法,虽能通过偏好数据微调模型参数实现毒性抑制,却高度依赖大规模高质量标注数据与巨额算力支撑,在低数据、低算力的资源受限场景中难以适用;

其二,以表征编辑为代表的测试时解毒方法,无需修改模型参数,在推理阶段实施静态或动态干预。尽管具备灵活轻量的优势,但这类方法普遍未能充分探索大模型生成过程中毒性输出与非毒性输出之间的过渡空间,仅依赖稀疏的毒性标注数据无法捕捉到精细修复信号,导致干预精度不足,最终解毒效果远未达最优。

ARGRE 针对上述瓶颈,提出在潜在表征空间中显式建模毒性转变轨迹,形成可学习的“导航系统”。该系统将稀疏标注转化为密集信号,指导自回归奖励模型学习更稳定、精确的干预策略,从而在推理阶段高效降低毒性输出。

方法概述

ARGRE 的总体流程包括三部分:毒性轨迹探索、奖励模型学习与自适应表征编辑。其核心思想是通过表征插值刻画毒性连续变化,并以自回归奖励信号引导模型在推理阶段进行动态修正。

毒性轨迹探索

依据线性表征假设,毒性等语义概念在大语言模型的表征空间中以线性方向编码。



这些轨迹能将原本稀疏的毒性注释,转化为连续的细粒度毒性表征变化信号,形成密集的监督信息,最终让后续学习的自回归奖励模型具备更稳定、准确的编辑指导能力。

自回归奖励模型

轨迹级奖励模型基于完整轨迹训练,仅在结尾处分配最终奖励,导致生成过程中编辑信号不够精准。





自适应表征编辑

依托自回归奖励模型,推理阶段通过引导每个令牌表征最大化预期奖励,实现大语言模型输出毒性的降低。



相较于现有方法依赖启发式静态干预或繁琐的梯度动态干预,该策略在效果与效率上优势显著:定向引导可降低表征陷入局部最优的风险,而有限的梯度迭代则确保自回归生成的额外开销微乎其微。

实验评估

在实验评估环节,为验证解毒效果,研究团队以 RealToxicityPrompts 的挑战子集为测试基准。

通过向大语言模型输入该子集的提示以触发潜在毒性输出,再借助 Detoxify 工具对生成结果进行毒性评分(分数越高毒性越强),同时以生成文本的困惑度衡量语言流畅性保留情况。

评估覆盖 8 个主流 LLM,参数规模跨度从 355M(如 GPT-2 Medium)到 30B(如 LLaMA-30B)。

有效性评估中,ARGRE 展现出卓越的解毒性能:不仅显著超越各类基线方法,更在 8 个主流大语言模型上实现了高效毒性抑制,相比原始模型毒性降低率高达 62.21%。即便仅保留初始定向引导步骤、去除迭代优化的简化版本,也能实现 59.63% 的毒性降低。

同时,ARGRE 在不同参数规模模型中均表现稳定,从 355M 到 30B 参数的大模型均能有效适配,且仅造成最小程度的流畅性损耗,成功平衡了毒性抑制效果与模型核心生成能力。



效率表现上,ARGRE 同样展现出显著优势。以 LLaMA-30B 为测试对象,在生成 128 个 token 的任务中,ARGRE 能有效降低计算开销,相比当前表现最佳的基线方法,推理时间减少 47.58%。

ARGRE 的效率优势源于两点核心设计:一方面,其自回归奖励模型采用轻量两层 MLP 结构,无需额外复杂模块,避免引入多余计算负担;另一方面,自适应两步编辑中的梯度优化步骤仅需少量迭代,进一步控制了推理阶段的开销。

而实现可比解毒表现的简化版本,推理速度与原始模型近乎持平,表明定向引导步骤的开销极小。



理想的大语言模型解毒方法,需在降低毒性的同时完整保留模型现有核心能力,ARGRE 较好的满足了这一目标。在语言性能保留层面,以 WikiText-2 数据集的困惑度为衡量指标,ARGRE 仅导致困惑度平均上升 0.52,这一微小增幅意味着其对语言生成能力的影响极低,且该增幅在所有测试时基线方法中处于最低水平。

在零样本任务能力层面,ARGRE 能够稳定保留原始模型的准确率,未出现能力退化;而其他测试时基线方法在这一维度均表现出不同程度的性能下降。



总结

本文提出的 ARGRE,是一种能显式建模 LLM 表征空间中毒性转变的新型测试时解毒方法。其核心突破在于通过将稀疏的毒性标注转化为密集训练信号,高效学习出可提供稳定、精准指导的自回归奖励模型,为后续表征编辑提供关键支撑。

在覆盖 355M 至 30B 参数的 8 种主流 LLM 上的广泛评估显示,ARGRE 不仅在解毒性能上全面优于基线方法,推理效率也显著高于其他主流基线,更能以近乎零损耗的方式保留模型原有的核心能力。

ARGRE 当前存在两点局限:其一,作为白盒方法,它需获取 LLM 的内部表征才能实施干预,限制了其在无法接触模型内部信息场景中的应用范围;其二,当前对毒性转变的探索仅围绕第一主成分方向展开,未来工作将尝试探索更多样化的方向,以便更好地捕捉毒性转变的细微特征。

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
全员到岗不准请假缺席,国民党下甲级动员令,要和赖清德决一死战

全员到岗不准请假缺席,国民党下甲级动员令,要和赖清德决一死战

叮当当科技
2026-04-20 12:12:58
武汉市武昌区政府副区长,区公安分局局长徐舫拟提名为市州副市州长人选

武汉市武昌区政府副区长,区公安分局局长徐舫拟提名为市州副市州长人选

观星赏月
2026-04-20 18:26:12
随着巴黎圣日耳曼爆大冷门1-2,法甲最新积分榜出炉:争冠白热化

随着巴黎圣日耳曼爆大冷门1-2,法甲最新积分榜出炉:争冠白热化

侧身凌空斩
2026-04-20 07:55:12
世锦赛战报:中国2胜2负!丁俊晖“老虎发威”,世界第5连丢5局

世锦赛战报:中国2胜2负!丁俊晖“老虎发威”,世界第5连丢5局

不写散文诗
2026-04-20 15:14:30
小学生拒绝“借”车遭殴打还被搜家,8人未满14岁不处罚、1人被处行拘免执行,家长称看施暴视频气得吃救心丸

小学生拒绝“借”车遭殴打还被搜家,8人未满14岁不处罚、1人被处行拘免执行,家长称看施暴视频气得吃救心丸

极目新闻
2026-04-19 22:39:27
斯诺克世锦赛:丁俊晖送大礼!吉尔伯特被罚12分逆转,仅2-3落后

斯诺克世锦赛:丁俊晖送大礼!吉尔伯特被罚12分逆转,仅2-3落后

刘姚尧的文字城堡
2026-04-19 19:17:56
西方正酝酿一个可怕的共识:对华战争,可突破道德底线与伦理原则

西方正酝酿一个可怕的共识:对华战争,可突破道德底线与伦理原则

Ck的蜜糖
2026-04-20 19:02:28
今日凌晨济州出发邮轮发生坠海事故!20多岁中国男子下落不明…

今日凌晨济州出发邮轮发生坠海事故!20多岁中国男子下落不明…

奋斗在韩国
2026-04-20 13:35:06
全网唱衰的下嫁!嫁普通人5年,前任是法拉利总裁,终究还是输了

全网唱衰的下嫁!嫁普通人5年,前任是法拉利总裁,终究还是输了

橙星文娱
2026-04-18 16:42:58
“说好给2000,他给10元”:2011年75岁男子睡33岁女人拒付钱被杀

“说好给2000,他给10元”:2011年75岁男子睡33岁女人拒付钱被杀

汉史趣闻
2026-04-18 15:19:07
中央层面整治形式主义为基层减负专项工作机制办公室 中央纪委办公厅公开通报4起整治形式主义为基层减负典型问题

中央层面整治形式主义为基层减负专项工作机制办公室 中央纪委办公厅公开通报4起整治形式主义为基层减负典型问题

新华社
2026-04-20 17:44:02
美军突然在海上开火,革命卫队火速出兵,立刻对美国军舰发起反击

美军突然在海上开火,革命卫队火速出兵,立刻对美国军舰发起反击

军机Talk
2026-04-20 18:13:46
打7000万美元给送盒饭给老人的机构,然后一声不吭! 离开贝佐斯后,她一直在各种悄悄送钱....

打7000万美元给送盒饭给老人的机构,然后一声不吭! 离开贝佐斯后,她一直在各种悄悄送钱....

英国那些事儿
2026-04-19 23:07:22
德国百年巨头倒下时,浙江修鞋匠花4500万买下,如今年入70亿

德国百年巨头倒下时,浙江修鞋匠花4500万买下,如今年入70亿

毒sir财经
2026-04-19 22:12:53
季后赛G1总结:仅活塞遭下克上+湖人赢9分最少 分差创历史第四高

季后赛G1总结:仅活塞遭下克上+湖人赢9分最少 分差创历史第四高

醉卧浮生
2026-04-20 12:05:52
美国在霍尔木兹截停中国油轮 中方回应

美国在霍尔木兹截停中国油轮 中方回应

极目新闻
2026-04-20 15:50:46
南京熊猫通信科技有限公司被暂停全军物资工程服务采购活动资格

南京熊猫通信科技有限公司被暂停全军物资工程服务采购活动资格

齐鲁壹点
2026-04-20 20:06:03
Model Y 撞报废,车主轻伤,又订了辆 Model Y L!

Model Y 撞报废,车主轻伤,又订了辆 Model Y L!

新浪财经
2026-04-20 15:28:47
张雪回应:820RR爆缸是发动机问题,换新车还是退钱,车主选!

张雪回应:820RR爆缸是发动机问题,换新车还是退钱,车主选!

哄动一时啊
2026-04-18 19:39:31
停止焦虑最好的办法,不是读书,不是运动,而是……

停止焦虑最好的办法,不是读书,不是运动,而是……

壹心理
2026-04-19 11:03:36
2026-04-20 20:39:00
机器之心Pro incentive-icons
机器之心Pro
专业的人工智能媒体
12811文章数 142632关注度
往期回顾 全部

科技要闻

华为Pura90逆周期定价,4699元起,未涨价

头条要闻

小学生遭多名中小学生施暴搜家 家长以"入室抢劫"报案

头条要闻

小学生遭多名中小学生施暴搜家 家长以"入室抢劫"报案

体育要闻

阿森纳已拼尽全力,但你早干嘛去了...

娱乐要闻

鹿晗生日上热搜,被关晓彤撕下体面

财经要闻

利润暴跌7成,字节到底在做什么

汽车要闻

把天门山搬进厂?开仰望U8冲上45度坡的那刻 我腿软了

态度原创

游戏
时尚
本地
家居
手机

腾讯狂奔2026:68款储备游戏,至少24款“面世”

春天就该这样穿!裙子选彩色、白色T恤作内搭,舒适优雅简约

本地新闻

12吨巧克力有难,全网化身超级侦探添乱

家居要闻

自然慢调 慢享时光

手机要闻

华为双喜临门!鸿蒙6破5500万,6.1版本更新同步上线!

无障碍浏览 进入关怀版