网易首页 > 网易号 > 正文 申请入驻

ARGRE框架实现高效LLM解毒:自回归奖励引导,安全对齐更快、更准

0
分享至



作者为北京航空航天大学的肖宜松,刘艾杉,应宗浩,刘祥龙,新加坡国立大学的梁思源,新加坡南洋理工大学的陶大程。本文已被 NeurIPS 2025 录用。

LLM 已在智能创作、企业服务等领域广泛应用,但其内容安全问题仍是落地过程中的关键挑战。仇恨、歧视、威胁性言论等潜在风险,使得 LLM 的安全部署与可信使用面临困难,而现有的内容过滤或对齐方案在效果、效率与成本之间往往难以兼顾。

近期,来自北航等机构的研究提出了一种新的解决思路:自回归奖励引导表征编辑(ARGRE)框架。该方法首次在 LLM 的潜在表征空间中可视化了毒性从高到低的连续变化路径,实现了在测试阶段进行高效「解毒」。



  • 论文标题:Detoxifying Large Language Models via Autoregressive Reward Guided Representation Editing
  • 论文地址:https://arxiv.org/abs/2510.01243

实验结果显示,ARGRE 在降低模型毒性(62.21%)、缩短推理时间(47.58%)的同时,几乎不影响模型原有能力,为提升大模型内容安全提供了新的方向。

在 8 个主流 LLM(参数覆盖 355M 的 GPT-2 Medium 到 30B 的 LLaMA-30B)上的测试显示,其性能全面碾压当前所有基线方法,为 LLM 安全落地提供了「又快又准又轻」的全新方法。



图1 ARGRE 框架图

研究背景

当前大语言模型解毒技术虽已形成两大主流路径,但均存在难以突破的核心瓶颈,严重制约其在实际场景中的落地效果:

其一,以直接偏好优化(DPO)为代表的训练时解毒方法,虽能通过偏好数据微调模型参数实现毒性抑制,却高度依赖大规模高质量标注数据与巨额算力支撑,在低数据、低算力的资源受限场景中难以适用;

其二,以表征编辑为代表的测试时解毒方法,无需修改模型参数,在推理阶段实施静态或动态干预。尽管具备灵活轻量的优势,但这类方法普遍未能充分探索大模型生成过程中毒性输出与非毒性输出之间的过渡空间,仅依赖稀疏的毒性标注数据无法捕捉到精细修复信号,导致干预精度不足,最终解毒效果远未达最优。

ARGRE 针对上述瓶颈,提出在潜在表征空间中显式建模毒性转变轨迹,形成可学习的“导航系统”。该系统将稀疏标注转化为密集信号,指导自回归奖励模型学习更稳定、精确的干预策略,从而在推理阶段高效降低毒性输出。

方法概述

ARGRE 的总体流程包括三部分:毒性轨迹探索、奖励模型学习与自适应表征编辑。其核心思想是通过表征插值刻画毒性连续变化,并以自回归奖励信号引导模型在推理阶段进行动态修正。

毒性轨迹探索

依据线性表征假设,毒性等语义概念在大语言模型的表征空间中以线性方向编码。



这些轨迹能将原本稀疏的毒性注释,转化为连续的细粒度毒性表征变化信号,形成密集的监督信息,最终让后续学习的自回归奖励模型具备更稳定、准确的编辑指导能力。

自回归奖励模型

轨迹级奖励模型基于完整轨迹训练,仅在结尾处分配最终奖励,导致生成过程中编辑信号不够精准。





自适应表征编辑

依托自回归奖励模型,推理阶段通过引导每个令牌表征最大化预期奖励,实现大语言模型输出毒性的降低。



相较于现有方法依赖启发式静态干预或繁琐的梯度动态干预,该策略在效果与效率上优势显著:定向引导可降低表征陷入局部最优的风险,而有限的梯度迭代则确保自回归生成的额外开销微乎其微。

实验评估

在实验评估环节,为验证解毒效果,研究团队以 RealToxicityPrompts 的挑战子集为测试基准。

通过向大语言模型输入该子集的提示以触发潜在毒性输出,再借助 Detoxify 工具对生成结果进行毒性评分(分数越高毒性越强),同时以生成文本的困惑度衡量语言流畅性保留情况。

评估覆盖 8 个主流 LLM,参数规模跨度从 355M(如 GPT-2 Medium)到 30B(如 LLaMA-30B)。

有效性评估中,ARGRE 展现出卓越的解毒性能:不仅显著超越各类基线方法,更在 8 个主流大语言模型上实现了高效毒性抑制,相比原始模型毒性降低率高达 62.21%。即便仅保留初始定向引导步骤、去除迭代优化的简化版本,也能实现 59.63% 的毒性降低。

同时,ARGRE 在不同参数规模模型中均表现稳定,从 355M 到 30B 参数的大模型均能有效适配,且仅造成最小程度的流畅性损耗,成功平衡了毒性抑制效果与模型核心生成能力。



效率表现上,ARGRE 同样展现出显著优势。以 LLaMA-30B 为测试对象,在生成 128 个 token 的任务中,ARGRE 能有效降低计算开销,相比当前表现最佳的基线方法,推理时间减少 47.58%。

ARGRE 的效率优势源于两点核心设计:一方面,其自回归奖励模型采用轻量两层 MLP 结构,无需额外复杂模块,避免引入多余计算负担;另一方面,自适应两步编辑中的梯度优化步骤仅需少量迭代,进一步控制了推理阶段的开销。

而实现可比解毒表现的简化版本,推理速度与原始模型近乎持平,表明定向引导步骤的开销极小。



理想的大语言模型解毒方法,需在降低毒性的同时完整保留模型现有核心能力,ARGRE 较好的满足了这一目标。在语言性能保留层面,以 WikiText-2 数据集的困惑度为衡量指标,ARGRE 仅导致困惑度平均上升 0.52,这一微小增幅意味着其对语言生成能力的影响极低,且该增幅在所有测试时基线方法中处于最低水平。

在零样本任务能力层面,ARGRE 能够稳定保留原始模型的准确率,未出现能力退化;而其他测试时基线方法在这一维度均表现出不同程度的性能下降。



总结

本文提出的 ARGRE,是一种能显式建模 LLM 表征空间中毒性转变的新型测试时解毒方法。其核心突破在于通过将稀疏的毒性标注转化为密集训练信号,高效学习出可提供稳定、精准指导的自回归奖励模型,为后续表征编辑提供关键支撑。

在覆盖 355M 至 30B 参数的 8 种主流 LLM 上的广泛评估显示,ARGRE 不仅在解毒性能上全面优于基线方法,推理效率也显著高于其他主流基线,更能以近乎零损耗的方式保留模型原有的核心能力。

ARGRE 当前存在两点局限:其一,作为白盒方法,它需获取 LLM 的内部表征才能实施干预,限制了其在无法接触模型内部信息场景中的应用范围;其二,当前对毒性转变的探索仅围绕第一主成分方向展开,未来工作将尝试探索更多样化的方向,以便更好地捕捉毒性转变的细微特征。

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
哈梅内伊身亡,媒体爆料:内塔尼亚胡去年访问白宫时就想对其斩首

哈梅内伊身亡,媒体爆料:内塔尼亚胡去年访问白宫时就想对其斩首

娱乐的宅急便
2026-03-01 17:54:47
在厕所吃饭、在衣柜里哭泣…她自爆留学时被种族歧视!

在厕所吃饭、在衣柜里哭泣…她自爆留学时被种族歧视!

奋斗在韩国
2026-02-28 16:48:38
伊朗再对美以基地发动大规模袭击

伊朗再对美以基地发动大规模袭击

财联社
2026-03-01 12:32:05
金正恩:让朝鲜人民每天都能吃到肉!

金正恩:让朝鲜人民每天都能吃到肉!

微微热评
2025-09-16 11:34:57
日本教室的钟表,一天24小时?

日本教室的钟表,一天24小时?

日本物语
2026-02-28 20:34:30
“体坛败类”马俊仁,强迫队员集体切阑尾,亲自为女队员打禁药

“体坛败类”马俊仁,强迫队员集体切阑尾,亲自为女队员打禁药

伴君终老
2026-02-27 21:52:24
那条救了中国人餐桌的鱼,你可能根本不知道它的故事

那条救了中国人餐桌的鱼,你可能根本不知道它的故事

富贵说
2026-02-26 20:49:42
武磊火线复出难救主 海港0比2国安再度无缘超级杯

武磊火线复出难救主 海港0比2国安再度无缘超级杯

上观新闻
2026-03-01 18:18:10
孙颖莎如果拿下2026新加坡大满贯冠军,

孙颖莎如果拿下2026新加坡大满贯冠军,

小光侃娱乐
2026-03-01 14:05:03
2-0!国安夺新赛季首冠,3外援亮相1人表现惊艳,球队防守存隐忧

2-0!国安夺新赛季首冠,3外援亮相1人表现惊艳,球队防守存隐忧

体坛鉴春秋
2026-03-01 17:38:35
美国被爆警告叙利亚别用中国电信技术 叙通信部回应

美国被爆警告叙利亚别用中国电信技术 叙通信部回应

财联社
2026-02-28 08:19:04
王一博“聊天记录”辣眼睛,最大输家是库迪

王一博“聊天记录”辣眼睛,最大输家是库迪

不正确
2026-02-28 18:44:26
好惨!香港知名演员新片激情戏被删光,丰满身材难现大银幕

好惨!香港知名演员新片激情戏被删光,丰满身材难现大银幕

眼底星碎
2026-03-01 11:31:34
以色列和美国联合打击伊朗多地,革命卫队会步哈马斯后尘吗?

以色列和美国联合打击伊朗多地,革命卫队会步哈马斯后尘吗?

火星宏观
2026-02-28 17:28:30
“天眼”24小时扫描中东,美军在中国卫星面前,没有任何秘密可言

“天眼”24小时扫描中东,美军在中国卫星面前,没有任何秘密可言

八斗小先生
2026-03-01 08:52:57
啊???我又上新闻联播了

啊???我又上新闻联播了

AI进化论花生
2026-02-13 15:09:15
你知道最禽兽的事是什么吗?网友的故事让人毛骨悚然!

你知道最禽兽的事是什么吗?网友的故事让人毛骨悚然!

特约前排观众
2026-02-28 00:15:03
无缘首进500赛决赛!老将张帅苦战三盘失利,止步梅里达站四强

无缘首进500赛决赛!老将张帅苦战三盘失利,止步梅里达站四强

全景体育V
2026-03-01 10:49:16
6亿打水漂?投资人揭《美人鱼2》不上映原因,劣迹艺人害惨周星驰

6亿打水漂?投资人揭《美人鱼2》不上映原因,劣迹艺人害惨周星驰

查尔菲的笔记
2025-09-02 00:48:54
1979年,巴基斯坦前总理被绞死,行刑前只留下一句话,毛主席生前最后见的人就是他

1979年,巴基斯坦前总理被绞死,行刑前只留下一句话,毛主席生前最后见的人就是他

老杉说历史
2026-01-07 07:58:10
2026-03-01 19:08:49
机器之心Pro incentive-icons
机器之心Pro
专业的人工智能媒体
12382文章数 142573关注度
往期回顾 全部

科技要闻

小米超跑概念车全球首秀!杀入顶豪俱乐部

头条要闻

普京就哈梅内伊遇害表示哀悼:一次无耻杀害

头条要闻

普京就哈梅内伊遇害表示哀悼:一次无耻杀害

体育要闻

火箭输给热火:乌度卡又输斯波教练

娱乐要闻

《江山为聘》:吴谨言陈哲远燃炸朝堂

财经要闻

中东局势升级 如何影响A股、黄金和原油

汽车要闻

理想汽车2月交付26421辆 历史累计交付超159万辆

态度原创

时尚
家居
手机
公开课
军事航空

普通人穿衣不需要太复杂!颜色恰当、搭配和谐,高级又耐看

家居要闻

素色肌理 品意式格调

手机要闻

卢伟冰宣布3月2日MWC现场直播 发布小米17 Ultra徕卡版新配色

公开课

李玫瑾:为什么性格比能力更重要?

军事要闻

美国以色列联合袭击伊朗 实时战况

无障碍浏览 进入关怀版