网易首页 > 网易号 > 正文 申请入驻

大模型“精细化”对齐,真实性提升25.8%刷新SOTA

0
分享至

TAE团队 投稿
量子位 | 公众号 QbitAI

提升大模型对齐能力新方法,在TruthfulQA任务上真实性指标提升25.8%,刷新当前最优性能!

方法名为Token-Aware Editing (TAE),是一种token感知的推理时表征编辑方法

该方法首次系统性地从token层面解决了传统表征编辑技术的问题,无需训练、即插即用,可广泛应用于对话系统、内容审核、偏见mitigation等场景。



在大模型广泛应用的时代,如何让模型输出更符合人类价值观(如真实性、无害性、公平性)已成为关键挑战。传统方法通常依赖大量数据微调,成本高、效率低,且容易引入新风险。

近年来,对大语言模型(LLMs)的内部激活值直接进行编辑,被证明是一种有效的推理时对齐方法,能够高效抑制模型生成错误或有害内容等不良行为,从而确保大语言模型应用的安全性与可靠性。

然而,现有方法忽略了不同token之间的错位差异,导致对齐方向出现偏差且编辑强度缺乏灵活性。

由此,来自北航的研究团队在EMNLP 2025上提出了该方法。

未来,团队计划将TAE扩展至多维度对齐(如同时优化真实性与无害性),并探索与SFT、RLHF等训练方法的结合,推动大模型向更安全、可靠的方向发展。

TAE:从“句子”到“词”的精细化干预

研究团队指出,以往的表征编辑研究(如ITI、TruthX等)大多在句子级别进行激活值编辑,在编辑方向探寻和内部表征编辑两个主要阶段均存在问题:

  • 方向偏差(Deviant Alignment Direction):仅用最后一个token代表整个句子,信息不全面,学到的编辑方向不准。
  • 编辑强度不灵活(Inflexible Editing Strength):对所有token“一视同仁”地进行编辑,无法精准纠正真正“出错”的token。



为了解决上述问题,团队提出了Token-Aware Editing (TAE),核心包含两个模块:



1、Mutual Information-guided Graph Aggregation (MIG)

传统句子级探针使用最后一个token(通常是或句号等标志符)的激活值来代表整个复杂句子的语义和对齐状态。然而,尽管LLM的自注意力机制允许最后一个token感知到前面所有token的信息,但这种感知可能存在信息损失和局部理解局限。因此,仅基于它学到的“对齐方向”可能是有偏差的,不是一个普适性的方向。而MIG模块的目标是增强激活值的表征能力,从而训练出更优秀的探针,找到更准确的编辑方向。

  • 构建Token关系图:利用互信息(Mutual Information)量化Token激活值之间的关联性,构建信息交互图;
  • 多层次信息聚合:通过多轮图传播,融合所有Token的语义信息,生成更具代表性的增强激活表征;
  • 精准对齐方向探测:基于增强表征训练探测头,准确识别与对齐相关的干预方向

2、Misalignment-aware Adaptive Intervention (MAI)

在推理干预时,传统方法对所有token应用相同的编辑强度(α)。但显然,一个句子中有些token很“安全”(已对齐),有些token则很“危险”(即将导致模型产生不对齐的内容)。用同样的力度去“推”所有token,要么可能对安全token造成过度干预(可能影响流畅性和有用性),要么可能对危险token的干预力度不足(无法有效纠正错误)。MAI模块的目标是在推理时,为当前正在生成的每个token计算一个自适应的编辑强度A(o_t)。它从两个维度来感知一个token的“错位”风险:

  • 双路错位评估:从表示错位估计和预测不确定性量化两个方面评估token的潜在不确定性程度
  • 动态强度调整:根据错位程度自适应计算干预强度,高风险token强干预,低风险token弱干预。

最终,TAE方法将两者结合,实现了比前人方法更精细、更有效、成本更低的推理时对齐干预,在真实性、无害性、公平性等多个对齐维度上都取得了显著提升。

实验结果:显著超越现有方法

团队选取真实性、有害性和公平性三个典型对齐维度来评估TAE的对齐效果:



在评估真实性的TruthfulQA数据集上,TAE在LLaMA-3-8B-Instruct上取得了87.8%的True*Info得分,比之前最好的编辑方法(SEA: 73.2%)提升了14.6个百分点比原始基线(62.0%)提升了25.8个百分点



TAE在去毒任务的RealToxicPrompt上同样表现卓越,将TP(毒性概率)从基线的0.41大幅降低到0.05,降幅近90%,并且优于所有专门的去毒基线方法(如DESTEIN: 0.13);在公平性任务数据集StereoSet上,TAE将刻板印象分数(SS)从基线的64.8%显著降低到50.3%,极大地缓解了模型偏见,并且最接近理想的无偏见状态(50%)。

不仅如此,TAE在不同类型、大小的模型上均表现出显著增益,如Llama2-7B-Chat, Llama2-13B-Chat, Alpaca-7B和Mistral-7B等。



论文链接:https://openreview.net/pdf?id=43nuT3mODk

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
夺冠,全红婵还能回国家队?复出首秀夺冠,谁注意她体型变化

夺冠,全红婵还能回国家队?复出首秀夺冠,谁注意她体型变化

乐聊球
2025-11-02 21:45:47
CBA新赛季唯一一支全华班?曝昔日总冠军不找外援,或面临降级

CBA新赛季唯一一支全华班?曝昔日总冠军不找外援,或面临降级

老叶评球
2025-11-02 17:16:06
“良心坏透”的5个生活用品,很多人每天用,却不知其中危害

“良心坏透”的5个生活用品,很多人每天用,却不知其中危害

家居美少女
2025-10-23 15:34:22
乌军投降了,红军城大鱼落网,俄凌晨击落6架敌机,基辅封锁消息

乌军投降了,红军城大鱼落网,俄凌晨击落6架敌机,基辅封锁消息

影孖看世界
2025-11-02 23:36:09
镇江一小区楼栋发生沉降居民撤离,墙体严重变形露出砖块,附近商户:小区有二三十年历史

镇江一小区楼栋发生沉降居民撤离,墙体严重变形露出砖块,附近商户:小区有二三十年历史

极目新闻
2025-11-02 17:55:34
这是我见过的五官最精致的女性,一脸福相,以后会贵不可言

这是我见过的五官最精致的女性,一脸福相,以后会贵不可言

手工制作阿歼
2025-10-28 14:03:28
马筱梅一家在成都,两姐弟露脸菻菻抗拒张兰,重男轻女评论区翻车

马筱梅一家在成都,两姐弟露脸菻菻抗拒张兰,重男轻女评论区翻车

冷紫葉
2025-11-02 21:41:08
新王登场!新机官宣:搭载骁龙8 Elite Gen5+小直屏!

新王登场!新机官宣:搭载骁龙8 Elite Gen5+小直屏!

科技堡垒
2025-11-02 11:17:56
27分大胜!火箭击退凯尔特人3连胜,杜兰特26分申京16+10+9

27分大胜!火箭击退凯尔特人3连胜,杜兰特26分申京16+10+9

湖人崛起
2025-11-02 10:18:53
司晓迪硬刚李云迪:睡我、拉黑、玩消失!

司晓迪硬刚李云迪:睡我、拉黑、玩消失!

TVB的四小花
2025-11-01 08:37:26
皇马,再见!阿隆索拍板,5000万“嫡系”离队!9000万节拍器来投

皇马,再见!阿隆索拍板,5000万“嫡系”离队!9000万节拍器来投

头狼追球
2025-11-02 16:33:56
知名男演员自曝,被亲戚骗光所有积蓄

知名男演员自曝,被亲戚骗光所有积蓄

极目新闻
2025-11-02 10:28:03
7项第一+3项第二!火箭蜕变太快还补PG吗?阿门奥科吉均有大贡献

7项第一+3项第二!火箭蜕变太快还补PG吗?阿门奥科吉均有大贡献

颜小白的篮球梦
2025-11-03 06:19:12
运动可能影响寿命!医生提醒:65岁以后,牢记运动“6不要”

运动可能影响寿命!医生提醒:65岁以后,牢记运动“6不要”

观星赏月
2025-10-31 14:18:54
反人类设计!东莞一公园长石凳上安装金属扶手,为驱赶流浪汉躺卧

反人类设计!东莞一公园长石凳上安装金属扶手,为驱赶流浪汉躺卧

火山诗话
2025-11-02 10:11:42
黄金又出大事了,目前已经有个人想要出售黄金,但是金店拒绝回收

黄金又出大事了,目前已经有个人想要出售黄金,但是金店拒绝回收

流苏晚晴
2025-11-02 16:32:42
NBA战报:雷霆137-106轻取鹈鹕取NBA7连胜,亚历山大30+2+7

NBA战报:雷霆137-106轻取鹈鹕取NBA7连胜,亚历山大30+2+7

懂球帝
2025-11-03 06:57:06
高中时期你经历过哪些炸裂事迹?网友:大家的青春都这么污的吗

高中时期你经历过哪些炸裂事迹?网友:大家的青春都这么污的吗

带你感受人间冷暖
2025-10-03 00:20:08
莫雷4-0击败日本神童,踢台桌扔球,松岛崩盘吃警告!

莫雷4-0击败日本神童,踢台桌扔球,松岛崩盘吃警告!

阿籫你好
2025-11-03 02:27:31
一场3-1让曼城超越利物浦,哈兰德踢疯了:13场狂轰17球

一场3-1让曼城超越利物浦,哈兰德踢疯了:13场狂轰17球

足球狗说
2025-11-03 06:58:35
2025-11-03 07:16:49
量子位 incentive-icons
量子位
追踪人工智能动态
11617文章数 176320关注度
往期回顾 全部

科技要闻

10月零跑突破7万辆,小鹏、蔚来超4万辆

头条要闻

马来西亚首富之子买上海大平层 449平米1.17亿元

头条要闻

马来西亚首富之子买上海大平层 449平米1.17亿元

体育要闻

这个日本人,凭啥值3.25亿美元?

娱乐要闻

陈道明被王家卫说他是阴阳同体的极品

财经要闻

段永平捐了1500万元茅台股票!本人回应

汽车要闻

神龙汽车推出“发动机终身质保”政策

态度原创

教育
艺术
数码
房产
时尚

教育要闻

背诵很多遍依旧写不出来,要让自己根据真题练习模拟写作

艺术要闻

瓦迪斯瓦夫·谢维尼茨基:19世纪波兰杰出的画家

数码要闻

麒麟9030处理器突然曝光:1+4+4六核狂飙,可惜工艺不详!

房产要闻

中粮(三亚)国贸中心ITC首期自贸港政策沙龙圆满举行

最近很火的发型,原来这么简单!

无障碍浏览 进入关怀版