网易首页 > 网易号 > 正文 申请入驻

大模型“精细化”对齐,真实性提升25.8%刷新SOTA

0
分享至

TAE团队 投稿
量子位 | 公众号 QbitAI

提升大模型对齐能力新方法,在TruthfulQA任务上真实性指标提升25.8%,刷新当前最优性能!

方法名为Token-Aware Editing (TAE),是一种token感知的推理时表征编辑方法

该方法首次系统性地从token层面解决了传统表征编辑技术的问题,无需训练、即插即用,可广泛应用于对话系统、内容审核、偏见mitigation等场景。

在大模型广泛应用的时代,如何让模型输出更符合人类价值观(如真实性、无害性、公平性)已成为关键挑战。传统方法通常依赖大量数据微调,成本高、效率低,且容易引入新风险。

近年来,对大语言模型(LLMs)的内部激活值直接进行编辑,被证明是一种有效的推理时对齐方法,能够高效抑制模型生成错误或有害内容等不良行为,从而确保大语言模型应用的安全性与可靠性。

然而,现有方法忽略了不同token之间的错位差异,导致对齐方向出现偏差且编辑强度缺乏灵活性。

由此,来自北航的研究团队在EMNLP 2025上提出了该方法。

未来,团队计划将TAE扩展至多维度对齐(如同时优化真实性与无害性),并探索与SFT、RLHF等训练方法的结合,推动大模型向更安全、可靠的方向发展。

TAE:从“句子”到“词”的精细化干预

研究团队指出,以往的表征编辑研究(如ITI、TruthX等)大多在句子级别进行激活值编辑,在编辑方向探寻和内部表征编辑两个主要阶段均存在问题:

  • 方向偏差(Deviant Alignment Direction):仅用最后一个token代表整个句子,信息不全面,学到的编辑方向不准。
  • 编辑强度不灵活(Inflexible Editing Strength):对所有token“一视同仁”地进行编辑,无法精准纠正真正“出错”的token。

为了解决上述问题,团队提出了Token-Aware Editing (TAE),核心包含两个模块:

1、Mutual Information-guided Graph Aggregation (MIG)

传统句子级探针使用最后一个token(通常是或句号等标志符)的激活值来代表整个复杂句子的语义和对齐状态。然而,尽管LLM的自注意力机制允许最后一个token感知到前面所有token的信息,但这种感知可能存在信息损失和局部理解局限。因此,仅基于它学到的“对齐方向”可能是有偏差的,不是一个普适性的方向。而MIG模块的目标是增强激活值的表征能力,从而训练出更优秀的探针,找到更准确的编辑方向。

  • 构建Token关系图:利用互信息(Mutual Information)量化Token激活值之间的关联性,构建信息交互图;
  • 多层次信息聚合:通过多轮图传播,融合所有Token的语义信息,生成更具代表性的增强激活表征;
  • 精准对齐方向探测:基于增强表征训练探测头,准确识别与对齐相关的干预方向

2、Misalignment-aware Adaptive Intervention (MAI)

在推理干预时,传统方法对所有token应用相同的编辑强度(α)。但显然,一个句子中有些token很“安全”(已对齐),有些token则很“危险”(即将导致模型产生不对齐的内容)。用同样的力度去“推”所有token,要么可能对安全token造成过度干预(可能影响流畅性和有用性),要么可能对危险token的干预力度不足(无法有效纠正错误)。MAI模块的目标是在推理时,为当前正在生成的每个token计算一个自适应的编辑强度A(o_t)。它从两个维度来感知一个token的“错位”风险:

  • 双路错位评估:从表示错位估计和预测不确定性量化两个方面评估token的潜在不确定性程度
  • 动态强度调整:根据错位程度自适应计算干预强度,高风险token强干预,低风险token弱干预。

最终,TAE方法将两者结合,实现了比前人方法更精细、更有效、成本更低的推理时对齐干预,在真实性、无害性、公平性等多个对齐维度上都取得了显著提升。

实验结果:显著超越现有方法

团队选取真实性、有害性和公平性三个典型对齐维度来评估TAE的对齐效果:

在评估真实性的TruthfulQA数据集上,TAE在LLaMA-3-8B-Instruct上取得了87.8%的True*Info得分,比之前最好的编辑方法(SEA: 73.2%)提升了14.6个百分点比原始基线(62.0%)提升了25.8个百分点

TAE在去毒任务的RealToxicPrompt上同样表现卓越,将TP(毒性概率)从基线的0.41大幅降低到0.05,降幅近90%,并且优于所有专门的去毒基线方法(如DESTEIN: 0.13);在公平性任务数据集StereoSet上,TAE将刻板印象分数(SS)从基线的64.8%显著降低到50.3%,极大地缓解了模型偏见,并且最接近理想的无偏见状态(50%)。

不仅如此,TAE在不同类型、大小的模型上均表现出显著增益,如Llama2-7B-Chat, Llama2-13B-Chat, Alpaca-7B和Mistral-7B等。

论文链接:https://openreview.net/pdf?id=43nuT3mODk

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
孙中山曾称:中国要想在亚洲当大哥,必须把首都搬到这三个地方

孙中山曾称:中国要想在亚洲当大哥,必须把首都搬到这三个地方

浩渺青史
2026-05-27 00:21:06
前调查记者揭矿难黑幕:逃生者被老板雇人砸回矿井里,因为死了比救治重伤赔得少

前调查记者揭矿难黑幕:逃生者被老板雇人砸回矿井里,因为死了比救治重伤赔得少

可达鸭面面观
2026-05-28 16:52:14
理想汽车夺回20万以上新能源车中国品牌销量第一,将迎产品大周期

理想汽车夺回20万以上新能源车中国品牌销量第一,将迎产品大周期

功夫AUTO
2026-05-28 18:05:49
384:0全票通过!普京已签字,俄罗斯放出终极底牌,中国该效仿吗

384:0全票通过!普京已签字,俄罗斯放出终极底牌,中国该效仿吗

流史岁月
2026-05-28 19:45:03
巴西宣布内马尔腿伤缺阵2-3周 基本无缘世界杯首战 或被临阵替换

巴西宣布内马尔腿伤缺阵2-3周 基本无缘世界杯首战 或被临阵替换

我爱英超
2026-05-28 20:42:00
别阻止娃玩手机!马斯克:刷视频是如何让大脑变笨,得让孩子知晓

别阻止娃玩手机!马斯克:刷视频是如何让大脑变笨,得让孩子知晓

西红柿妈妈
2026-05-27 09:00:18
冠军稳了?2026 美加墨世界杯,这三支球队已锁定 99% 夺冠概率!

冠军稳了?2026 美加墨世界杯,这三支球队已锁定 99% 夺冠概率!

枫行带你去旅行
2026-05-28 19:44:30
曝央行要求大型国有银行5月加大放贷力度,但若不解决消费,是治标不治本

曝央行要求大型国有银行5月加大放贷力度,但若不解决消费,是治标不治本

爆角追踪
2026-05-28 17:07:33
超载客车凌晨追尾致13死,司机当场死亡,车主已被控制

超载客车凌晨追尾致13死,司机当场死亡,车主已被控制

中国新闻周刊
2026-05-28 22:46:20
涉嫌严重违纪违法,李志刚被查

涉嫌严重违纪违法,李志刚被查

中国基金报
2026-05-28 21:35:33
绝命抢断+读秒三分绝杀!古德温31+11又成上海之王 布朗空砍50分

绝命抢断+读秒三分绝杀!古德温31+11又成上海之王 布朗空砍50分

颜小白的篮球梦
2026-05-28 21:39:44
辛纳中暑出局,德约收获天降大礼,法网夺冠机会直接拉满

辛纳中暑出局,德约收获天降大礼,法网夺冠机会直接拉满

姜大叔侃球
2026-05-28 22:11:49
湖北大娘硬讹收割机升级!大批车主逃离,小麦烂地里,也没人敢去

湖北大娘硬讹收割机升级!大批车主逃离,小麦烂地里,也没人敢去

奇思妙想草叶君
2026-05-28 04:11:15
亏损超62亿,一代空调大王爆雷!

亏损超62亿,一代空调大王爆雷!

蒋东文
2026-05-26 21:05:52
古代太监净身到底是割蛋还是割鸡?他们说话的声音真的是娘娘腔?

古代太监净身到底是割蛋还是割鸡?他们说话的声音真的是娘娘腔?

史之铭
2026-05-28 00:48:09
性,正在成为职场流通的硬资源!

性,正在成为职场流通的硬资源!

灯锦年
2026-05-28 17:45:31
一句"我去开空调",扯下3.7元绿幕造假的遮羞布

一句"我去开空调",扯下3.7元绿幕造假的遮羞布

BT财经
2026-05-28 12:47:07
路撑不住,养护成本暴增40%!电车太重让全民买单,车企该改变了

路撑不住,养护成本暴增40%!电车太重让全民买单,车企该改变了

王新喜
2026-05-28 17:08:11
河南一低保老人“被贷款”20万元:低保金被扣还款,担保人称“银行员工让找一个单身穷的办理”

河南一低保老人“被贷款”20万元:低保金被扣还款,担保人称“银行员工让找一个单身穷的办理”

大风新闻
2026-05-28 21:25:06
曝俄罗斯或失去顿涅茨克全境!乌克兰逐步掌握前线主动权

曝俄罗斯或失去顿涅茨克全境!乌克兰逐步掌握前线主动权

项鹏飞
2026-05-28 17:38:41
2026-05-28 23:44:49
量子位 incentive-icons
量子位
追踪人工智能动态
12701文章数 176471关注度
往期回顾 全部

科技要闻

利润跌27%:快手只剩“可灵”这张牌?

头条要闻

男子养了3万多只鸭子雨后被冲走2万多只:损失70多万

头条要闻

男子养了3万多只鸭子雨后被冲走2万多只:损失70多万

体育要闻

唐斯经历的一切,此刻的他与尼克斯

娱乐要闻

林俊杰七七与大哥嫂子的瓜剪不断理还乱

财经要闻

小米仍需一次创业

汽车要闻

宋Ultra DM-i售12.99万起 选装天神之眼B承诺一年城市领航兜底

态度原创

本地
时尚
旅游
亲子
公开课

本地新闻

用剪纸的方式,打开江苏扬州

光脚、背“外卖盒”、羽毛头饰...早春秀谁赢了?

旅游要闻

藏不住的枣庄新“企”象丨鲁南水城焕新,点亮枣庄微度假新地标

亲子要闻

“家长听豆包给婴儿每顿只喂60ml奶”体重未增? 豆包回应

公开课

李玫瑾:为什么性格比能力更重要?

无障碍浏览 进入关怀版