网易首页 > 网易号 > 正文 申请入驻

DPO「只看总分不看细节」?TI-DPO用Token重要性重塑大模型对齐

0
分享至



在当今的大模型后训练(Post-training)阶段,DPO(直接偏好优化) 凭借其无需训练独立 Reward Model 的优雅设计和高效性,成功取代 PPO 成为业界的 「版本之子」,被广泛应用于 Llama-3、Mistral 等顶流开源模型的对齐中。

然而,随着对模型能力要求的日益严苛,DPO 的缺陷逐渐浮出水面。

究竟该如何让 DPO 学会「去伪存真」,精准识别出那些真正决定胜负的 Critical Tokens

针对这一问题,来自中国科学院自动化研究所、字节跳动、微软亚洲研究院和北京科技大学的研究者们在被选为 ICLR 2026 Oral 的新工作中联合提出了一种全新的 TI-DPO 框架。



  • 论文:《Token-Importance Guided Direct Preference Optimization》
  • 论文地址:https://arxiv.org/abs/2505.19653
  • 开源地址:https://github.com/gracefulning/TIDPO

研究背景与意义

主流方法正面临两个核心难题,这使得模型难以实现真正精细化的语义控制:

  • 痛点一:序列级的「二元对立」陷阱。传统方法依然停留在序列级别(Sequence-level)的粗粒度优化上,简单粗暴地将数据划分为好与坏。这种二元监督信号极度匮乏,因为它掩盖高质量回复中可能混杂着瑕疵 Token 的事实,导致了模型在连续语义空间中微调效果差,甚至引发采样分布偏移(Distribution Shift)。
  • 痛点二:被偏差绑架的「伪」重要性。即使试图下沉到 Token 级别,现有的重要性评估手段也存在问题。许多方法依赖概率预测或简单加权,这导致它们直接继承了模型架构的固有缺陷 ——「U 型注意力偏差」(Lost in the Middle),模型天生倾向于过度关注首尾 Token 而忽略中间的核心语义。

TI-DPO 的核心机制

TI-DPO 的核心思想是:既然 Token 生而不同,那就给它们「加权」。 通过引入混合加权机制和三元组损失,TI-DPO 能够精准识别并放大「关键 Token」的信号,同时抑制噪声,从而实现比传统 DPO 更准、更稳的对齐效果。它主要包含两大核心机制:

1. 混合加权机制 (Hybrid Weighting)

为了找出谁才是决定回复质量的「胜负手」,TI-DPO 设计了一套数据驱动与先验结构相结合的权重计算法:

  • 梯度归因:计算 Loss 对每个 Token Embedding 的梯度范数。简单来说,谁对最终输出贡献大,谁的权重就高。
  • 高斯先验:针对 LLM 常见的「U 型注意力偏差」(过度关注开头结尾),引入高斯分布强制模型关注中间的语义核心。

最终的 Token 权重 ,是这两者的凸组合:



新的 Token 级 DPO 加权损失函数如下:



2. 三元组损失 (Triplet Loss)

TI-DPO 不再满足于非黑即白的二元对比,而是引入了度量学习中的神器Triplet Loss。它在训练过程中构建了三个角色:







TI-DPO 损失函数:TI-DPO 的最终优化目标便是两者的加权和:



实验结果

为了验证 TI-DPO 的实际战力,研究团队在 Llama-3 (8B/3B) 和 Mistral-7B 等多个主流基座模型上进行了测试,对比了包括 DPO、SimPO 以及最近大火的 GRPO 等 10+ 种对齐算法。

1. 综合能力评估

如图 1,在 Llama-3.1-8B-Instruct 基座上,TI-DPO 的综合平均分达到 62.3,超过 GRPO (62.1) 和 DPO (60.8) 。



2. 细分领域表现优秀

在 IFEval(指令遵循)、TruthfulQA(真实性)和 HumanEval(代码生成) 这三大最考验细节把握的任务上,TI-DPO 的表现大幅超越了 DPO、SimPO 以及 GRPO。





3. 消融实验:核心组件缺一不可

Table 2 的消融实验结果表明,TI-DPO 的所有核心组件(包括混合加权机制、高斯先验和三元组损失)对于模型性能都至关重要,移除任意模块均会导致在通用能力、数学推理及代码生成等各项指标上的显著下降。



4. 案例展示:一眼看懂「关键 Token」

为了验证 TI-DPO 是否真的学会了「抓重点」,作者展示了一个医疗咨询案例(「头痛该怎么办?」)的权重可视化热力图。

  • 在 Preferred 回复中(左):模型给「seek medical attention」和「promptly」分配了极高的权重(红色深色区域),抓住了「安全第一」的核心。
  • 在 Non-Preferred 回复中(右):模型精准「抓包」了「painkillers casually」这种潜在的高风险建议,并赋予高权重加以惩罚。
  • Intermediate Response是模型当前的自我水平:「建议多休息,如果恶化再看医生」。TI-DPO 引导模型在生成过程中,不断向 Preferred 的价值观靠拢,同时规避 Non-preferred 的陷阱,从而完成从粗放向精细的进化。



这种有力地证明 TI-DPO 不是在死记硬背,而是真的读懂了人类价值观。

总结与贡献

TI-DPO 的提出,为大模型对齐从粗放的序列级优化向更精细的 Token 级控制转变提供了一个有力的尝试。它不再满足于笼统地判断回答的「好坏」,而是试图厘清每一个 Token 在价值对齐中的真实贡献。

实验结果表明,TI-DPO 在指令遵循、真实性与代码生成等任务上,相比 GRPO 等基线取得了稳定的性能提升,验证了提升数据利用的「颗粒度」是增强模型能力的有效路径。

TI-DPO 以其在去噪和细节控制上的特性,为后续的 RLHF 研究提供了一个值得关注的新方向。我们期待看到更多围绕「细粒度价值对齐」的探索,推动大模型向着更精准、更可控的方向进化。

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
黄天鹅就鸡蛋角黄素抽检结果发布声明

黄天鹅就鸡蛋角黄素抽检结果发布声明

澎湃新闻
2026-03-25 15:39:05
9020mAh!新机官宣:3月26日,正式发布上市!

9020mAh!新机官宣:3月26日,正式发布上市!

科技堡垒
2026-03-26 11:29:06
历史唯一!9场比赛,仅差51次助攻啊,约基奇又又要创造历史

历史唯一!9场比赛,仅差51次助攻啊,约基奇又又要创造历史

球童无忌
2026-03-25 16:56:03
一夜之间,这两个城市房价上涨了!

一夜之间,这两个城市房价上涨了!

靓仔情感
2026-03-26 13:57:14
举火烧天!杨瀚森接球顺下单臂隔扣班克斯,目前9中9独揽20分

举火烧天!杨瀚森接球顺下单臂隔扣班克斯,目前9中9独揽20分

懂球帝
2026-03-26 10:15:02
毛主席有多明智?成立新疆生产建设兵团,七十年后谁都得服

毛主席有多明智?成立新疆生产建设兵团,七十年后谁都得服

诺言卿史录
2026-03-26 09:06:41
伊朗开始收“买路钱”了:想过霍尔木兹海峡?拿200万美元来

伊朗开始收“买路钱”了:想过霍尔木兹海峡?拿200万美元来

Ck的蜜糖
2026-03-26 16:57:49
湖南省委书记到凤凰,乘坐世界首条磁浮旅游专线

湖南省委书记到凤凰,乘坐世界首条磁浮旅游专线

观察者网
2026-03-25 21:33:09
广东球迷高喊:流氓教练杜锋下课!杜锋回应:感谢现场观众 非常热情

广东球迷高喊:流氓教练杜锋下课!杜锋回应:感谢现场观众 非常热情

晚雾空青
2026-03-26 16:09:03
悲催!丈夫月收入从2万到四五千,从程序员到送快递,女子想离婚

悲催!丈夫月收入从2万到四五千,从程序员到送快递,女子想离婚

火山詩话
2026-03-15 10:23:17
研究所所长猥亵下属后续,女主多张高清照曝光,知情人再爆料

研究所所长猥亵下属后续,女主多张高清照曝光,知情人再爆料

观察鉴娱
2026-03-26 09:25:28
邓超孙俪正式解绑:16年婚姻,各自安好

邓超孙俪正式解绑:16年婚姻,各自安好

二胡的岁月如歌
2026-03-26 14:50:14
正式翻脸:沙特与阿联酋开放军事基地,放任美军暴打伊朗

正式翻脸:沙特与阿联酋开放军事基地,放任美军暴打伊朗

雅儿姐在遛弯
2026-03-26 08:24:39
大瓜!张雪峰女儿只能分得16.5%遗产

大瓜!张雪峰女儿只能分得16.5%遗产

兰亭墨未干
2026-03-26 14:52:45
490亿元的大项目即将开建!!

490亿元的大项目即将开建!!

新浪财经
2026-03-26 11:14:48
“住宅禁放骨灰盒”新规出炉,引争议!网友:可以去化房地产库存

“住宅禁放骨灰盒”新规出炉,引争议!网友:可以去化房地产库存

火山詩话
2026-03-26 11:11:22
特朗普帮了中国大忙,中国首次成为全球第一,日本完全被踩在脚下

特朗普帮了中国大忙,中国首次成为全球第一,日本完全被踩在脚下

刘蕳爱下厨
2026-03-25 15:08:52
美以联合空袭伊拉克

美以联合空袭伊拉克

第一财经资讯
2026-03-26 12:56:50
快讯!美国要打大仗了!

快讯!美国要打大仗了!

达文西看世界
2026-03-26 09:29:08
战场奇迹!1台乌军机器人死守阵地45天硬刚俄军冲杀和机枪扫射

战场奇迹!1台乌军机器人死守阵地45天硬刚俄军冲杀和机枪扫射

子桑说
2026-03-25 17:27:05
2026-03-26 17:28:49
机器之心Pro incentive-icons
机器之心Pro
专业的人工智能媒体
12606文章数 142593关注度
往期回顾 全部

科技要闻

Meta高管狂分百亿期权,700名员工却下岗

头条要闻

国防部:日本侵略过所有周边国家 至今都没有真正反省

头条要闻

国防部:日本侵略过所有周边国家 至今都没有真正反省

体育要闻

申京努力了,然而杜兰特啊

娱乐要闻

张雪峰家人首发声 不设追思会丧事从简

财经要闻

长护险谁能享受?享受多少?解答来了

汽车要闻

一汽奥迪A6L e-tron开启预售 CLTC最大续航815km

态度原创

家居
数码
艺术
本地
公开课

家居要闻

傍海而居 静观蝴蝶海

数码要闻

1599~2499元,英特尔酷睿Ultra 200S Plus处理器发售

艺术要闻

哪一座桥不是风景?

本地新闻

救命,这只酱板鸭已经在我手机复仇了一万遍

公开课

李玫瑾:为什么性格比能力更重要?

无障碍浏览 进入关怀版