网易首页 > 网易号 > 正文 申请入驻

ICLR 2026 Oral | DPO「只看总分不看细节」?TI-DPO用Token重要性重...

0
分享至

来源:市场资讯

(来源:机器之心)


在当今的大模型后训练(Post-training)阶段,DPO(直接偏好优化) 凭借其无需训练独立 Reward Model 的优雅设计和高效性,成功取代 PPO 成为业界的 「版本之子」,被广泛应用于 Llama-3、Mistral 等顶流开源模型的对齐中。

然而,随着对模型能力要求的日益严苛,DPO 的缺陷逐渐浮出水面。

究竟该如何让 DPO 学会「去伪存真」,精准识别出那些真正决定胜负的 Critical Tokens?

针对这一问题,来自中国科学院自动化研究所、字节跳动、微软亚洲研究院和北京科技大学的研究者们在被选为 ICLR 2026 Oral 的新工作中联合提出了一种全新的 TI-DPO 框架。


  • 论文:《Token-Importance Guided Direct Preference Optimization》

  • 论文地址:https://arxiv.org/abs/2505.19653

  • 开源地址:https://github.com/gracefulning/TIDPO

研究背景与意义

主流方法正面临两个核心难题,这使得模型难以实现真正精细化的语义控制:

  • 痛点一:序列级的「二元对立」陷阱。传统方法依然停留在序列级别(Sequence-level)的粗粒度优化上,简单粗暴地将数据划分为好与坏。这种二元监督信号极度匮乏,因为它掩盖高质量回复中可能混杂着瑕疵 Token 的事实,导致了模型在连续语义空间中微调效果差,甚至引发采样分布偏移(Distribution Shift)。

  • 痛点二:被偏差绑架的「伪」重要性。即使试图下沉到 Token 级别,现有的重要性评估手段也存在问题。许多方法依赖概率预测或简单加权,这导致它们直接继承了模型架构的固有缺陷 ——「U 型注意力偏差」(Lost in the Middle),模型天生倾向于过度关注首尾 Token 而忽略中间的核心语义。

TI-DPO 的核心机制

TI-DPO 的核心思想是:既然 Token 生而不同,那就给它们「加权」。 通过引入混合加权机制和三元组损失,TI-DPO 能够精准识别并放大「关键 Token」的信号,同时抑制噪声,从而实现比传统 DPO 更准、更稳的对齐效果。它主要包含两大核心机制:

1. 混合加权机制 (Hybrid Weighting)

为了找出谁才是决定回复质量的「胜负手」,TI-DPO 设计了一套数据驱动与先验结构相结合的权重计算法:

  • 梯度归因:计算 Loss 对每个 Token Embedding 的梯度范数。简单来说,谁对最终输出贡献大,谁的权重就高。

  • 高斯先验:针对 LLM 常见的「U 型注意力偏差」(过度关注开头结尾),引入高斯分布强制模型关注中间的语义核心。

最终的 Token 权重 ,是这两者的凸组合:


新的 Token 级 DPO 加权损失函数如下:


2. 三元组损失 (Triplet Loss)

TI-DPO 不再满足于非黑即白的二元对比,而是引入了度量学习中的神器 Triplet Loss。它在训练过程中构建了三个角色:

  • Anchor(锚点):模型当前生成的中间回复


  • Positive(正例):人类偏好的高质量回答

  • Negative(负例):人类拒绝的低质量回答


优化的目标变成了一个结构化的几何问题:让当前生成的回复 ,在语义空间中不仅要远离坏回答 ,还要尽可能贴近好回答


TI-DPO 损失函数:TI-DPO 的最终优化目标便是两者的加权和:


实验结果

为了验证 TI-DPO 的实际战力,研究团队在 Llama-3 (8B/3B) 和 Mistral-7B 等多个主流基座模型上进行了测试,对比了包括 DPO、SimPO 以及最近大火的 GRPO 等 10+ 种对齐算法。

1. 综合能力评估

如图 1,在 Llama-3.1-8B-Instruct 基座上,TI-DPO 的综合平均分达到 62.3,超过 GRPO (62.1) 和 DPO (60.8) 。


2. 细分领域表现优秀

在 IFEval(指令遵循)、TruthfulQA(真实性)和 HumanEval(代码生成) 这三大最考验细节把握的任务上,TI-DPO 的表现大幅超越了 DPO、SimPO 以及 GRPO。



3. 消融实验:核心组件缺一不可

Table 2 的消融实验结果表明,TI-DPO 的所有核心组件(包括混合加权机制、高斯先验和三元组损失)对于模型性能都至关重要,移除任意模块均会导致在通用能力、数学推理及代码生成等各项指标上的显著下降。


4. 案例展示:一眼看懂「关键 Token」

为了验证 TI-DPO 是否真的学会了「抓重点」,作者展示了一个医疗咨询案例(「头痛该怎么办?」)的权重可视化热力图。

  • 在 Preferred 回复中(左):模型给「seek medical attention」和「promptly」分配了极高的权重(红色深色区域),抓住了「安全第一」的核心。

  • 在 Non-Preferred 回复中(右):模型精准「抓包」了「painkillers casually」这种潜在的高风险建议,并赋予高权重加以惩罚。

  • Intermediate Response 是模型当前的自我水平:「建议多休息,如果恶化再看医生」。TI-DPO 引导模型在生成过程中,不断向 Preferred 的价值观靠拢,同时规避 Non-preferred 的陷阱,从而完成从粗放向精细的进化。


这种有力地证明 TI-DPO 不是在死记硬背,而是真的读懂了人类价值观。

总结与贡献

TI-DPO 的提出,为大模型对齐从粗放的序列级优化向更精细的 Token 级控制转变提供了一个有力的尝试。它不再满足于笼统地判断回答的「好坏」,而是试图厘清每一个 Token 在价值对齐中的真实贡献。

实验结果表明,TI-DPO 在指令遵循、真实性与代码生成等任务上,相比 GRPO 等基线取得了稳定的性能提升,验证了提升数据利用的「颗粒度」是增强模型能力的有效路径。

TI-DPO 以其在去噪和细节控制上的特性,为后续的 RLHF 研究提供了一个值得关注的新方向。我们期待看到更多围绕「细粒度价值对齐」的探索,推动大模型向着更精准、更可控的方向进化。

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
好家伙《八千里路云和月》开播就差评一片,观众给的理由挺新鲜!

好家伙《八千里路云和月》开播就差评一片,观众给的理由挺新鲜!

悦君兮君不知
2026-04-08 09:10:18
西南大学教授李应志去世,仅56岁,去年6月还参加了学位授予仪式

西南大学教授李应志去世,仅56岁,去年6月还参加了学位授予仪式

凯旋学长
2026-04-08 21:33:31
10分钟180万根钢针从天而降,2000士兵当场阵亡,现场哀嚎不断

10分钟180万根钢针从天而降,2000士兵当场阵亡,现场哀嚎不断

莹莹的历史说
2026-04-08 07:04:00
73岁李立群再为全红婵发声:不指望她再为国夺金 她背后有高人指点

73岁李立群再为全红婵发声:不指望她再为国夺金 她背后有高人指点

喜欢历史的阿繁
2026-04-09 02:33:54
广东21岁美女抑郁症自杀,上月写好了遗书,留下8万存款

广东21岁美女抑郁症自杀,上月写好了遗书,留下8万存款

180视角
2026-04-08 10:02:54
又一次打出了极高的正负值!火箭替补后场有时候还是很有作用的?

又一次打出了极高的正负值!火箭替补后场有时候还是很有作用的?

稻谷与小麦
2026-04-09 00:52:19
起风了,特朗普被送医救治?生命垂危消息传开,鲁比奥有望当总统

起风了,特朗普被送医救治?生命垂危消息传开,鲁比奥有望当总统

回京历史梦
2026-04-07 18:43:24
拒绝曼联!安德森首选曼城,6500万镑转会即将敲定

拒绝曼联!安德森首选曼城,6500万镑转会即将敲定

夜白侃球
2026-04-08 10:06:50
1977年,李敏见到失散多年的亲姐杨月花,杨月花却向李敏提一要求

1977年,李敏见到失散多年的亲姐杨月花,杨月花却向李敏提一要求

磊子讲史
2025-12-23 20:04:20
伊朗的“眼睛”被挖掉了:雷扎伊之死背后的情报灾难

伊朗的“眼睛”被挖掉了:雷扎伊之死背后的情报灾难

民间胡扯老哥
2026-04-05 07:45:23
逆转!布朗35+9+3,鲍尔36+6+5,塔图姆创纪录,此战诞生4个事实

逆转!布朗35+9+3,鲍尔36+6+5,塔图姆创纪录,此战诞生4个事实

篮球大视野
2026-04-08 10:52:22
大盘精准涨到3995.00点,不论空仓还是满仓,请务必听我一句!

大盘精准涨到3995.00点,不论空仓还是满仓,请务必听我一句!

另子维爱读史
2026-04-08 16:49:14
中国的“性萧条”时代,正式到来了

中国的“性萧条”时代,正式到来了

律法刑道
2025-12-15 08:28:58
签证被“倒查”!华人妈妈移民12年后被要求离境:只因十多年前一次遗漏

签证被“倒查”!华人妈妈移民12年后被要求离境:只因十多年前一次遗漏

华人生活网
2026-04-09 02:36:26
一季度巨亏近20亿!电池巨头的欧美项目接连取消

一季度巨亏近20亿!电池巨头的欧美项目接连取消

环球零碳
2026-04-08 20:18:55
现场无红毯,无仪仗队!大陆一句话讲清郑丽文访问的性质!

现场无红毯,无仪仗队!大陆一句话讲清郑丽文访问的性质!

阿龙聊军事
2026-04-08 08:54:27
惠州市长亲自陪同成龙游玩:国际巨星72岁生日有排面,房祖名也在

惠州市长亲自陪同成龙游玩:国际巨星72岁生日有排面,房祖名也在

眼光很亮
2026-04-08 16:41:38
停火14天后!特朗普作出“神预测”,美代表:不寻求和中国对抗

停火14天后!特朗普作出“神预测”,美代表:不寻求和中国对抗

长星寄明月
2026-04-09 00:32:49
首播4集,《八千里路云和月》差评如潮,差评的理由令人无力反驳

首播4集,《八千里路云和月》差评如潮,差评的理由令人无力反驳

白公子探剧
2026-04-08 20:45:00
真相来了!浪姐取消直播根本不是因为湾湾艺人,是因为这三个原因

真相来了!浪姐取消直播根本不是因为湾湾艺人,是因为这三个原因

TVB的四小花
2026-04-09 03:06:28
2026-04-09 03:44:49
新浪财经 incentive-icons
新浪财经
新浪财经是一家创建于1999年8月的财经平台
2799812文章数 6499关注度
往期回顾 全部

科技要闻

造出地表最强AI,却死活不给你用!

头条要闻

伊朗武装部队:伊朗对美以绝不信任

头条要闻

伊朗武装部队:伊朗对美以绝不信任

体育要闻

40岁,但实力倒退12年

娱乐要闻

侯佩岑全家悉尼度假,一家四口幸福满溢

财经要闻

天津海河乳业回应直播间涉黄

汽车要闻

20万级满配华为全家桶 华境S是懂家庭的大六座

态度原创

房产
健康
时尚
家居
手机

房产要闻

正式动工!珠城马场地块,签约华尔道夫!

干细胞抗衰4大误区,90%的人都中招

50岁,我妈在恋综抢男人

家居要闻

自在恣意 侘寂风别墅

手机要闻

三星据传拿下苹果折叠屏面板三年独家供应 今年出货预期300万台

无障碍浏览 进入关怀版