网易首页 > 网易号 > 正文 申请入驻

ICLR 2026 Oral | DPO「只看总分不看细节」?TI-DPO用Token重要性重...

0
分享至

来源:市场资讯

(来源:机器之心)


在当今的大模型后训练(Post-training)阶段,DPO(直接偏好优化) 凭借其无需训练独立 Reward Model 的优雅设计和高效性,成功取代 PPO 成为业界的 「版本之子」,被广泛应用于 Llama-3、Mistral 等顶流开源模型的对齐中。

然而,随着对模型能力要求的日益严苛,DPO 的缺陷逐渐浮出水面。

究竟该如何让 DPO 学会「去伪存真」,精准识别出那些真正决定胜负的 Critical Tokens?

针对这一问题,来自中国科学院自动化研究所、字节跳动、微软亚洲研究院和北京科技大学的研究者们在被选为 ICLR 2026 Oral 的新工作中联合提出了一种全新的 TI-DPO 框架。


  • 论文:《Token-Importance Guided Direct Preference Optimization》

  • 论文地址:https://arxiv.org/abs/2505.19653

  • 开源地址:https://github.com/gracefulning/TIDPO

研究背景与意义

主流方法正面临两个核心难题,这使得模型难以实现真正精细化的语义控制:

  • 痛点一:序列级的「二元对立」陷阱。传统方法依然停留在序列级别(Sequence-level)的粗粒度优化上,简单粗暴地将数据划分为好与坏。这种二元监督信号极度匮乏,因为它掩盖高质量回复中可能混杂着瑕疵 Token 的事实,导致了模型在连续语义空间中微调效果差,甚至引发采样分布偏移(Distribution Shift)。

  • 痛点二:被偏差绑架的「伪」重要性。即使试图下沉到 Token 级别,现有的重要性评估手段也存在问题。许多方法依赖概率预测或简单加权,这导致它们直接继承了模型架构的固有缺陷 ——「U 型注意力偏差」(Lost in the Middle),模型天生倾向于过度关注首尾 Token 而忽略中间的核心语义。

TI-DPO 的核心机制

TI-DPO 的核心思想是:既然 Token 生而不同,那就给它们「加权」。 通过引入混合加权机制和三元组损失,TI-DPO 能够精准识别并放大「关键 Token」的信号,同时抑制噪声,从而实现比传统 DPO 更准、更稳的对齐效果。它主要包含两大核心机制:

1. 混合加权机制 (Hybrid Weighting)

为了找出谁才是决定回复质量的「胜负手」,TI-DPO 设计了一套数据驱动与先验结构相结合的权重计算法:

  • 梯度归因:计算 Loss 对每个 Token Embedding 的梯度范数。简单来说,谁对最终输出贡献大,谁的权重就高。

  • 高斯先验:针对 LLM 常见的「U 型注意力偏差」(过度关注开头结尾),引入高斯分布强制模型关注中间的语义核心。

最终的 Token 权重 ,是这两者的凸组合:


新的 Token 级 DPO 加权损失函数如下:


2. 三元组损失 (Triplet Loss)

TI-DPO 不再满足于非黑即白的二元对比,而是引入了度量学习中的神器 Triplet Loss。它在训练过程中构建了三个角色:

  • Anchor(锚点):模型当前生成的中间回复


  • Positive(正例):人类偏好的高质量回答

  • Negative(负例):人类拒绝的低质量回答


优化的目标变成了一个结构化的几何问题:让当前生成的回复 ,在语义空间中不仅要远离坏回答 ,还要尽可能贴近好回答


TI-DPO 损失函数:TI-DPO 的最终优化目标便是两者的加权和:


实验结果

为了验证 TI-DPO 的实际战力,研究团队在 Llama-3 (8B/3B) 和 Mistral-7B 等多个主流基座模型上进行了测试,对比了包括 DPO、SimPO 以及最近大火的 GRPO 等 10+ 种对齐算法。

1. 综合能力评估

如图 1,在 Llama-3.1-8B-Instruct 基座上,TI-DPO 的综合平均分达到 62.3,超过 GRPO (62.1) 和 DPO (60.8) 。


2. 细分领域表现优秀

在 IFEval(指令遵循)、TruthfulQA(真实性)和 HumanEval(代码生成) 这三大最考验细节把握的任务上,TI-DPO 的表现大幅超越了 DPO、SimPO 以及 GRPO。



3. 消融实验:核心组件缺一不可

Table 2 的消融实验结果表明,TI-DPO 的所有核心组件(包括混合加权机制、高斯先验和三元组损失)对于模型性能都至关重要,移除任意模块均会导致在通用能力、数学推理及代码生成等各项指标上的显著下降。


4. 案例展示:一眼看懂「关键 Token」

为了验证 TI-DPO 是否真的学会了「抓重点」,作者展示了一个医疗咨询案例(「头痛该怎么办?」)的权重可视化热力图。

  • 在 Preferred 回复中(左):模型给「seek medical attention」和「promptly」分配了极高的权重(红色深色区域),抓住了「安全第一」的核心。

  • 在 Non-Preferred 回复中(右):模型精准「抓包」了「painkillers casually」这种潜在的高风险建议,并赋予高权重加以惩罚。

  • Intermediate Response 是模型当前的自我水平:「建议多休息,如果恶化再看医生」。TI-DPO 引导模型在生成过程中,不断向 Preferred 的价值观靠拢,同时规避 Non-preferred 的陷阱,从而完成从粗放向精细的进化。


这种有力地证明 TI-DPO 不是在死记硬背,而是真的读懂了人类价值观。

总结与贡献

TI-DPO 的提出,为大模型对齐从粗放的序列级优化向更精细的 Token 级控制转变提供了一个有力的尝试。它不再满足于笼统地判断回答的「好坏」,而是试图厘清每一个 Token 在价值对齐中的真实贡献。

实验结果表明,TI-DPO 在指令遵循、真实性与代码生成等任务上,相比 GRPO 等基线取得了稳定的性能提升,验证了提升数据利用的「颗粒度」是增强模型能力的有效路径。

TI-DPO 以其在去噪和细节控制上的特性,为后续的 RLHF 研究提供了一个值得关注的新方向。我们期待看到更多围绕「细粒度价值对齐」的探索,推动大模型向着更精准、更可控的方向进化。

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
三分7中0,正负值-26,原来是你坑了伦纳德的全明星MVP,无语了!

三分7中0,正负值-26,原来是你坑了伦纳德的全明星MVP,无语了!

林子说事
2026-02-17 13:32:50
2赛季8次受伤缺阵40场!阿森纳飞翼变玻璃人 或今夏被扫地出门

2赛季8次受伤缺阵40场!阿森纳飞翼变玻璃人 或今夏被扫地出门

雪狼侃体育
2026-02-17 14:15:29
1900年,八国联军把“黄莲圣母”当成玩物,凌辱后运往欧洲展览?

1900年,八国联军把“黄莲圣母”当成玩物,凌辱后运往欧洲展览?

谈史论天地
2026-02-08 12:00:10
柯庆施到底是一个怎样的人?马达同志坦言:他的这个优点不能否定

柯庆施到底是一个怎样的人?马达同志坦言:他的这个优点不能否定

明月清风阁
2026-02-17 14:30:04
梅西情人节送巨型泰迪熊,低调浪漫引球迷热议

梅西情人节送巨型泰迪熊,低调浪漫引球迷热议

星耀国际足坛
2026-02-16 22:55:36
48岁保洁阿姨睡在公司1个月,老板打开了监控,第2天送给她20万

48岁保洁阿姨睡在公司1个月,老板打开了监控,第2天送给她20万

秀秀情感课堂
2025-12-12 14:20:05
西方专家集体懵圈!一年时间,中国怎么就成了“看不懂的奇迹”?

西方专家集体懵圈!一年时间,中国怎么就成了“看不懂的奇迹”?

青梅侃史啊
2026-02-16 09:28:20
高岗身亡多年,周总理为其妻子安排工作,毛主席为何表态:不同意

高岗身亡多年,周总理为其妻子安排工作,毛主席为何表态:不同意

大运河时空
2026-01-18 07:10:03
央视春晚被Papi酱提前剧透引关注,Papi酱:再加100个机器人

央视春晚被Papi酱提前剧透引关注,Papi酱:再加100个机器人

韩小娱
2026-02-17 08:04:54
毛主席向放羊大爷借火,大爷道:同志好福相,起码是个工作队队长

毛主席向放羊大爷借火,大爷道:同志好福相,起码是个工作队队长

优趣纪史记
2026-02-17 13:16:20
落槌!全部划归国资!追随许家印6年,江苏第一包工头赔得精光

落槌!全部划归国资!追随许家印6年,江苏第一包工头赔得精光

小嶯说故事
2026-02-17 15:16:59
易烊千玺揭秘境外间谍渗透套路:以登山等为掩护,非法测绘军事管理区,刺探敏感信息,将数据传往境外

易烊千玺揭秘境外间谍渗透套路:以登山等为掩护,非法测绘军事管理区,刺探敏感信息,将数据传往境外

都市快报橙柿互动
2026-02-16 17:06:53
想跑没门!新疆富豪夫妇套现7亿,没等钱到账,老板娘先被带走了

想跑没门!新疆富豪夫妇套现7亿,没等钱到账,老板娘先被带走了

白浅娱乐聊
2026-01-30 16:29:01
这根绳子是设计师的耻辱。︱刘德科

这根绳子是设计师的耻辱。︱刘德科

德科在屋顶
2026-01-21 21:43:38
有儿子的家庭集体觉醒:宁让儿子单着,不娶“祖宗”进门

有儿子的家庭集体觉醒:宁让儿子单着,不娶“祖宗”进门

青苹果sht
2026-02-08 05:48:26
人活在世上,要大胆一些,不要害怕任何人任何事,越害怕越被欺负

人活在世上,要大胆一些,不要害怕任何人任何事,越害怕越被欺负

木言观
2026-02-16 18:47:10
在一派喜庆祥和当中,漏了一把凶光

在一派喜庆祥和当中,漏了一把凶光

美第奇效应
2026-02-17 08:01:36
看1小时就关电视!我给春晚提9条实在建议,全是老百姓心里话

看1小时就关电视!我给春晚提9条实在建议,全是老百姓心里话

老吴教育课堂
2026-02-17 02:52:13
周建军、李建国被查,叶露中主动投案

周建军、李建国被查,叶露中主动投案

上观新闻
2025-12-16 07:07:09
林孝埈41.242秒获得小组第二 顺利晋级1/4决赛

林孝埈41.242秒获得小组第二 顺利晋级1/4决赛

环球体坛啄木鸟
2026-02-17 15:33:44
2026-02-17 20:55:00
新浪财经 incentive-icons
新浪财经
新浪财经是一家创建于1999年8月的财经平台
2225282文章数 5491关注度
往期回顾 全部

科技要闻

春晚这些机器人是怎样做到的?

头条要闻

企业家给全村70岁以上老人发红包 老人:他比亲儿子还亲

头条要闻

企业家给全村70岁以上老人发红包 老人:他比亲儿子还亲

体育要闻

谷爱凌:'不小心"拿到了银牌 祝大家马年大吉

娱乐要闻

春节档电影首波口碑出炉!

财经要闻

大年初一,这三件事很不寻常

汽车要闻

问界M6更多信息:乾崑智驾ADS4.0+鸿蒙座舱5.0

态度原创

健康
本地
游戏
旅游
房产

转头就晕的耳石症,能开车上班吗?

本地新闻

春花齐放2026:《骏马奔腾迎新岁》

扮演阴暗哥布林!外媒高分评测《冥河:贪婪之刃》

旅游要闻

大年初一本来想错峰,没想到那么多人!多地客流猛增,不少人在价格低谷捡漏……

房产要闻

三亚新机场,又传出新消息!

无障碍浏览 进入关怀版