网易首页 > 网易号 > 正文 申请入驻

ICLR 2026 Oral | DPO「只看总分不看细节」?TI-DPO用Token重要性重...

0
分享至

来源:市场资讯

(来源:机器之心)


在当今的大模型后训练(Post-training)阶段,DPO(直接偏好优化) 凭借其无需训练独立 Reward Model 的优雅设计和高效性,成功取代 PPO 成为业界的 「版本之子」,被广泛应用于 Llama-3、Mistral 等顶流开源模型的对齐中。

然而,随着对模型能力要求的日益严苛,DPO 的缺陷逐渐浮出水面。

究竟该如何让 DPO 学会「去伪存真」,精准识别出那些真正决定胜负的 Critical Tokens?

针对这一问题,来自中国科学院自动化研究所、字节跳动、微软亚洲研究院和北京科技大学的研究者们在被选为 ICLR 2026 Oral 的新工作中联合提出了一种全新的 TI-DPO 框架。


  • 论文:《Token-Importance Guided Direct Preference Optimization》

  • 论文地址:https://arxiv.org/abs/2505.19653

  • 开源地址:https://github.com/gracefulning/TIDPO

研究背景与意义

主流方法正面临两个核心难题,这使得模型难以实现真正精细化的语义控制:

  • 痛点一:序列级的「二元对立」陷阱。传统方法依然停留在序列级别(Sequence-level)的粗粒度优化上,简单粗暴地将数据划分为好与坏。这种二元监督信号极度匮乏,因为它掩盖高质量回复中可能混杂着瑕疵 Token 的事实,导致了模型在连续语义空间中微调效果差,甚至引发采样分布偏移(Distribution Shift)。

  • 痛点二:被偏差绑架的「伪」重要性。即使试图下沉到 Token 级别,现有的重要性评估手段也存在问题。许多方法依赖概率预测或简单加权,这导致它们直接继承了模型架构的固有缺陷 ——「U 型注意力偏差」(Lost in the Middle),模型天生倾向于过度关注首尾 Token 而忽略中间的核心语义。

TI-DPO 的核心机制

TI-DPO 的核心思想是:既然 Token 生而不同,那就给它们「加权」。 通过引入混合加权机制和三元组损失,TI-DPO 能够精准识别并放大「关键 Token」的信号,同时抑制噪声,从而实现比传统 DPO 更准、更稳的对齐效果。它主要包含两大核心机制:

1. 混合加权机制 (Hybrid Weighting)

为了找出谁才是决定回复质量的「胜负手」,TI-DPO 设计了一套数据驱动与先验结构相结合的权重计算法:

  • 梯度归因:计算 Loss 对每个 Token Embedding 的梯度范数。简单来说,谁对最终输出贡献大,谁的权重就高。

  • 高斯先验:针对 LLM 常见的「U 型注意力偏差」(过度关注开头结尾),引入高斯分布强制模型关注中间的语义核心。

最终的 Token 权重 ,是这两者的凸组合:


新的 Token 级 DPO 加权损失函数如下:


2. 三元组损失 (Triplet Loss)

TI-DPO 不再满足于非黑即白的二元对比,而是引入了度量学习中的神器 Triplet Loss。它在训练过程中构建了三个角色:

  • Anchor(锚点):模型当前生成的中间回复


  • Positive(正例):人类偏好的高质量回答

  • Negative(负例):人类拒绝的低质量回答


优化的目标变成了一个结构化的几何问题:让当前生成的回复 ,在语义空间中不仅要远离坏回答 ,还要尽可能贴近好回答


TI-DPO 损失函数:TI-DPO 的最终优化目标便是两者的加权和:


实验结果

为了验证 TI-DPO 的实际战力,研究团队在 Llama-3 (8B/3B) 和 Mistral-7B 等多个主流基座模型上进行了测试,对比了包括 DPO、SimPO 以及最近大火的 GRPO 等 10+ 种对齐算法。

1. 综合能力评估

如图 1,在 Llama-3.1-8B-Instruct 基座上,TI-DPO 的综合平均分达到 62.3,超过 GRPO (62.1) 和 DPO (60.8) 。


2. 细分领域表现优秀

在 IFEval(指令遵循)、TruthfulQA(真实性)和 HumanEval(代码生成) 这三大最考验细节把握的任务上,TI-DPO 的表现大幅超越了 DPO、SimPO 以及 GRPO。



3. 消融实验:核心组件缺一不可

Table 2 的消融实验结果表明,TI-DPO 的所有核心组件(包括混合加权机制、高斯先验和三元组损失)对于模型性能都至关重要,移除任意模块均会导致在通用能力、数学推理及代码生成等各项指标上的显著下降。


4. 案例展示:一眼看懂「关键 Token」

为了验证 TI-DPO 是否真的学会了「抓重点」,作者展示了一个医疗咨询案例(「头痛该怎么办?」)的权重可视化热力图。

  • 在 Preferred 回复中(左):模型给「seek medical attention」和「promptly」分配了极高的权重(红色深色区域),抓住了「安全第一」的核心。

  • 在 Non-Preferred 回复中(右):模型精准「抓包」了「painkillers casually」这种潜在的高风险建议,并赋予高权重加以惩罚。

  • Intermediate Response 是模型当前的自我水平:「建议多休息,如果恶化再看医生」。TI-DPO 引导模型在生成过程中,不断向 Preferred 的价值观靠拢,同时规避 Non-preferred 的陷阱,从而完成从粗放向精细的进化。


这种有力地证明 TI-DPO 不是在死记硬背,而是真的读懂了人类价值观。

总结与贡献

TI-DPO 的提出,为大模型对齐从粗放的序列级优化向更精细的 Token 级控制转变提供了一个有力的尝试。它不再满足于笼统地判断回答的「好坏」,而是试图厘清每一个 Token 在价值对齐中的真实贡献。

实验结果表明,TI-DPO 在指令遵循、真实性与代码生成等任务上,相比 GRPO 等基线取得了稳定的性能提升,验证了提升数据利用的「颗粒度」是增强模型能力的有效路径。

TI-DPO 以其在去噪和细节控制上的特性,为后续的 RLHF 研究提供了一个值得关注的新方向。我们期待看到更多围绕「细粒度价值对齐」的探索,推动大模型向着更精准、更可控的方向进化。

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
温氏股份:莫氏鸡煲核心选用的是温氏清远麻阉鸡,该品种是温氏“中华土鸡”体系中的品种之一

温氏股份:莫氏鸡煲核心选用的是温氏清远麻阉鸡,该品种是温氏“中华土鸡”体系中的品种之一

每日经济新闻
2026-04-08 19:17:17
国家出手!全红婵已报警走了樊振东老路,陈芋汐担心的事再次发生

国家出手!全红婵已报警走了樊振东老路,陈芋汐担心的事再次发生

负面黑洞
2026-04-08 19:57:03
香蕉被点名!医生:香蕉放黑 2 天,抗性淀粉翻倍,控糖护肠

香蕉被点名!医生:香蕉放黑 2 天,抗性淀粉翻倍,控糖护肠

岐黄传人孙大夫
2026-04-06 21:25:03
为何拒绝握手?原因曝光,18岁新星获5万奖金,回日本后举动感人

为何拒绝握手?原因曝光,18岁新星获5万奖金,回日本后举动感人

萌兰聊个球
2026-04-08 09:50:56
伊朗官方确认:翼龙-2首次参战即被击落,海湾国家反应强烈

伊朗官方确认:翼龙-2首次参战即被击落,海湾国家反应强烈

最新声音
2026-04-06 08:32:33
美伊突然停战!我朋友一夜之间亏了20万……

美伊突然停战!我朋友一夜之间亏了20万……

毯叔盘钱
2026-04-08 18:52:48
催生病妻子做饭后续:孩子推搡护母,亲戚劝删视频,宝妈不再隐忍

催生病妻子做饭后续:孩子推搡护母,亲戚劝删视频,宝妈不再隐忍

潮鹿逐梦
2026-04-07 15:06:59
汇丰:预计淘宝闪购年亏损达870亿元

汇丰:预计淘宝闪购年亏损达870亿元

陆新之谈商业
2026-04-07 19:42:05
炸裂,广州首个顶奢商场,撑不住了

炸裂,广州首个顶奢商场,撑不住了

拆神
2026-04-08 10:26:47
杨尚昆晚年回忆道:党内那么多人,山头也多,只有毛主席能拢得住

杨尚昆晚年回忆道:党内那么多人,山头也多,只有毛主席能拢得住

史韵流转
2026-04-08 09:42:46
早年确认已绝种! 2021年上海男子民间搜寻20多头, 花4年繁育180头

早年确认已绝种! 2021年上海男子民间搜寻20多头, 花4年繁育180头

万象硬核本尊
2026-04-08 20:05:13
非法收受他人财物数额特别巨大,原中化集团副总经理冯志斌被提起公诉

非法收受他人财物数额特别巨大,原中化集团副总经理冯志斌被提起公诉

每日经济新闻
2026-04-08 17:44:10
伊朗媒体称霍尔木兹海峡再关闭

伊朗媒体称霍尔木兹海峡再关闭

财联社
2026-04-09 04:09:04
47岁上海男子糖尿病,入院后猝死,主任:吃二甲双胍5件事不要做

47岁上海男子糖尿病,入院后猝死,主任:吃二甲双胍5件事不要做

健康之光
2026-04-06 21:35:03
老道长告诫:烧纸时烟往身上飘,那不是风吹的!是亡者提醒你

老道长告诫:烧纸时烟往身上飘,那不是风吹的!是亡者提醒你

叮当当科技
2026-04-09 03:29:39
耻辱!巴萨两大巨星彻底摆烂,4 分水货毁了欧冠晋级路

耻辱!巴萨两大巨星彻底摆烂,4 分水货毁了欧冠晋级路

澜归序
2026-04-09 06:10:51
为什么WTO很少被提起了?中国入世谈判花了15年,如今几乎被架空

为什么WTO很少被提起了?中国入世谈判花了15年,如今几乎被架空

有范又有料
2026-04-07 16:45:46
广东加时赢5分!山东输6分,北京赢9分,上海大胜22分,排名大变

广东加时赢5分!山东输6分,北京赢9分,上海大胜22分,排名大变

老吴说体育
2026-04-08 22:09:50
1978年,陈丽华的丈夫迟重瑞,一张罕见的留影,彼时正值青春壮年

1978年,陈丽华的丈夫迟重瑞,一张罕见的留影,彼时正值青春壮年

乐天闲聊
2026-04-09 04:05:03
43岁男子和富婆车震后,富婆还想要更多,2016年他将51岁富婆杀死

43岁男子和富婆车震后,富婆还想要更多,2016年他将51岁富婆杀死

汉史趣闻
2026-04-06 19:17:12
2026-04-09 07:27:00
新浪财经 incentive-icons
新浪财经
新浪财经是一家创建于1999年8月的财经平台
2800378文章数 6503关注度
往期回顾 全部

科技要闻

造出地表最强AI,却死活不给你用!

头条要闻

特朗普认为北约未通过“考验” 将考虑“退群”

头条要闻

特朗普认为北约未通过“考验” 将考虑“退群”

体育要闻

40岁,但实力倒退12年

娱乐要闻

侯佩岑全家悉尼度假,一家四口幸福满溢

财经要闻

天津海河乳业回应直播间涉黄

汽车要闻

20万级满配华为全家桶 华境S是懂家庭的大六座

态度原创

房产
健康
亲子
公开课
军事航空

房产要闻

正式动工!珠城马场地块,签约华尔道夫!

干细胞抗衰4大误区,90%的人都中招

亲子要闻

胡图图说他差几分就能兑换发卡

公开课

李玫瑾:为什么性格比能力更重要?

军事要闻

文化符号当“弹药” 美伊将信息战带入新阶段

无障碍浏览 进入关怀版