网易首页 > 网易号 > 正文 申请入驻

DPO「只看总分不看细节」?TI-DPO用Token重要性重塑大模型对齐

0
分享至



在当今的大模型后训练(Post-training)阶段,DPO(直接偏好优化) 凭借其无需训练独立 Reward Model 的优雅设计和高效性,成功取代 PPO 成为业界的 「版本之子」,被广泛应用于 Llama-3、Mistral 等顶流开源模型的对齐中。

然而,随着对模型能力要求的日益严苛,DPO 的缺陷逐渐浮出水面。

究竟该如何让 DPO 学会「去伪存真」,精准识别出那些真正决定胜负的 Critical Tokens

针对这一问题,来自中国科学院自动化研究所、字节跳动、微软亚洲研究院和北京科技大学的研究者们在被选为 ICLR 2026 Oral 的新工作中联合提出了一种全新的 TI-DPO 框架。



  • 论文:《Token-Importance Guided Direct Preference Optimization》
  • 论文地址:https://arxiv.org/abs/2505.19653
  • 开源地址:https://github.com/gracefulning/TIDPO

研究背景与意义

主流方法正面临两个核心难题,这使得模型难以实现真正精细化的语义控制:

  • 痛点一:序列级的「二元对立」陷阱。传统方法依然停留在序列级别(Sequence-level)的粗粒度优化上,简单粗暴地将数据划分为好与坏。这种二元监督信号极度匮乏,因为它掩盖高质量回复中可能混杂着瑕疵 Token 的事实,导致了模型在连续语义空间中微调效果差,甚至引发采样分布偏移(Distribution Shift)。
  • 痛点二:被偏差绑架的「伪」重要性。即使试图下沉到 Token 级别,现有的重要性评估手段也存在问题。许多方法依赖概率预测或简单加权,这导致它们直接继承了模型架构的固有缺陷 ——「U 型注意力偏差」(Lost in the Middle),模型天生倾向于过度关注首尾 Token 而忽略中间的核心语义。

TI-DPO 的核心机制

TI-DPO 的核心思想是:既然 Token 生而不同,那就给它们「加权」。 通过引入混合加权机制和三元组损失,TI-DPO 能够精准识别并放大「关键 Token」的信号,同时抑制噪声,从而实现比传统 DPO 更准、更稳的对齐效果。它主要包含两大核心机制:

1. 混合加权机制 (Hybrid Weighting)

为了找出谁才是决定回复质量的「胜负手」,TI-DPO 设计了一套数据驱动与先验结构相结合的权重计算法:

  • 梯度归因:计算 Loss 对每个 Token Embedding 的梯度范数。简单来说,谁对最终输出贡献大,谁的权重就高。
  • 高斯先验:针对 LLM 常见的「U 型注意力偏差」(过度关注开头结尾),引入高斯分布强制模型关注中间的语义核心。

最终的 Token 权重 ,是这两者的凸组合:



新的 Token 级 DPO 加权损失函数如下:



2. 三元组损失 (Triplet Loss)

TI-DPO 不再满足于非黑即白的二元对比,而是引入了度量学习中的神器Triplet Loss。它在训练过程中构建了三个角色:







TI-DPO 损失函数:TI-DPO 的最终优化目标便是两者的加权和:



实验结果

为了验证 TI-DPO 的实际战力,研究团队在 Llama-3 (8B/3B) 和 Mistral-7B 等多个主流基座模型上进行了测试,对比了包括 DPO、SimPO 以及最近大火的 GRPO 等 10+ 种对齐算法。

1. 综合能力评估

如图 1,在 Llama-3.1-8B-Instruct 基座上,TI-DPO 的综合平均分达到 62.3,超过 GRPO (62.1) 和 DPO (60.8) 。



2. 细分领域表现优秀

在 IFEval(指令遵循)、TruthfulQA(真实性)和 HumanEval(代码生成) 这三大最考验细节把握的任务上,TI-DPO 的表现大幅超越了 DPO、SimPO 以及 GRPO。





3. 消融实验:核心组件缺一不可

Table 2 的消融实验结果表明,TI-DPO 的所有核心组件(包括混合加权机制、高斯先验和三元组损失)对于模型性能都至关重要,移除任意模块均会导致在通用能力、数学推理及代码生成等各项指标上的显著下降。



4. 案例展示:一眼看懂「关键 Token」

为了验证 TI-DPO 是否真的学会了「抓重点」,作者展示了一个医疗咨询案例(「头痛该怎么办?」)的权重可视化热力图。

  • 在 Preferred 回复中(左):模型给「seek medical attention」和「promptly」分配了极高的权重(红色深色区域),抓住了「安全第一」的核心。
  • 在 Non-Preferred 回复中(右):模型精准「抓包」了「painkillers casually」这种潜在的高风险建议,并赋予高权重加以惩罚。
  • Intermediate Response是模型当前的自我水平:「建议多休息,如果恶化再看医生」。TI-DPO 引导模型在生成过程中,不断向 Preferred 的价值观靠拢,同时规避 Non-preferred 的陷阱,从而完成从粗放向精细的进化。



这种有力地证明 TI-DPO 不是在死记硬背,而是真的读懂了人类价值观。

总结与贡献

TI-DPO 的提出,为大模型对齐从粗放的序列级优化向更精细的 Token 级控制转变提供了一个有力的尝试。它不再满足于笼统地判断回答的「好坏」,而是试图厘清每一个 Token 在价值对齐中的真实贡献。

实验结果表明,TI-DPO 在指令遵循、真实性与代码生成等任务上,相比 GRPO 等基线取得了稳定的性能提升,验证了提升数据利用的「颗粒度」是增强模型能力的有效路径。

TI-DPO 以其在去噪和细节控制上的特性,为后续的 RLHF 研究提供了一个值得关注的新方向。我们期待看到更多围绕「细粒度价值对齐」的探索,推动大模型向着更精准、更可控的方向进化。

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
雨崩神湖发生雪崩有人被埋?当地回应:并非雪崩,确有一人失联

雨崩神湖发生雪崩有人被埋?当地回应:并非雪崩,确有一人失联

上游新闻
2026-02-11 14:58:04
旧怨新仇6:京城施压,老哥平祸

旧怨新仇6:京城施压,老哥平祸

金昔说故事
2026-02-10 17:28:51
继委内瑞拉和巴拿马之后,我国在阿根廷的投资又悬了

继委内瑞拉和巴拿马之后,我国在阿根廷的投资又悬了

罗富强说
2026-02-11 10:39:21
中国金花绽放!郑钦文连胜冲纪录,张帅重组澳网冠军搭档旗开得胜

中国金花绽放!郑钦文连胜冲纪录,张帅重组澳网冠军搭档旗开得胜

刘姚尧的文字城堡
2026-02-11 09:46:42
这次哈登能不一样?

这次哈登能不一样?

静易墨
2026-02-11 21:10:32
吴石案后,蒋经国以为台湾再无地下党,却不知李克农还留了后手!

吴石案后,蒋经国以为台湾再无地下党,却不知李克农还留了后手!

阿泠你好
2026-02-04 09:46:20
云南改名很成功的民办高校,原校名拉垮,新校名听着就像公办名校

云南改名很成功的民办高校,原校名拉垮,新校名听着就像公办名校

专注教育那些事
2026-02-10 18:08:41
郁亮失联和几段江湖往事

郁亮失联和几段江湖往事

新浪财经
2026-02-09 21:58:37
印度首富的弟媳被传唤,在丈夫陷爱泼斯坦丑闻后,曾是宝莱坞名角

印度首富的弟媳被传唤,在丈夫陷爱泼斯坦丑闻后,曾是宝莱坞名角

译言
2026-02-11 07:08:39
白酒会被90后00后终结吗?这是我见过最简明易懂的答案!

白酒会被90后00后终结吗?这是我见过最简明易懂的答案!

夜深爱杂谈
2026-01-28 18:25:29
自家白菜被猪拱了,父母给女婿取得外号究竟能有多搞笑!

自家白菜被猪拱了,父母给女婿取得外号究竟能有多搞笑!

夜深爱杂谈
2025-12-19 16:17:14
快船为什么输火箭?赛后莱昂纳德毫不客气说出原因,说得太实在

快船为什么输火箭?赛后莱昂纳德毫不客气说出原因,说得太实在

漫川舟船
2026-02-12 00:48:57
湖南第一庸官,好面子导致政府负债1000亿,为政绩骗刘强东100亿

湖南第一庸官,好面子导致政府负债1000亿,为政绩骗刘强东100亿

芊芊子吟
2026-01-15 10:20:03
庞家后人硬刚新华社!七条质疑炸锅,香港媒体敢报的真相太炸裂

庞家后人硬刚新华社!七条质疑炸锅,香港媒体敢报的真相太炸裂

沧海一书客
2025-12-25 19:27:44
福州雍和会关闭自助餐门店,转型海鲜集市火锅?

福州雍和会关闭自助餐门店,转型海鲜集市火锅?

海峡网
2026-02-11 17:49:26
德云社今晚北展封箱,郭麒麟回归张云雷缺席,没想到开场就翻车了

德云社今晚北展封箱,郭麒麟回归张云雷缺席,没想到开场就翻车了

乡野小珥
2026-02-11 02:34:26
判刑宣布后,现场的乱港分子大哭,西方31国如丧考妣,美英跳脚

判刑宣布后,现场的乱港分子大哭,西方31国如丧考妣,美英跳脚

生活魔术专家
2026-02-10 15:15:54
大溃败!中国网贷公司,在印度全军覆没

大溃败!中国网贷公司,在印度全军覆没

首席品牌评论
2026-01-07 18:20:00
是两百年难遇的美人,靠美貌征服无数男人,如今49岁仍未婚

是两百年难遇的美人,靠美貌征服无数男人,如今49岁仍未婚

砚底沉香LIU
2026-02-08 17:28:38
网友吐槽:“新开箱的几乎全部腐烂!”价格“腰斩”,口感却崩了,像在开盲盒……

网友吐槽:“新开箱的几乎全部腐烂!”价格“腰斩”,口感却崩了,像在开盲盒……

环球网资讯
2026-02-10 13:17:15
2026-02-12 01:20:49
机器之心Pro incentive-icons
机器之心Pro
专业的人工智能媒体
12290文章数 142565关注度
往期回顾 全部

科技要闻

V4来了?DeepSeek 灰度测试新版本

头条要闻

遭特朗普威胁 卡尼一个电话打过去:47亿美元我们付的

头条要闻

遭特朗普威胁 卡尼一个电话打过去:47亿美元我们付的

体育要闻

搞垮一个冬奥选手,只需要一首歌?

娱乐要闻

大孤山风波愈演愈烈 超50位明星扎堆

财经要闻

广州前首富被判无期 200亿集资窟窿何偿

汽车要闻

比亚迪最美B级SUV? 宋Ultra这腰线美翻了

态度原创

本地
艺术
时尚
数码
公开课

本地新闻

下一站是嘉禾望岗,请各位乘客做好哭泣准备

艺术要闻

上海北外滩白玉兰广场的波特曼方案

3种美翻天的穿搭,换个方式过春天

数码要闻

英特尔Nova Lake处理器尺寸曝光:单芯片面积远超AMD

公开课

李玫瑾:为什么性格比能力更重要?

无障碍浏览 进入关怀版