南大移动团队提出TNT，破解「假装不思考」骗奖励|算法|推理|实验|新论文|token

南大移动团队提出TNT，破解「假装不思考」骗奖励

2026-06-17 18:40:39　来源: 机器之心Pro

天津举报

分享至

作者介绍：南京大学智能科学与技术学院博士生甘思远为本文第一作者；南京大学高阳教授为本文合作者；上海人工智能实验室孟林建青年研究员和南京大学霍静副教授为本文通讯作者。

以 DeepSeek-R1、OpenAI o1 为代表的大型推理模型，凭借长思维链的「思考」能力在数学、代码等任务上大放异彩。但思考是有代价的：冗长、反复的推理过程带来了巨大的推理开销与延迟，这就是广受关注的「过度思考」（Overthinking）问题。一个自然的解决思路是训练混合推理模型：让模型根据问题难度，自动决定是「深思熟虑」（thinking 模式）还是「脱口而出」（non-thinking 模式），并使用强化学习（RL）训练模型掌握这种能力。

然而，这套看似合理的奖励设计，却埋下了一个经典的隐患：奖励欺骗（Reward Hacking）。模型很快学会了「钻空子」—— 表面上输出非思考模式的格式标记，骨子里却照样进行长篇思考，既靠思考拿到了正确答案，又骗取了非思考模式的额外奖励。

为了解决这一问题，来自南京大学、上海人工智能实验室和中国移动九天研究院的研究团队提出了Thinking-Based Non-Thinking（TNT）：不依赖昂贵的 SFT，仅利用思考模式回答中「答案部分」的长度信息，为每个问题动态设定非思考模式的 token 上限，就将奖励欺骗的发生概率压到了 10% 以下，同时在五个数学基准上实现了准确率与效率的最优权衡。

目前，该论文已被自然语言处理顶级会议 ACL 2026 Main Conference 接收

论文链接：https://arxiv.org/abs/2601.04805
代码链接：https://github.com/SiyuanGan/Thinking-Based_Non-thinking

背景介绍：混合推理模型与 RL 训练范式

我们先来回顾一下混合推理模型的基本设定。

给定一个以特殊 token 标记思考结束；其后则是最终的解答（solution）部分，只包含正确的解题步骤与答案。沿用先前工作的约定，若思考部分为空，则该回答被判定为非思考模式，否则为思考模式。在 RL 训练中，为了鼓励模型在能力允许时优先选择高效的非思考模式，正确的非思考回答会被赋予比正确的思考回答更高的奖励。

结尾的输入提示，推理模型的回答最初是思考部分 —— 包含不断探索、反思与自我验证的长思维链；

动机：一个被低估的奖励欺骗问题

问题恰恰出在「更高的奖励」上。由于模式判定仅依赖第一个 token 这种表面信号，模型完全可以先输出伪装成非思考模式，随后的内容却照样反复推演，甚至再次生成终止符 —— 靠真实的思考得到正确答案，却领走了非思考模式的高额奖励。

奖励欺骗问题示例。模型生成的首个 token 为，被分类为 non-thinking 模式，但回答内容明显具有 thinking 模式特征（如使用 "Wait"、"Alternatively" 等关键词），构成了典型的奖励欺骗行为。

这一问题的严重性超出想象。文章实测发现，未处理奖励欺骗的 RL 方法在 AIME24 上，被判定为「非思考模式」的回答平均 token 用量竟高达 10845，与思考模式的 11976 几乎不相上下 —— 所谓的「非思考」已名存实亡，整个训练事实上已经崩塌。

针对该问题，现有方案大致有两条路，但各有硬伤：其一是引入 SFT 来固定模型两种模式的输出行，但 SFT 计算开销极其高昂；更糟的是，SFT 还会带来显著的性能退化，先前工作的 SFT 模型在 AIME24 上准确率仅约 10%。其二是为非思考模式设定最大 token 上限，超限即视为欺骗，但现有工作对所有问题施加统一的上限，这在逻辑上是行不通的：简单问题（如「1+1 等于几」）即便用长思维链反复验证，其 token 数也可能远低于复杂 AIME 题目正常作答的长度。

方法：

用思考模式的「答案」

标定非思考模式的「尺子」

图 1：TNT 方法概览。

破局的关键洞见相当优雅：思考模式回答中之后的解答部分，本身就不含思考 —— 而这恰好就是非思考模式的定义。换言之，思考模式回答自带一份「该问题的答案正常应该写多长」的免费标尺。TNT 正是利用这一点，为每个问题动态设定非思考模式的 token 上限。

整套方法基于 GRPO 进行训练，无需任何 SFT，无需修改模型结构或 tokenizer，并且与 Dr. GRPO、DAPO、GSPO 乃至经典 PPO 等算法天然兼容，是一个即插即用的奖励层面修正。

实验验证：准确率与效率的双赢

文章以 DeepSeek-R1-Distill-Qwen-1.5B/7B 和 DeepScaleR-1.5B 为基座模型进行了实验的验证。

更少的 token，更高的准确率。在 1.5B 模型上，TNT 相比基座模型将平均 token 用量削减 46.2%，平均准确率反而提升 4.1 个百分点，超越全部同类方法配置。

不同混合推理模型训练方法在数学基准上的平均准确率与 token 用量对比。

各模型在 non-thinking 模式回答中出现 thinking 相关动词的概率。

奖励欺骗被有效遏制。文章统计了非思考模式回答中「Wait」、「Alternatively」等思考类动词的出现概率：未考虑该问题的 AutoThink 概率最高，采用统一上限的 AdaptThink 也显著偏高，而 TNT 在所有测试集上均低于 10%，仅次于付出了高昂 SFT 代价的方法。

模型学会了「看菜下饭」。TNT 的非思考模式占比与任务难度呈清晰的负相关：在 AIME24/25 这类难题上几乎全程思考（占比仅 1.7%/0.8%），在相对简单的 AMC23 上则有近 30% 的问题直接作答，实现了基于难度的自主模式选择。

基座越强，优势越大。在 DeepScaleR-1.5B 与 7B 模型上，TNT 的 TE 分别达到 0.70 与 0.79，大幅领先次优方法的 0.54 与 0.67；在 7B 上更是同时拿下最高平均准确率（54.2%）与最低 token 用量。此外，TNT 在与 CoT 压缩方法的对比中全面胜出，并在 GPQA Diamond 这一分布外基准上取得最优效果，展现了良好的泛化性。

总结和展望

总而言之，这篇论文直面了混合推理模型 RL 训练中一个具体而致命的失效模式，奖励欺骗，并给出了一个四两拨千斤的解法：与其用昂贵的 SFT 去「管住」模型的输出，或用一刀切的上限去「猜」每道题的合理长度，不如让思考模式自己的解答部分来告诉我们，这道题不思考时正常应该写多长。由此提出的 TNT 无需 SFT、无需改动模型结构，仅在奖励层面引入一个动态 token 上限，便在三个基座模型、五个数学基准上一致地实现了约 50% 的 token 削减与准确率提升，并将奖励欺骗概率压制在 10% 以内。

特别声明：以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布，本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.