网易首页 > 网易号 > 正文 申请入驻

南大移动团队提出TNT,破解「假装不思考」骗奖励

0
分享至



作者介绍: 南京大学智能科学与技术学院博士生甘思远为本文第一作者;南京大学高阳教授为本文合作者;上海人工智能实验室孟林建青年研究员和南京大学霍静副教授为本文通讯作者。

以 DeepSeek-R1、OpenAI o1 为代表的大型推理模型,凭借长思维链的「思考」能力在数学、代码等任务上大放异彩。但思考是有代价的:冗长、反复的推理过程带来了巨大的推理开销与延迟,这就是广受关注的「过度思考」(Overthinking)问题。一个自然的解决思路是训练混合推理模型:让模型根据问题难度,自动决定是「深思熟虑」(thinking 模式)还是「脱口而出」(non-thinking 模式),并使用强化学习(RL)训练模型掌握这种能力。

然而,这套看似合理的奖励设计,却埋下了一个经典的隐患:奖励欺骗(Reward Hacking)。模型很快学会了「钻空子」—— 表面上输出非思考模式的格式标记,骨子里却照样进行长篇思考,既靠思考拿到了正确答案,又骗取了非思考模式的额外奖励。

为了解决这一问题,来自南京大学、上海人工智能实验室和中国移动九天研究院的研究团队提出了Thinking-Based Non-Thinking(TNT):不依赖昂贵的 SFT,仅利用思考模式回答中「答案部分」的长度信息,为每个问题动态设定非思考模式的 token 上限,就将奖励欺骗的发生概率压到了 10% 以下,同时在五个数学基准上实现了准确率与效率的最优权衡。

目前,该论文已被自然语言处理顶级会议 ACL 2026 Main Conference 接收



  • 论文链接:https://arxiv.org/abs/2601.04805
  • 代码链接:https://github.com/SiyuanGan/Thinking-Based_Non-thinking

背景介绍:混合推理模型与 RL 训练范式

我们先来回顾一下混合推理模型的基本设定。

给定一个以特殊 token 标记思考结束;其后 则是最终的解答(solution)部分,只包含正确的解题步骤与答案。沿用先前工作的约定,若思考部分为空,则该回答被判定为非思考模式,否则为思考模式。在 RL 训练中,为了鼓励模型在能力允许时优先选择高效的非思考模式,正确的非思考回答会被赋予比正确的思考回答更高的奖励。

结尾的输入提示,推理模型的回答最初是思考部分 —— 包含不断探索、反思与自我验证的长思维链;

动机:一个被低估的奖励欺骗问题

问题恰恰出在「更高的奖励」上。由于模式判定仅依赖第一个 token 这种表面信号,模型完全可以先输出 伪装成非思考模式,随后的内容却照样反复推演,甚至再次生成 终止符 —— 靠真实的思考得到正确答案,却领走了非思考模式的高额奖励。



奖励欺骗问题示例。模型生成的首个 token 为 ,被分类为 non-thinking 模式,但回答内容明显具有 thinking 模式特征(如使用 "Wait"、"Alternatively" 等关键词),构成了典型的奖励欺骗行为。

这一问题的严重性超出想象。文章实测发现,未处理奖励欺骗的 RL 方法在 AIME24 上,被判定为「非思考模式」的回答平均 token 用量竟高达 10845,与思考模式的 11976 几乎不相上下 —— 所谓的「非思考」已名存实亡,整个训练事实上已经崩塌。

针对该问题,现有方案大致有两条路,但各有硬伤:其一是引入 SFT 来固定模型两种模式的输出行,但 SFT 计算开销极其高昂;更糟的是,SFT 还会带来显著的性能退化,先前工作的 SFT 模型在 AIME24 上准确率仅约 10%。其二是为非思考模式设定最大 token 上限,超限即视为欺骗,但现有工作对所有问题施加统一的上限,这在逻辑上是行不通的:简单问题(如「1+1 等于几」)即便用长思维链反复验证,其 token 数也可能远低于复杂 AIME 题目正常作答的长度。

方法:

用思考模式的「答案」

标定非思考模式的「尺子」



图 1:TNT 方法概览。

破局的关键洞见相当优雅:思考模式回答中 之后的解答部分,本身就不含思考 —— 而这恰好就是非思考模式的定义。换言之,思考模式回答自带一份「该问题的答案正常应该写多长」的免费标尺。TNT 正是利用这一点,为每个问题动态设定非思考模式的 token 上限。









整套方法基于 GRPO 进行训练,无需任何 SFT,无需修改模型结构或 tokenizer,并且与 Dr. GRPO、DAPO、GSPO 乃至经典 PPO 等算法天然兼容,是一个即插即用的奖励层面修正。

实验验证:准确率与效率的双赢

文章以 DeepSeek-R1-Distill-Qwen-1.5B/7B 和 DeepScaleR-1.5B 为基座模型进行了实验的验证。

更少的 token,更高的准确率。在 1.5B 模型上,TNT 相比基座模型将平均 token 用量削减 46.2%,平均准确率反而提升 4.1 个百分点,超越全部同类方法配置。



不同混合推理模型训练方法在数学基准上的平均准确率与 token 用量对比。



各模型在 non-thinking 模式回答中出现 thinking 相关动词的概率。

奖励欺骗被有效遏制。文章统计了非思考模式回答中「Wait」、「Alternatively」等思考类动词的出现概率:未考虑该问题的 AutoThink 概率最高,采用统一上限的 AdaptThink 也显著偏高,而 TNT 在所有测试集上均低于 10%,仅次于付出了高昂 SFT 代价的方法。

模型学会了「看菜下饭」。TNT 的非思考模式占比与任务难度呈清晰的负相关:在 AIME24/25 这类难题上几乎全程思考(占比仅 1.7%/0.8%),在相对简单的 AMC23 上则有近 30% 的问题直接作答,实现了基于难度的自主模式选择。

基座越强,优势越大。在 DeepScaleR-1.5B 与 7B 模型上,TNT 的 TE 分别达到 0.70 与 0.79,大幅领先次优方法的 0.54 与 0.67;在 7B 上更是同时拿下最高平均准确率(54.2%)与最低 token 用量。此外,TNT 在与 CoT 压缩方法的对比中全面胜出,并在 GPQA Diamond 这一分布外基准上取得最优效果,展现了良好的泛化性。

总结和展望

总而言之,这篇论文直面了混合推理模型 RL 训练中一个具体而致命的失效模式,奖励欺骗,并给出了一个四两拨千斤的解法:与其用昂贵的 SFT 去「管住」模型的输出,或用一刀切的上限去「猜」每道题的合理长度,不如让思考模式自己的解答部分来告诉我们,这道题不思考时正常应该写多长。由此提出的 TNT 无需 SFT、无需改动模型结构,仅在奖励层面引入一个动态 token 上限,便在三个基座模型、五个数学基准上一致地实现了约 50% 的 token 削减与准确率提升,并将奖励欺骗概率压制在 10% 以内。

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
你见过闲鱼的哪些奇葩交易?网友:把男儿膝下的黄金提现了

你见过闲鱼的哪些奇葩交易?网友:把男儿膝下的黄金提现了

另子维爱读史
2026-06-09 22:22:40
Lisa把手机藏在礼服后腰,粉丝夸赞Lisa的腰细,只比手机宽一点点

Lisa把手机藏在礼服后腰,粉丝夸赞Lisa的腰细,只比手机宽一点点

芊手若
2026-07-04 11:59:25
19股获机构大手笔净买入

19股获机构大手笔净买入

证券时报e公司
2026-07-05 07:52:17
老妈带6口亲戚进京半个月,小伙天塌了:住家里,钱照给,人不陪

老妈带6口亲戚进京半个月,小伙天塌了:住家里,钱照给,人不陪

风起见你
2026-07-05 01:55:55
台湾地区最后12个“邦交”全是硬茬

台湾地区最后12个“邦交”全是硬茬

人工岛分布
2026-06-07 08:18:25
少林寺新任方丈释印乐,就任仅10个月,寺里就被曝出少了800多万

少林寺新任方丈释印乐,就任仅10个月,寺里就被曝出少了800多万

人生录
2026-07-02 16:19:01
沃齐尼亚书写黑马传奇!佛得角世界杯之旅落幕,收获1100万美元赛事奖金

沃齐尼亚书写黑马传奇!佛得角世界杯之旅落幕,收获1100万美元赛事奖金

红星新闻
2026-07-04 11:49:12
杨毅:李凯尔归化是高层领导特批 他能打NBA是角色球员带不动我们

杨毅:李凯尔归化是高层领导特批 他能打NBA是角色球员带不动我们

狼叔评论
2026-07-04 20:26:08
“挂了快一年,从200多万降到160万,心一横,卖了。”房东割肉离场,杭州“老破小”价格回到十年前

“挂了快一年,从200多万降到160万,心一横,卖了。”房东割肉离场,杭州“老破小”价格回到十年前

都市快报橙柿互动
2026-07-04 09:57:12
83年飞行员王学成叛逃台湾,邓丽君慰问时耳语一句后被强行支走

83年飞行员王学成叛逃台湾,邓丽君慰问时耳语一句后被强行支走

鉴史录
2026-05-24 15:48:49
135公里泰山刀片刺骨隔离网,堪称人间奇迹!

135公里泰山刀片刺骨隔离网,堪称人间奇迹!

剑鸣涛声
2026-07-05 00:03:10
有没有人敢爆自己的瓜?网友:确定玩这么大吗?

有没有人敢爆自己的瓜?网友:确定玩这么大吗?

夜深爱杂谈
2026-02-18 20:55:58
阿里内部全面禁用 Claude Code;带摄像头 AirPods Pro 项目「暂停」;黄仁勋黑色皮夹克估价或超 40 万元|极客早知道

阿里内部全面禁用 Claude Code;带摄像头 AirPods Pro 项目「暂停」;黄仁勋黑色皮夹克估价或超 40 万元|极客早知道

极客公园
2026-07-04 08:37:02
刚发布的汽车销量排行榜,第一名把我看傻了

刚发布的汽车销量排行榜,第一名把我看傻了

周哥一影视
2026-07-04 10:26:56
西蒙尼:许多人都忘记了梅西2016年退队,实际上没缺席过1场

西蒙尼:许多人都忘记了梅西2016年退队,实际上没缺席过1场

晚雾空青
2026-07-05 10:21:56
油价跌回7块,燃油车主别急着乐,这钱是电车车主帮你买单的?

油价跌回7块,燃油车主别急着乐,这钱是电车车主帮你买单的?

小怪吃美食
2026-07-04 15:49:41
霉霉婚礼上唯一允许带手机的人赛琳娜,想必这就是嫡长闺的地位吧

霉霉婚礼上唯一允许带手机的人赛琳娜,想必这就是嫡长闺的地位吧

明天去看太阳
2026-07-05 08:51:53
男篮生死战12人大名单出炉!高诗岩赵继伟仍坚挺,郭士强用人固执

男篮生死战12人大名单出炉!高诗岩赵继伟仍坚挺,郭士强用人固执

多特体育说
2026-07-05 00:35:03
统一台湾的最大障碍,不是美国和台独,而是"中华民国"这个称号

统一台湾的最大障碍,不是美国和台独,而是"中华民国"这个称号

共工之锚
2026-07-03 00:10:55
吃“春药”后,是什么感觉?医生说的2个案例,告诉你真实感受

吃“春药”后,是什么感觉?医生说的2个案例,告诉你真实感受

医学科普汇
2026-06-23 17:16:20
2026-07-05 16:36:49
机器之心Pro incentive-icons
机器之心Pro
专业的人工智能媒体
13431文章数 142688关注度
往期回顾 全部

科技要闻

华为:逻辑折叠将大幅提升麒麟CPU核心频率

头条要闻

特朗普:我很惊讶 悼念哈梅内伊的伊朗民众"全是假哭"

头条要闻

特朗普:我很惊讶 悼念哈梅内伊的伊朗民众"全是假哭"

体育要闻

姆巴佩点走巴拉圭:巴黎三代左锋传承

娱乐要闻

王力宏成都舞台受伤 仍然坚持三小时

财经要闻

揭秘跨境“对敲”换汇黑产

汽车要闻

方程豹钛9内饰曝光 用上了长联屏设计/下半年上市

态度原创

本地
时尚
房产
艺术
健康

本地新闻

国内足球之旅?这座小城给你高分答案

为什么女明星体重涨了,身材反而更辣了?

房产要闻

总裁空缺17个月、现金缺口超1000亿:金融局“局外人”入局万科

艺术要闻

24幅 当代画家静物油画

听说少吃点能抗衰老?专家讲解!

无障碍浏览 进入关怀版