网易首页 > 网易号 > 正文 申请入驻

ICLR 2026|隐式思考模型LRT:「隐式思维链」推理,更快更强!

0
分享至

来源:市场资讯


近日,哈尔滨工业大学(深圳)联合深圳河套学院、Independent Researcher提出了隐式思考模型 LRT(Latent Reasoning Tuning),通过一个轻量级的推理网络,将大模型冗长的「思维链」压缩为紧凑的隐式向量表征,一次前向计算即可完成推理,无需逐 token 生成数千字的中间推理过程。

LRT 不仅实现了高效思考,还能作为一种全新的混合思考范式,在 Qwen3 系列模型上超越了其原生的非思考模式。


  • 论文地址: https://openreview.net/forum?id=CbK7lYbmv8

  • 代码开源: https://github.com/MobiusDai/LRT

出发点:大模型「自言自语」的推理过程真的全都有用吗?

以 OpenAI o1、DeepSeek-R1、Qwen QwQ 为代表的慢思考推理模型,通过生成详尽的逐步推理链来解决复杂问题,展现了强大的推理能力。然而,这些模型存在一个显著痛点 —— 过度思考(Overthinking):

  • 即使是简单的数学题,模型也可能生成数千个 token 的推理过程,其中包含大量回溯、自我验证和冗余步骤;

  • 推理轨迹的长度往往远超最终答案,导致推理延迟高、计算开销大,严重制约了实时应用。

Question:这些冗长的推理链真的全部必要吗?

关键发现:推理轨迹存在大量冗余

为了回答上述问题,团队设计了一组实验:在 DeepSeek-R1-Distill-Qwen-7B 模型上,将推理轨迹进行不同粒度的删减 —— 随机跳过一定比例的 token 或推理步骤,然后观察模型能否仅凭残缺的推理链给出正确答案。


核心洞察: 即使随机丢弃 50% 的推理轨迹,模型准确率仅下降约 2 个百分点。这可以得出两个结论:

当前的推理轨迹中存在大量冗余信息,远超正确推理所需的信息;

推理模型具有强大的信息过滤能力,即使面对残缺、高困惑度的推理链,依然能从中提取关键信息并总结得出正确答案。

这一发现直接启发了团队的核心思路:既然完整的逐步推理链并非必要,能否用一种更紧凑的隐式表征来替代它?

方法:隐式思考模型 LRT

基于上述洞察,团队提出了 Latent Reasoning Tuning(LRT) 框架。其核心思想可以概括为:用一个轻量级推理网络,将显式的推理链「编码」为固定长度的隐式向量,直接注入大模型即可生成最终答案。

技术架构


如上图所示,传统推理模型需要逐 token 自回归生成整条推理链(Decode → Decode → ... → Decode),而 LRT 的流程为:

输入编码: 将问题输入大模型,提取其隐藏状态表征;

,一次前向传播即生成固定长度的隐式推理向量;

答案生成: 将隐式推理向量与问题 (编码向量) 拼接后送入大模型,直接解码生成最终答案。

具体方法

对于一个推理型大模型

,将输入提示定义为


推理轨迹为:



,最终答案为

通常


,即推理过程所消耗的 token 数量远大于最终答案的长度 —— 这正是推理开销的根源所在。

模型的推理生成过程可分为两个阶段:

  • Prefill 阶段: 模型一次性处理输入提示 X 中的全部 token,初始化注意力状态(KV 缓存)。这一阶段是并行的,计算效率较高;

  • Decode 阶段: 模型逐 token 自回归地生成输出,每一步仅基于前序 token 与缓存状态进行推理。这一阶段是串行的,也是推理延迟的主要瓶颈。

在 Decode 阶段,思维链的生成过程可以形式化为:


其中

表示序列拼接。

注意到,在给定模型参数

完全由模型的输出分布决定。

的条件下,推理轨迹

和输入

因此,推理轨迹可以表示为输入与模型参数的函数


。相应地,LLM 先推理再总结得到答案的完整过程可以写为:


既然推理轨迹是输入的函数,而已经证明了它存在大量冗余,那么一个自然的想法是:使用一个更高效的函数来替代它?

基于这一思路,团队引入一个轻量级的推理网络


,直接从输入映射到紧凑的隐式推理表征:

隐式表征以固定长度的连续向量序列替代了原本需要逐 token 解码的冗长推理链,从而将「Decode」过程转化为高效的「Prefill」操作。

在训练阶段,我们采用两阶段优化策略。第一阶段通过监督微调(SFT)优化推理网络参数

,最小化负对数似然损失:


该目标鼓励。第二阶段进一步采用强化学习(GRPO),以答案正确性作为奖励信号,激励推理网络在隐式空间中探索更优的推理路径,从而突破训练数据质量的瓶颈。

正确预测最终答案

生成的隐式表征能够引导冻结的基座模型

实验结果

1. 高效思考 —— 在不同 Token Budget 下表现最优


在 DeepSeek-R1-Distill-Qwen-1.5B 上,与多种高效推理方法进行对比:

  • 在不同的 Token 预算下,LRT 在域内和域外任务上全面领先。在 512-Token 下,其平均准确率比 NoThinking 高 2.66%,比 RL 类方法 ShorterBetter、LC-R1 分别高 5.90% 和 4.74%。

2. 混合思考 —— 超越 Qwen3 原生混合思考模式


LRT 的模块化设计天然适合作为混合推理的新范式:面对简单问题使用隐式思考快速作答,面对困难问题切换回显式慢思考深入推理。在 Qwen3 系列模型上验证了这一能力:

  • 在 Qwen3-4B 上,LRT 的 pass@4 平均准确率达到 71.60%,比 Qwen3 原生非思考模式高出 5.82 个百分点!在 GSM8K 上提升近 7%,在 LSAT 上提升超过 14%。这表明隐式推理向量能有效引导模型产生更多样、更高质量的解题路径。

3. 推理效率对比


  • LRT 的推理延迟显著低于 Qwen3 的混合思考模式,甚至比非思考模式还快 —— 因为隐式推理向量引导模型生成更简洁的答案,减少了解码步数。

4. 消融实验分析


隐式推理 token 数量的影响: 随着隐式 token 数从 64 增加到 256,性能稳步提升(42.53% → 48.42%)。


两阶段训练: 加入 RL 阶段后,域内任务平均提升约 9%,域外任务平均提升约 4.3%,验证了强化学习对隐式推理优化的关键作用。


更大的基础模型(如 Qwen3-8B)则能充分利用更多的隐式 token(使用 512 个隐式 token 时结果仍能提高),说明隐式推理的「容量」与基础模型能力正相关。

总结

隐式思考模型 LRT 开辟了一条全新的高效推理路径:

  • 理论洞察: 系统性地揭示了推理轨迹的高度冗余性,证明完整的逐步推理链并非正确推理的前提;

  • 高效思考: 通过将显式推理链压缩为隐式向量表征,用单次前向计算替代数千步自回归解码,大幅降低推理成本;

  • 混合思考: 模块化的即插即用设计,无需修改大模型参数,可在隐式推理与显式推理之间无缝切换,为混合推理系统提供了更优的替代方案;

  • 效果优异: 在数学、逻辑、科学等多类基准上全面超越现有高效推理方法,并在 Qwen3 系列模型上超越其原生非思考模式。

作者信息

本文第一作者姜聪,哈尔滨工业大学(深圳)博士生,研究方向为高效思考与推理模型。通讯作者张正,哈尔滨工业大学(深圳)教授、博士生导师,教育部青年长江学者,主要从事高效能多模态人工智能的研究,近年专注于高效与可信多模态大模型。

主要完成单位为哈尔滨工业大学(深圳)& 深圳河套学院。

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
坏消息,他空降日本执教,天价薪资全面曝光,国乒迎来生死强敌

坏消息,他空降日本执教,天价薪资全面曝光,国乒迎来生死强敌

郭蛹包工头
2026-04-12 21:21:39
她将弟弟带入娱乐圈,如今自己无人问津,弟弟却是红透半边天!

她将弟弟带入娱乐圈,如今自己无人问津,弟弟却是红透半边天!

看尽落尘花q
2026-04-12 19:49:44
中超积分战报:青岛海牛补时绝平,北京国安被逆转,深圳3-4憾负

中超积分战报:青岛海牛补时绝平,北京国安被逆转,深圳3-4憾负

足球狗说
2026-04-12 22:14:57
刚从日本回来,说点不中听的:日本的真实面目,可能让你很意外

刚从日本回来,说点不中听的:日本的真实面目,可能让你很意外

复转这些年
2026-04-01 09:17:19
独霸赛场!国乒新生代接管太原赛,日本队全线出局

独霸赛场!国乒新生代接管太原赛,日本队全线出局

罗纳尔说个球
2026-04-12 10:57:45
对中国的制裁来了!意大利政府这次是打算明抢了!

对中国的制裁来了!意大利政府这次是打算明抢了!

达文西看世界
2026-04-12 13:49:52
近100家A股上市公司发布2026年一季度业绩预告 13家净利同比预增上限超500%

近100家A股上市公司发布2026年一季度业绩预告 13家净利同比预增上限超500%

财联社
2026-04-12 18:50:16
俄寡头:普京将在一月内对乌发动核打击,发射一枚2万吨当量核弹

俄寡头:普京将在一月内对乌发动核打击,发射一枚2万吨当量核弹

梁濆爱玩车
2026-04-09 16:04:48
关芝琳,63岁港圈第一美人喝酒照流出,这身段这气质完美?

关芝琳,63岁港圈第一美人喝酒照流出,这身段这气质完美?

娱乐领航家
2026-04-12 22:30:03
昌平已大量出现!紧急提醒:千万别手欠!

昌平已大量出现!紧急提醒:千万别手欠!

家住昌平
2026-04-12 20:44:28
利好来了!最高狂飙320倍,一批A股公司净利预增超10倍

利好来了!最高狂飙320倍,一批A股公司净利预增超10倍

21世纪经济报道
2026-04-12 22:39:37
男子用透明文件夹装着147.4万港币现金带出境,被海关发现异常并进行拦截,海关提醒:携带超额现钞不予放行

男子用透明文件夹装着147.4万港币现金带出境,被海关发现异常并进行拦截,海关提醒:携带超额现钞不予放行

环球网资讯
2026-04-12 11:07:45
新京报力挺陈芋汐:网友质疑,陈芋汐转账记录曝光,评论区太扎心

新京报力挺陈芋汐:网友质疑,陈芋汐转账记录曝光,评论区太扎心

眼光很亮
2026-04-11 20:22:50
输广东6分!揪出表现最差之人,狂出手21次 坑惨了广厦队

输广东6分!揪出表现最差之人,狂出手21次 坑惨了广厦队

体育哲人
2026-04-12 22:09:34
东南大学《自然·通讯》:可拉伸分子铁电声学纤维,应变下灵敏度翻倍

东南大学《自然·通讯》:可拉伸分子铁电声学纤维,应变下灵敏度翻倍

高分子科学前沿
2026-04-11 15:43:19
新中国十位国家级女领导人

新中国十位国家级女领导人

祁州校尉
2026-04-11 09:00:31
停火两周的生存挑战:革命卫队如何保障伊朗九千万人的吃喝?

停火两周的生存挑战:革命卫队如何保障伊朗九千万人的吃喝?

高博新视野
2026-04-10 06:30:09
3-0胜澳大利亚,朝鲜晋级女足亚洲杯4强+晋级在波兰举行的世界杯

3-0胜澳大利亚,朝鲜晋级女足亚洲杯4强+晋级在波兰举行的世界杯

俯身冲顶
2026-04-12 18:57:25
韩女星朴娜莱和男性朋友在车上发生了性关系,两名经纪人被迫围观

韩女星朴娜莱和男性朋友在车上发生了性关系,两名经纪人被迫围观

西楼知趣杂谈
2026-04-09 09:35:17
楼下邻居怒气冲冲敲门:你家漏水把我家淹了,赔钱!我缓缓打开门

楼下邻居怒气冲冲敲门:你家漏水把我家淹了,赔钱!我缓缓打开门

小秋情感说
2026-04-12 09:18:09
2026-04-13 00:11:00
新浪财经 incentive-icons
新浪财经
新浪财经是一家创建于1999年8月的财经平台
2836746文章数 6605关注度
往期回顾 全部

科技要闻

理想称遭恶意拉踩,东风日产:尊重同行

头条要闻

特朗普:将封锁任何试图进出霍尔木兹海峡的船只

头条要闻

特朗普:将封锁任何试图进出霍尔木兹海峡的船只

体育要闻

创造历史!五大联赛首位女性主教练诞生

娱乐要闻

赌王女儿何超蕸病逝,常年和乳癌斗争

财经要闻

美伊谈判破裂的三大症结

汽车要闻

焕新极氪007/007GT上市 限时19.39万起

态度原创

教育
家居
房产
时尚
公开课

教育要闻

高中地理必会知识点115条全梳理

家居要闻

复古风格 自然简约

房产要闻

土地供应突然暴跌!2026海口楼市,格局大变!

被周冬雨、林更新戴上热搜的珠宝,究竟有多惊艳?

公开课

李玫瑾:为什么性格比能力更重要?

无障碍浏览 进入关怀版