ICLR 2026｜隐式思考模型LRT：「隐式思维链」推理，更快更强！|向量|轨迹|回归|显式|新论文

ICLR 2026｜隐式思考模型LRT：「隐式思维链」推理，更快更强！

2026-04-12 18:43:50　来源: 新浪财经

河北举报

分享至

来源：市场资讯

近日，哈尔滨工业大学（深圳）联合深圳河套学院、Independent Researcher提出了隐式思考模型 LRT（Latent Reasoning Tuning），通过一个轻量级的推理网络，将大模型冗长的「思维链」压缩为紧凑的隐式向量表征，一次前向计算即可完成推理，无需逐 token 生成数千字的中间推理过程。

LRT 不仅实现了高效思考，还能作为一种全新的混合思考范式，在 Qwen3 系列模型上超越了其原生的非思考模式。

论文地址： https://openreview.net/forum?id=CbK7lYbmv8
代码开源： https://github.com/MobiusDai/LRT

出发点：大模型「自言自语」的推理过程真的全都有用吗？

以 OpenAI o1、DeepSeek-R1、Qwen QwQ 为代表的慢思考推理模型，通过生成详尽的逐步推理链来解决复杂问题，展现了强大的推理能力。然而，这些模型存在一个显著痛点 —— 过度思考（Overthinking）：

即使是简单的数学题，模型也可能生成数千个 token 的推理过程，其中包含大量回溯、自我验证和冗余步骤；
推理轨迹的长度往往远超最终答案，导致推理延迟高、计算开销大，严重制约了实时应用。

Question：这些冗长的推理链真的全部必要吗？

关键发现：推理轨迹存在大量冗余

为了回答上述问题，团队设计了一组实验：在 DeepSeek-R1-Distill-Qwen-7B 模型上，将推理轨迹进行不同粒度的删减 —— 随机跳过一定比例的 token 或推理步骤，然后观察模型能否仅凭残缺的推理链给出正确答案。

核心洞察：即使随机丢弃 50% 的推理轨迹，模型准确率仅下降约 2 个百分点。这可以得出两个结论：

当前的推理轨迹中存在大量冗余信息，远超正确推理所需的信息；

推理模型具有强大的信息过滤能力，即使面对残缺、高困惑度的推理链，依然能从中提取关键信息并总结得出正确答案。

这一发现直接启发了团队的核心思路：既然完整的逐步推理链并非必要，能否用一种更紧凑的隐式表征来替代它？

方法：隐式思考模型 LRT

基于上述洞察，团队提出了 Latent Reasoning Tuning（LRT）框架。其核心思想可以概括为：用一个轻量级推理网络，将显式的推理链「编码」为固定长度的隐式向量，直接注入大模型即可生成最终答案。

技术架构

如上图所示，传统推理模型需要逐 token 自回归生成整条推理链（Decode → Decode → ... → Decode），而 LRT 的流程为：

输入编码：将问题输入大模型，提取其隐藏状态表征；

，一次前向传播即生成固定长度的隐式推理向量；

答案生成：将隐式推理向量与问题 (编码向量) 拼接后送入大模型，直接解码生成最终答案。

具体方法

对于一个推理型大模型

，将输入提示定义为

推理轨迹为：

，最终答案为

通常

，即推理过程所消耗的 token 数量远大于最终答案的长度 —— 这正是推理开销的根源所在。

模型的推理生成过程可分为两个阶段：

Prefill 阶段：模型一次性处理输入提示 X 中的全部 token，初始化注意力状态（KV 缓存）。这一阶段是并行的，计算效率较高；
Decode 阶段：模型逐 token 自回归地生成输出，每一步仅基于前序 token 与缓存状态进行推理。这一阶段是串行的，也是推理延迟的主要瓶颈。

在 Decode 阶段，思维链的生成过程可以形式化为：

其中

表示序列拼接。

注意到，在给定模型参数

完全由模型的输出分布决定。

的条件下，推理轨迹

和输入

因此，推理轨迹可以表示为输入与模型参数的函数

。相应地，LLM 先推理再总结得到答案的完整过程可以写为：

既然推理轨迹是输入的函数，而已经证明了它存在大量冗余，那么一个自然的想法是：使用一个更高效的函数来替代它？

基于这一思路，团队引入一个轻量级的推理网络

，直接从输入映射到紧凑的隐式推理表征：

隐式表征以固定长度的连续向量序列替代了原本需要逐 token 解码的冗长推理链，从而将「Decode」过程转化为高效的「Prefill」操作。

在训练阶段，我们采用两阶段优化策略。第一阶段通过监督微调（SFT）优化推理网络参数

，最小化负对数似然损失：

该目标鼓励。第二阶段进一步采用强化学习（GRPO），以答案正确性作为奖励信号，激励推理网络在隐式空间中探索更优的推理路径，从而突破训练数据质量的瓶颈。

正确预测最终答案

生成的隐式表征能够引导冻结的基座模型

实验结果

1. 高效思考 —— 在不同 Token Budget 下表现最优

在 DeepSeek-R1-Distill-Qwen-1.5B 上，与多种高效推理方法进行对比：

在不同的 Token 预算下，LRT 在域内和域外任务上全面领先。在 512-Token 下，其平均准确率比 NoThinking 高 2.66%，比 RL 类方法 ShorterBetter、LC-R1 分别高 5.90% 和 4.74%。

2. 混合思考 —— 超越 Qwen3 原生混合思考模式

LRT 的模块化设计天然适合作为混合推理的新范式：面对简单问题使用隐式思考快速作答，面对困难问题切换回显式慢思考深入推理。在 Qwen3 系列模型上验证了这一能力：

在 Qwen3-4B 上，LRT 的 pass@4 平均准确率达到 71.60%，比 Qwen3 原生非思考模式高出 5.82 个百分点！在 GSM8K 上提升近 7%，在 LSAT 上提升超过 14%。这表明隐式推理向量能有效引导模型产生更多样、更高质量的解题路径。

3. 推理效率对比

LRT 的推理延迟显著低于 Qwen3 的混合思考模式，甚至比非思考模式还快 —— 因为隐式推理向量引导模型生成更简洁的答案，减少了解码步数。

4. 消融实验分析

隐式推理 token 数量的影响：随着隐式 token 数从 64 增加到 256，性能稳步提升（42.53% → 48.42%）。

两阶段训练：加入 RL 阶段后，域内任务平均提升约 9%，域外任务平均提升约 4.3%，验证了强化学习对隐式推理优化的关键作用。

更大的基础模型（如 Qwen3-8B）则能充分利用更多的隐式 token（使用 512 个隐式 token 时结果仍能提高），说明隐式推理的「容量」与基础模型能力正相关。

总结

隐式思考模型 LRT 开辟了一条全新的高效推理路径：

理论洞察：系统性地揭示了推理轨迹的高度冗余性，证明完整的逐步推理链并非正确推理的前提；
高效思考：通过将显式推理链压缩为隐式向量表征，用单次前向计算替代数千步自回归解码，大幅降低推理成本；
混合思考：模块化的即插即用设计，无需修改大模型参数，可在隐式推理与显式推理之间无缝切换，为混合推理系统提供了更优的替代方案；
效果优异：在数学、逻辑、科学等多类基准上全面超越现有高效推理方法，并在 Qwen3 系列模型上超越其原生非思考模式。

作者信息

本文第一作者姜聪，哈尔滨工业大学（深圳）博士生，研究方向为高效思考与推理模型。通讯作者张正，哈尔滨工业大学（深圳）教授、博士生导师，教育部青年长江学者，主要从事高效能多模态人工智能的研究，近年专注于高效与可信多模态大模型。

主要完成单位为哈尔滨工业大学（深圳）& 深圳河套学院。

特别声明：以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布，本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.