网易首页 > 网易号 > 正文 申请入驻

o1之后下一个范式?隐式CoT大突破,让推理不再「碎碎念」

0
分享至



魏熙林为本篇文章第一作者。魏熙林是复旦大学博士生,师从林达华教授,研究兴趣主要集中在 multi-modal LLMs 和 efficient AI。目前在上海人工智能实验室实习,指导 mentor 是臧宇航、王佳琦。

今天推荐一个 Implicit Chain-of-Thought(隐式推理) 的最新进展 ——SIM-CoT(Supervised Implicit Chain-of-Thought)。它直击隐式 CoT 一直「扶不起来」的核心痛点:隐式 token 一旦 scale 上去,训练就容易塌缩到同质化的 latent 状态,推理语义直接丢失。

SIM-CoT 的关键招式是一个 plug-and-play 的 step-level 监督模块:训练时用辅助解码器把每个 latent token「拉回」到可对齐的推理步骤上,既稳住优化、避免 collapse,又让隐式推理第一次真正可解释 —— 你甚至能把每个 latent token 解码成人类可读的中间推理步骤。

更爽的是:推理阶段零额外开销(辅助解码器训练完就丢),但效果却很猛:在 GPT-2 上相对 supervised CoT +2.1%、相对 Coconut +8.2%、相对 CODI +4.3%,在更大的 LLaMA(1B/3B/8B)上也能稳定带来 +1.5%~+9.0% 的提升,并且在 8–16 个隐式 token 这种 “前人容易崩” 的设置下依然稳得住。

目前这项研究刚刚中稿顶会 ICLR 2026,论文、代码、模型权重均已开源,欢迎使用!



  • Paper: https://arxiv.org/pdf/2509.20317
  • Code: https://github.com/InternLM/SIM-CoT
  • Huggingface: https://huggingface.co/collections/Wiselnn/sim-cot-supervised-implicit-chain-of-thought



图 1:(a) 潜变量不稳定:隐式 token 增多起初能提精度,但训练会变得不稳定,甚至塌缩。(b) 信息丢失:失败模型(5 个隐式 token)在隐式表示中丢失关键运算符信息(如 +、−),导致复杂推理无法进行。(c) 距离偏移:失败模型的 latent 间距离收缩、彼此过于相似,同时 latent 逐渐偏离词表嵌入空间中心。(d) 语义同质化:失败模型的 latent 表征趋同,解码结果分布变窄,输出多为数字;正常模型则能生成更丰富的内容。

从显式 CoT 到隐式 CoT:latent 稳定性与监督对齐的重大难点

复杂推理任务(如数学、符号推理、代码推理)长期以来都依赖显式 Chain-of-Thought(CoT):模型把中间步骤一条条写出来,既能提升正确率,也便于人类检查与纠错。

如今,随着推理需求不断增长,显式 CoT 的两大瓶颈越来越突出:成本方面,长 CoT 会显著拉高 token 开销与时延;效果方面,显式步骤容易被数据格式牵着走,出现「模板化推理」、冗长但无效的「自说自话」。

这些局限性推动研究者转向一种更「省 token」的新范式 —— 隐式 CoT(Implicit CoT)。它不再把推理步骤完整写出来,而是用少量隐式 token /latent 表征在模型内部完成多步推理:理论上既能保留推理能力,又能显著降低推理开销。

但把隐式 CoT 真正做稳、做强,远比想象中难,关键挑战在于:隐式 token 到底学到了什么?以及作者团队如何保证它学到的是「可用的推理」,而不是「投机的捷径」?

一个典型现象是 latent instability(潜变量不稳定):当你尝试增加隐式 token 数量来「scale 推理容量」时,模型往往不是变强,而是训练开始抖动,甚至直接 collapse(塌缩)。塌缩后的隐式 token 会出现明显的 信息丢失 —— 尤其是对符号推理至关重要的算子信息(+、−、×、÷ 等)被抹掉;同时 latent 之间的表示会越来越像,出现语义同质化:不同 token 学到的东西高度重合,最后解码出来的内容范围变窄,常常只剩下数字或非常单一的片段,复杂推理自然就做不下去。

现有隐式 CoT 方法在监督粒度上差异很大:Coconut 基本只做答案级监督,模型被要求「最后答对」,但中间 latent 学什么几乎不受约束;CODI 虽然引入了蒸馏信号,把显式 CoT 的信息压到连续 latent 里,但更多是轨迹 / 整体路径级对齐。

SIM-CoT 的关键突破正是 step-level 监督:训练时用辅助解码器把每个 latent 对齐到对应推理步骤,从根上稳定并丰富 latent 推理空间,同时推理阶段不增加任何开销。



图 2: 框架对比:Coconut(左上)、CODI(右上)与 SIM-CoT(下)。Coconut/CODI 仅在答案或轨迹层面进行粗粒度监督;SIM-CoT 引入解码器将隐式 latent 与逐步推理对齐,在不增加推理开销的前提下提升性能。

监督设计新思路:好的隐式推理应当能被「逐步解码」回显式思维链

为了解决隐式 CoT 在 scale implicit tokens 时容易出现的不稳定与塌缩(latent 语义变得同质、算子信息丢失、复杂推理失效)这一关键难题,作者团队提出一个新的视角:隐式推理的质量,与其「可对齐的逐步语义」成正比。换句话说,如果每个隐式 latent 真的在做第 k 步推理,那么它就应该能被一个轻量的解码器「翻译」回对应的显式步骤(比如产生关键算子、关系、子目标),从而让 latent 不再是黑盒的连续向量,而是具备可控的推理结构。

基于这一动机,作者团队提出 SIM-CoT 的训练框架:在训练阶段引入一个辅助 decoder,把每个隐式 latent 与对应的 step-level 推理进行对齐监督(而不是像 Coconut 只监督答案、或像 CODI 更偏轨迹级 / 整体级的粗粒度对齐)。

这样一来,模型在学习「如何答对」的同时,也被强约束去学习「每一步该想什么」,从根源上抑制语义坍缩;更重要的是,推理阶段直接移除 decoder,保持零额外开销,但作者团队依然可以在分析时把隐式步骤解码出来做中间推理可视化,同时获得更强的性能与更稳定的 token scaling 效果。



SIM-CoT 实验结果

作者团队对 SIM-CoT 带来的收益做了系统评估,结论非常明确:更准、更稳、还更省 token。

(i)GPT-2 上:首次做到「隐式 CoT 反超显式 CoT」,且 token 更省。

在 in-domain 的 GSM8k-Aug 上,SIM-CoT(以 Coconut 为骨干)把准确率从 36.6% 提升到 44.8%(+8.2),同时也超过显式 SFT-CoT 的 42.7%;并且保持隐式推理的低 token 开销(平均 token 远低于 SFT-CoT),论文总结为 2.3× token efficiency。

(ii)Out-of-domain 泛化更稳:整体平均提升显著。

在 GSM-Hard / MultiArith / SVAMP 三个外推数据集上,SIM-CoT(Coconut 骨干)的 out-of-domain 平均准确率从 42.6% 提升到 46.9%(+4.3),说明它并不是「只会背训练域步骤」,而是确实把 latent 空间推理做扎实了。

(iii)在更强的隐式基线与更大模型上依然有增益,并显著提升稳定性。

在 GPT-2 上叠加到 CODI 之上也能继续涨(in-domain +0.6,out-of-domain 平均 +0.3);扩展到 LLaMA 3.2 3B 时依然稳定带来 +1.5(in-domain)/+0.7(out-of-domain 平均) 的提升;论文也报告在 LLaMA-3.1 8B 上对 CODI 提升 +3.0。

(iv)效率不打折:推理阶段无额外开销,还更快。

因为辅助 decoder 只在训练期使用,推理期移除,所以 SIM-CoT 推理效率与其他隐式方法一致;同时在 GPT-2 上相对显式 CoT 仍体现出明显速度优势。







图三:作者团队在 GPT-2 以及 LLaMA 1B/3B/8B 基座上系统验证了 SIM-CoT 的性能提升,结果表明该方法在不同模型规模下均稳定有效。

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
松下卫浴卢瑞东:技术的真正价值,是每一个功能都被用户高频使用

松下卫浴卢瑞东:技术的真正价值,是每一个功能都被用户高频使用

中国家电网
2026-04-03 16:19:37
「逝者」85岁陈丽华去世:系“唐僧”迟重瑞之妻,曾以505亿元成中国女首富

「逝者」85岁陈丽华去世:系“唐僧”迟重瑞之妻,曾以505亿元成中国女首富

界面新闻
2026-04-07 13:08:04
车辆坠河致5人遇难,包括一家三口

车辆坠河致5人遇难,包括一家三口

中国新闻周刊
2026-04-07 13:00:03
突发 | 食其家创始人,心梗去世!

突发 | 食其家创始人,心梗去世!

天津广播
2026-04-07 12:29:11
王楚钦夺冠不到24小时,坏消息来袭!世界乒联公布,国乒仅存2人

王楚钦夺冠不到24小时,坏消息来袭!世界乒联公布,国乒仅存2人

宝哥精彩赛事
2026-04-07 07:22:29
太悲伤!网传江苏一22岁女生刚毕业工作已定,突发主动脉夹层去世

太悲伤!网传江苏一22岁女生刚毕业工作已定,突发主动脉夹层去世

火山詩话
2026-04-07 09:37:00
中惠保险经纪公司董事长史亚政逝世,享年55岁

中惠保险经纪公司董事长史亚政逝世,享年55岁

界面新闻
2026-04-07 14:20:17
比失业更可怕的是工资倒退,深圳的工资已经降到了10年前

比失业更可怕的是工资倒退,深圳的工资已经降到了10年前

细说职场
2026-04-07 11:32:47
不要错过!4月7日晚上19:30比赛!中央5套CCTV5、CCTV5+直播表

不要错过!4月7日晚上19:30比赛!中央5套CCTV5、CCTV5+直播表

宝哥精彩赛事
2026-04-07 12:15:59
浴巾发现用过的“伟哥”……女子住桔子酒店,一夜换三次房

浴巾发现用过的“伟哥”……女子住桔子酒店,一夜换三次房

政法频道
2026-04-07 12:56:31
易中天,获奖励20万元

易中天,获奖励20万元

极目新闻
2026-04-06 21:04:19
“中国紫檀女王”陈丽华逝世,曾是中国女首富,47岁时倒追“唐僧”迟重瑞,晚年每天生活费10元

“中国紫檀女王”陈丽华逝世,曾是中国女首富,47岁时倒追“唐僧”迟重瑞,晚年每天生活费10元

极目新闻
2026-04-07 12:39:33
陈丽华身价500亿坐拥北京一条街,婚后给丈夫定三条规矩

陈丽华身价500亿坐拥北京一条街,婚后给丈夫定三条规矩

老呶侃史
2026-01-05 18:56:38
苹果iPhone Fold折叠屏开始试产 12月全球开售

苹果iPhone Fold折叠屏开始试产 12月全球开售

PChome电脑之家
2026-04-07 11:18:51
郑丽文今日访陆,其彝族背景引发热议,多年前曾回云南祭祖

郑丽文今日访陆,其彝族背景引发热议,多年前曾回云南祭祖

海峡导报社
2026-04-07 10:13:04
伊朗坠机美军上校:腿伤走7公里爬2100米山脊 高级求生训练底子厚

伊朗坠机美军上校:腿伤走7公里爬2100米山脊 高级求生训练底子厚

劲爆体坛
2026-04-07 06:06:04
同事介绍他堂妹给我,约会时才发现,我们小时候是睡一张床的玩伴

同事介绍他堂妹给我,约会时才发现,我们小时候是睡一张床的玩伴

黑猫故事所
2025-06-28 14:39:07
快讯!伊朗伊斯兰革命卫队重大战报!

快讯!伊朗伊斯兰革命卫队重大战报!

达文西看世界
2026-04-07 11:14:57
73岁迟重瑞近况:卖故宫旁自家房子,均价15万,陈丽华嫁他好福气

73岁迟重瑞近况:卖故宫旁自家房子,均价15万,陈丽华嫁他好福气

一娱三分地
2026-02-19 17:04:30
中国国民党主席郑丽文率团抵达上海,并赴南京

中国国民党主席郑丽文率团抵达上海,并赴南京

三湘都市报
2026-04-07 13:24:16
2026-04-07 15:03:00
机器之心Pro incentive-icons
机器之心Pro
专业的人工智能媒体
12700文章数 142616关注度
往期回顾 全部

科技要闻

满嘴谎言!OpenAI奥特曼黑料大起底

头条要闻

美被困飞行员靠定位器求救 回答其父私密问题验明身份

头条要闻

美被困飞行员靠定位器求救 回答其父私密问题验明身份

体育要闻

官宣签约“AI球员”,这支球队被骂惨了...

娱乐要闻

张艺上浪姐惹争议 黄景瑜前妻发文内涵

财经要闻

2026年,全国租房市场还有波降价潮

汽车要闻

不止是大 极狐首款MPV问道V9静态体验

态度原创

手机
游戏
教育
时尚
军事航空

手机要闻

你们都错了!REDMI K90再添新成员,卢伟冰又换玩法了

《红色沙漠》玩家发现新乐子:用苹果引诱NPC跳崖!

教育要闻

突发:南京又有机构突然闭店!家长遇到机构暴雷,该如何挽回损失?

今年最火的4双平底鞋,配白裙子穿好看又松弛!

军事要闻

美军营救飞行员出动155架飞机

无障碍浏览 进入关怀版