网易首页 > 网易号 > 正文 申请入驻

算力成本大降!马尔可夫思考机来了,LLM推理成本直接降为线性

0
分享至



机器之心报道

编辑:Panda

用强化学习让 LLM 具备推理(reasoning)能力确实很有效,但耗费颇高。

这类模型在回答问题前会生成一长串的思维链(LongCoT);并且增加「思考 token」 的数量能够提升模型的能力。与任何强化学习问题一样,它存在一个决定轨迹如何生成的环境。

对于推理 LLM 而言,这个环境相当简单,以至于常常被忽略:状态(state)是由提示词(prompt)与截至目前已生成的推理 token 拼接而成,而动作(action)则是从策略(即推理 LLM)中采样的下一个 token。

这种设计看似轻巧,但却可能导致状态的大小没有边界 —— 会随着思考过程的加长而不断增长。对于基于注意力机制的策略来说,这意味着整个过程中的计算量会面临令人望而却步的二次级增长。

为了降低推理 LLM 长思考的计算量,人们已经提出了许多方法,包括使用带有长度正则化的目标函数、剪枝或早停方法等。

而近日,Mila 和微软研究院等多家机构的一个联合研究团队却另辟蹊径,提出了一个不同的问题:如果环境从一开始就不会造成计算量的二次级增长呢?

他们提出了一种新的范式,其中策略会在基于一个固定大小的状态上进行推理。他们将这样的策略命名为马尔可夫式思考机(Markovian Thinker)



  • 论文标题:The Markovian Thinker
  • 论文地址:https://arxiv.org/abs/2510.06557v1
  • 模型地址:https://huggingface.co/collections/McGill-NLP/the-markovian-thinker-68debd2919c4ae47f50706cd
  • 代码仓库:https://github.com/McGill-NLP/the-markovian-thinker

这项研究的三位共一作者之一的 Amirhossein Kazemnejad 在 上表示,Delethink 的有效性开启了强化学习思维环境的创新。此外,马尔可夫思维的程度及其有效性表明,推理 LLM 可以以不同的方式构建,或许可以采用非二次架构



马尔可夫式思考机

马尔可夫式思考机的核心思想是重构强化学习的构成形式,使得无论总思考长度如何,策略读取的有效状态大小都是有界的。其直接效果是深远的:更长的思考过程仅需线性的计算量和恒定的内存,这与思考长度有关,从而将「模型思考多久」与「它必须处理多少上下文」这两个问题解耦。

他们通过Delethink这一范式对思想进行了实例化。它是一个强化学习环境,通过将推理过程组织成一系列固定大小的区块(chunk)来引导马尔可夫行为。



Delethink 将思维强化学习环境重新定义为一个分块的、马尔可夫式的过程:其生成过程以固定大小的区块 (chunk) 进行,在每个区块的边界处,环境会将上下文 (context) 重置为一个全新的提示词,该提示词包含原始查询以及一小段来自前一个区块的延续内容。

这会迫使策略 (policy) 必须学会通过维持一个文本状态来跨区块推进思考,从而创建一个「马尔可夫式思考机」 (Markovian Thinker)。

相比之下,LongCoT 环境会无限制地拼接 token,因此其状态(以及模型上下文)会随着轨迹 (trace) 的延长而不断增长。

算法 1 的伪代码展示了对单个查询的训练过程。



更多细节请访问原论文。总之,经过这样的设计,在 Delethink 中的生成和用于更新策略的反向传播两个阶段都是线性 scaling 的,而在 LongCoT 中则是二次级的。下图展示了当思考长度从 n token 增长到 nS token 时,LongCoT 和 Delethink 的 FLOP、内存、反向传播时间、生成时间的变化情况。



效果显著

该团队进行了实验:Delethink 的效果非常显著。即便以 8K 大小的区块进行推理,使用 Delethink 训练的 DeepSeek R1-Distill 1.5B 模型依然可以思考长达 24K token,在相同的 24K 思考预算下,其在数学基准测试上的表现能达到并超过 LongCoT-RL。





在测试时扩展方面,Delethink 在 LongCoT-RL 性能饱和时仍能持续提升,带来了额外的增益。



更进一步,他们使用 Delethink 训练 R1-Distill 1.5B 模型进行长达 96K token 的思考;仅需少量额外的训练步骤,它就在 AIME’24 上达到了 49% 的准确度,其解题过程平均长度为 36K token。



线性计算带来的效果是显著的:他们根据实验数据估计,对于平均 94K 的思考长度,LongCoT-RL 训练需要 27 个 H100 - 月,而使用 Delethink 则仅需 7 个 H100 - 月。

为什么有效?

为了探究 Delethink 训练有效的原因,他们还分析了模型在强化学习初始化阶段的表现。

他们观察到,R1-Distill 系列模型(1.5B-14B) 在没有任何额外训练或提示的情况下已经能够零样本(zero-shot)地采样出马尔可夫式的轨迹,甚至恢复了大部分标准 LongCoT 的性能。



这种强大的初始化(即大量符合期望行为的、分布内的正向样本)为强化学习提供了一个有利的起点。

他们进一步在 Delethink 环境中研究了参数量高达 120B 的推理模型。例如,GPT-OSS 120B(Agarwal et al., 2025)在博士水平问题、编程任务、数学竞赛和填字游戏等多个领域都表现出稳健的马尔可夫式思考能力。

这些结果共同表明,Delethink 能与最先进的模型兼容,并能随之扩展。

结语

马尔可夫式思考的成功表明,将思考长度与上下文大小解耦原则上可以让下一代推理模型进行数百万 token 的思考。它凸显了通常被视为固定不变的强化学习环境,实际上是推动进步的强大杠杆。

这也表明,非二次级复杂度的序列架构可能会让推理模型受益尤多,因为思考过程可以被有效地转化为马尔可夫式的。

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
还没进NBA就破杜兰特记录!你就是今年状元啊!!!

还没进NBA就破杜兰特记录!你就是今年状元啊!!!

柚子说球
2026-03-11 21:56:15
伊朗今天的灾难,是白左当年种下的祸根

伊朗今天的灾难,是白左当年种下的祸根

难得君
2026-03-11 00:16:06
中国反击来了!约谈马士基集团负责人:敢动巴拿马运河后果自负!

中国反击来了!约谈马士基集团负责人:敢动巴拿马运河后果自负!

吕醿极限手工
2026-03-11 11:55:18
队报:伊朗女足一人改主意泄露庇护住所,澳政府随后转移球员

队报:伊朗女足一人改主意泄露庇护住所,澳政府随后转移球员

懂球帝
2026-03-11 20:22:10
史上最贵iPhone登场!iPhone Ultra起售价正式曝光

史上最贵iPhone登场!iPhone Ultra起售价正式曝光

小蜜情感说
2026-03-10 04:11:52
台湾黄征辉:台湾可以和平回归,但大陆要答应2个条件!

台湾黄征辉:台湾可以和平回归,但大陆要答应2个条件!

混沌录
2026-03-10 21:18:10
史诗狂怒行动第二阶段:地下战争

史诗狂怒行动第二阶段:地下战争

南文视界
2026-03-08 22:59:27
第一批“养虾人”后悔了!300元请人卸载,有平台封杀OpenClaw

第一批“养虾人”后悔了!300元请人卸载,有平台封杀OpenClaw

上观新闻
2026-03-11 21:02:20
毫不避讳,
王毅外长正式回应特朗普访华!

毫不避讳, 王毅外长正式回应特朗普访华!

南权先生
2026-03-10 15:26:57
多家券商紧急通知 严控“小龙虾”公司内部安装使用

多家券商紧急通知 严控“小龙虾”公司内部安装使用

财联社
2026-03-11 15:25:11
“我和我老婆同一航班,同一张票是两个价”,全国人大代表李德祥:建议整治大数据杀熟,细化网络不正当竞争的认定标准

“我和我老婆同一航班,同一张票是两个价”,全国人大代表李德祥:建议整治大数据杀熟,细化网络不正当竞争的认定标准

大风新闻
2026-03-11 14:46:03
洗草莓时,有人放食盐,有人放面粉,果农:都不对,教你正确做法

洗草莓时,有人放食盐,有人放面粉,果农:都不对,教你正确做法

阿龙美食记
2026-02-28 10:49:43
妈65岁提离婚爸秒同意,出民政局,爸突然说一事,妹妹表情瞬间变

妈65岁提离婚爸秒同意,出民政局,爸突然说一事,妹妹表情瞬间变

奶茶麦子
2026-03-11 19:51:21
国羽最新战报!NO.1落后时退赛,刚夺冠就1轮游,2对双打开门红!

国羽最新战报!NO.1落后时退赛,刚夺冠就1轮游,2对双打开门红!

刘姚尧的文字城堡
2026-03-11 19:30:13
央视体育主持人上新

央视体育主持人上新

极目新闻
2026-03-11 14:59:20
霍尔木兹海峡,大消息!刚刚,直线飙涨

霍尔木兹海峡,大消息!刚刚,直线飙涨

中国基金报
2026-03-11 19:25:25
刘大锤直播曝白敬亭宋轶分手内幕:别墅里的小板车,搬不动的爱情

刘大锤直播曝白敬亭宋轶分手内幕:别墅里的小板车,搬不动的爱情

舊事別提
2026-03-11 11:29:44
为什么有个漂亮老婆还是想要分 网友讲出自身经历真是一言难尽

为什么有个漂亮老婆还是想要分 网友讲出自身经历真是一言难尽

侃神评故事
2026-03-10 18:50:04
A股:集合竞价是史上唯一不骗人的指标,字字精华,不懂就别炒股

A股:集合竞价是史上唯一不骗人的指标,字字精华,不懂就别炒股

股经纵横谈
2025-11-23 16:57:56
哈佛女博士被打假!伪造学历到处借钱,疑有精神病,私生活太离谱

哈佛女博士被打假!伪造学历到处借钱,疑有精神病,私生活太离谱

阿纂看事
2026-03-11 16:04:22
2026-03-11 22:36:49
机器之心Pro incentive-icons
机器之心Pro
专业的人工智能媒体
12478文章数 142582关注度
往期回顾 全部

科技要闻

腾讯"养虾"暴涨后,百度急得在门口"装虾"

头条要闻

一艘泰国货船在霍尔木兹海峡遭炮火袭击 伊朗强硬表态

头条要闻

一艘泰国货船在霍尔木兹海峡遭炮火袭击 伊朗强硬表态

体育要闻

郭艾伦重伤,CBA下半赛季还能期待些什么

娱乐要闻

田亮一家新年全家福!森碟变清纯少女

财经要闻

唤醒10万亿存量资金 公积金改革大潮来了

汽车要闻

莲花纠偏, 冯擎峰的“收”与“守”

态度原创

数码
游戏
健康
旅游
公开课

数码要闻

存储产能争夺战再升温 AMD欲联手三星电子锁定HBM供给

再战六年 Falcom社长确认《轨迹》系列将在2032年完结

转头就晕的耳石症,能开车上班吗?

旅游要闻

大理古城开展民宿行业专项现场检查

公开课

李玫瑾:为什么性格比能力更重要?

无障碍浏览 进入关怀版