网易首页 > 网易号 > 正文 申请入驻

算力成本大降!马尔可夫思考机来了,LLM推理成本直接降为线性

0
分享至



机器之心报道

编辑:Panda

用强化学习让 LLM 具备推理(reasoning)能力确实很有效,但耗费颇高。

这类模型在回答问题前会生成一长串的思维链(LongCoT);并且增加「思考 token」 的数量能够提升模型的能力。与任何强化学习问题一样,它存在一个决定轨迹如何生成的环境。

对于推理 LLM 而言,这个环境相当简单,以至于常常被忽略:状态(state)是由提示词(prompt)与截至目前已生成的推理 token 拼接而成,而动作(action)则是从策略(即推理 LLM)中采样的下一个 token。

这种设计看似轻巧,但却可能导致状态的大小没有边界 —— 会随着思考过程的加长而不断增长。对于基于注意力机制的策略来说,这意味着整个过程中的计算量会面临令人望而却步的二次级增长。

为了降低推理 LLM 长思考的计算量,人们已经提出了许多方法,包括使用带有长度正则化的目标函数、剪枝或早停方法等。

而近日,Mila 和微软研究院等多家机构的一个联合研究团队却另辟蹊径,提出了一个不同的问题:如果环境从一开始就不会造成计算量的二次级增长呢?

他们提出了一种新的范式,其中策略会在基于一个固定大小的状态上进行推理。他们将这样的策略命名为马尔可夫式思考机(Markovian Thinker)



  • 论文标题:The Markovian Thinker
  • 论文地址:https://arxiv.org/abs/2510.06557v1
  • 模型地址:https://huggingface.co/collections/McGill-NLP/the-markovian-thinker-68debd2919c4ae47f50706cd
  • 代码仓库:https://github.com/McGill-NLP/the-markovian-thinker

这项研究的三位共一作者之一的 Amirhossein Kazemnejad 在 上表示,Delethink 的有效性开启了强化学习思维环境的创新。此外,马尔可夫思维的程度及其有效性表明,推理 LLM 可以以不同的方式构建,或许可以采用非二次架构



马尔可夫式思考机

马尔可夫式思考机的核心思想是重构强化学习的构成形式,使得无论总思考长度如何,策略读取的有效状态大小都是有界的。其直接效果是深远的:更长的思考过程仅需线性的计算量和恒定的内存,这与思考长度有关,从而将「模型思考多久」与「它必须处理多少上下文」这两个问题解耦。

他们通过Delethink这一范式对思想进行了实例化。它是一个强化学习环境,通过将推理过程组织成一系列固定大小的区块(chunk)来引导马尔可夫行为。



Delethink 将思维强化学习环境重新定义为一个分块的、马尔可夫式的过程:其生成过程以固定大小的区块 (chunk) 进行,在每个区块的边界处,环境会将上下文 (context) 重置为一个全新的提示词,该提示词包含原始查询以及一小段来自前一个区块的延续内容。

这会迫使策略 (policy) 必须学会通过维持一个文本状态来跨区块推进思考,从而创建一个「马尔可夫式思考机」 (Markovian Thinker)。

相比之下,LongCoT 环境会无限制地拼接 token,因此其状态(以及模型上下文)会随着轨迹 (trace) 的延长而不断增长。

算法 1 的伪代码展示了对单个查询的训练过程。



更多细节请访问原论文。总之,经过这样的设计,在 Delethink 中的生成和用于更新策略的反向传播两个阶段都是线性 scaling 的,而在 LongCoT 中则是二次级的。下图展示了当思考长度从 n token 增长到 nS token 时,LongCoT 和 Delethink 的 FLOP、内存、反向传播时间、生成时间的变化情况。



效果显著

该团队进行了实验:Delethink 的效果非常显著。即便以 8K 大小的区块进行推理,使用 Delethink 训练的 DeepSeek R1-Distill 1.5B 模型依然可以思考长达 24K token,在相同的 24K 思考预算下,其在数学基准测试上的表现能达到并超过 LongCoT-RL。





在测试时扩展方面,Delethink 在 LongCoT-RL 性能饱和时仍能持续提升,带来了额外的增益。



更进一步,他们使用 Delethink 训练 R1-Distill 1.5B 模型进行长达 96K token 的思考;仅需少量额外的训练步骤,它就在 AIME’24 上达到了 49% 的准确度,其解题过程平均长度为 36K token。



线性计算带来的效果是显著的:他们根据实验数据估计,对于平均 94K 的思考长度,LongCoT-RL 训练需要 27 个 H100 - 月,而使用 Delethink 则仅需 7 个 H100 - 月。

为什么有效?

为了探究 Delethink 训练有效的原因,他们还分析了模型在强化学习初始化阶段的表现。

他们观察到,R1-Distill 系列模型(1.5B-14B) 在没有任何额外训练或提示的情况下已经能够零样本(zero-shot)地采样出马尔可夫式的轨迹,甚至恢复了大部分标准 LongCoT 的性能。



这种强大的初始化(即大量符合期望行为的、分布内的正向样本)为强化学习提供了一个有利的起点。

他们进一步在 Delethink 环境中研究了参数量高达 120B 的推理模型。例如,GPT-OSS 120B(Agarwal et al., 2025)在博士水平问题、编程任务、数学竞赛和填字游戏等多个领域都表现出稳健的马尔可夫式思考能力。

这些结果共同表明,Delethink 能与最先进的模型兼容,并能随之扩展。

结语

马尔可夫式思考的成功表明,将思考长度与上下文大小解耦原则上可以让下一代推理模型进行数百万 token 的思考。它凸显了通常被视为固定不变的强化学习环境,实际上是推动进步的强大杠杆。

这也表明,非二次级复杂度的序列架构可能会让推理模型受益尤多,因为思考过程可以被有效地转化为马尔可夫式的。

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
于和伟演完《沉默的荣耀》后,台湾观众竟这样称呼他

于和伟演完《沉默的荣耀》后,台湾观众竟这样称呼他

冷紫葉
2025-11-03 18:24:45
不出意外的话!苏林会成为第二个黎笋

不出意外的话!苏林会成为第二个黎笋

近史谈
2025-11-02 18:54:35
郑丽文最新表态

郑丽文最新表态

政知新媒体
2025-11-04 16:13:02
超越小扎!3名22岁小伙成最年轻科技领域亿万富翁,这家数据标注公司什么来头

超越小扎!3名22岁小伙成最年轻科技领域亿万富翁,这家数据标注公司什么来头

澎湃新闻
2025-11-04 13:50:26
“安世大劫案”越闹越凶,中方精准反击成功,荷兰政坛暴雷变天

“安世大劫案”越闹越凶,中方精准反击成功,荷兰政坛暴雷变天

趣文说娱
2025-11-04 16:32:05
中国羊肉鄙视链,为什么它成了“天花板”?

中国羊肉鄙视链,为什么它成了“天花板”?

果壳
2025-11-03 16:10:37
中药注射液“大淘汰”,终于来了

中药注射液“大淘汰”,终于来了

围观商业
2025-11-03 17:40:30
撞衫不可怕,谁丑谁尴尬!蓝盈莹蔡文静撞衫!尴尬的扣出三室一厅

撞衫不可怕,谁丑谁尴尬!蓝盈莹蔡文静撞衫!尴尬的扣出三室一厅

小娱乐悠悠
2025-11-04 09:45:02
抄家1070亿!美英韩开始全球搜捕陈志,才知道:网红前女友早看穿

抄家1070亿!美英韩开始全球搜捕陈志,才知道:网红前女友早看穿

热风追逐者
2025-10-27 12:18:15
村里建广场我赞助40万,却发现没我名字我淡定离开,三天后村长懵了

村里建广场我赞助40万,却发现没我名字我淡定离开,三天后村长懵了

眼泪博物
2025-08-22 18:21:23
硬气!王钰栋输球后被球迷训话:当场转身离开,队友都没拉住!

硬气!王钰栋输球后被球迷训话:当场转身离开,队友都没拉住!

邱泽云
2025-11-04 13:53:16
深圳取消重点班!中国教育最清醒的一次自救

深圳取消重点班!中国教育最清醒的一次自救

侃故事的阿庆
2025-11-04 14:04:05
DeepSeek预测:2030年,300万的房子值多少钱?结果让人很意外

DeepSeek预测:2030年,300万的房子值多少钱?结果让人很意外

巢客HOME
2025-11-04 08:10:03
喻恩泰:《沉默的荣耀》一大败笔

喻恩泰:《沉默的荣耀》一大败笔

詹国枢
2025-11-02 08:21:34
突发特讯!缅北白家案一审宣判:5人被判死刑,引发全球高度关注

突发特讯!缅北白家案一审宣判:5人被判死刑,引发全球高度关注

在新加坡生活
2025-11-04 15:58:17
可控核聚变+核电  市盈率最低的10大龙头!或有望成为跨年牛

可控核聚变+核电 市盈率最低的10大龙头!或有望成为跨年牛

元芳说投资
2025-11-04 07:00:07
湖媒高呼艾顿像头野兽!轰29+10+3帽湖人生涯夜 年薪800万太超值

湖媒高呼艾顿像头野兽!轰29+10+3帽湖人生涯夜 年薪800万太超值

颜小白的篮球梦
2025-11-04 13:42:42
苏军如何击败日本兵?一个日本老兵说:苏军的进攻方式太不道德

苏军如何击败日本兵?一个日本老兵说:苏军的进攻方式太不道德

小豫讲故事
2025-11-04 06:00:03
乌克兰两名朝鲜战俘 向韩国“投诚” 开启新的生活

乌克兰两名朝鲜战俘 向韩国“投诚” 开启新的生活

原某报记者
2025-11-03 17:21:05
英国媒体道出真相:中国正在用美国的武器,打赢贸易战争

英国媒体道出真相:中国正在用美国的武器,打赢贸易战争

知鉴明史
2025-11-03 19:18:30
2025-11-04 19:32:49
机器之心Pro incentive-icons
机器之心Pro
专业的人工智能媒体
11647文章数 142497关注度
往期回顾 全部

科技要闻

硅谷甄嬛传:奥特曼优雅挑衅马斯克狠狠回击

头条要闻

上海一老小区居民因加装电梯引争执 调解时一老人猝死

头条要闻

上海一老小区居民因加装电梯引争执 调解时一老人猝死

体育要闻

27岁热刺门将,夺冠后退役当导演

娱乐要闻

爸爸去哪儿6孩子现状,个个不同

财经要闻

作价40亿美元!星巴克中国易主

汽车要闻

把海岸诗意织进日常 法拉利Amalfi重塑超跑生活方式

态度原创

时尚
游戏
本地
亲子
公开课

冬天穿灰色,这8种搭配方式很高级!

国行PS5 Pro百亿补贴!无需领券 比官方还便宜200元

本地新闻

秋颜悦色 | 在榆中,秋天是一场盛大的视觉交响

亲子要闻

幼儿园不让教文化课,这几部动画片也能长知识!

公开课

李玫瑾:为什么性格比能力更重要?

无障碍浏览 进入关怀版