网易首页 > 网易号 > 正文 申请入驻

算力成本大降!马尔可夫思考机来了,LLM推理成本直接降为线性

0
分享至



机器之心报道

编辑:Panda

用强化学习让 LLM 具备推理(reasoning)能力确实很有效,但耗费颇高。

这类模型在回答问题前会生成一长串的思维链(LongCoT);并且增加「思考 token」 的数量能够提升模型的能力。与任何强化学习问题一样,它存在一个决定轨迹如何生成的环境。

对于推理 LLM 而言,这个环境相当简单,以至于常常被忽略:状态(state)是由提示词(prompt)与截至目前已生成的推理 token 拼接而成,而动作(action)则是从策略(即推理 LLM)中采样的下一个 token。

这种设计看似轻巧,但却可能导致状态的大小没有边界 —— 会随着思考过程的加长而不断增长。对于基于注意力机制的策略来说,这意味着整个过程中的计算量会面临令人望而却步的二次级增长。

为了降低推理 LLM 长思考的计算量,人们已经提出了许多方法,包括使用带有长度正则化的目标函数、剪枝或早停方法等。

而近日,Mila 和微软研究院等多家机构的一个联合研究团队却另辟蹊径,提出了一个不同的问题:如果环境从一开始就不会造成计算量的二次级增长呢?

他们提出了一种新的范式,其中策略会在基于一个固定大小的状态上进行推理。他们将这样的策略命名为马尔可夫式思考机(Markovian Thinker)



  • 论文标题:The Markovian Thinker
  • 论文地址:https://arxiv.org/abs/2510.06557v1
  • 模型地址:https://huggingface.co/collections/McGill-NLP/the-markovian-thinker-68debd2919c4ae47f50706cd
  • 代码仓库:https://github.com/McGill-NLP/the-markovian-thinker

这项研究的三位共一作者之一的 Amirhossein Kazemnejad 在 上表示,Delethink 的有效性开启了强化学习思维环境的创新。此外,马尔可夫思维的程度及其有效性表明,推理 LLM 可以以不同的方式构建,或许可以采用非二次架构



马尔可夫式思考机

马尔可夫式思考机的核心思想是重构强化学习的构成形式,使得无论总思考长度如何,策略读取的有效状态大小都是有界的。其直接效果是深远的:更长的思考过程仅需线性的计算量和恒定的内存,这与思考长度有关,从而将「模型思考多久」与「它必须处理多少上下文」这两个问题解耦。

他们通过Delethink这一范式对思想进行了实例化。它是一个强化学习环境,通过将推理过程组织成一系列固定大小的区块(chunk)来引导马尔可夫行为。



Delethink 将思维强化学习环境重新定义为一个分块的、马尔可夫式的过程:其生成过程以固定大小的区块 (chunk) 进行,在每个区块的边界处,环境会将上下文 (context) 重置为一个全新的提示词,该提示词包含原始查询以及一小段来自前一个区块的延续内容。

这会迫使策略 (policy) 必须学会通过维持一个文本状态来跨区块推进思考,从而创建一个「马尔可夫式思考机」 (Markovian Thinker)。

相比之下,LongCoT 环境会无限制地拼接 token,因此其状态(以及模型上下文)会随着轨迹 (trace) 的延长而不断增长。

算法 1 的伪代码展示了对单个查询的训练过程。



更多细节请访问原论文。总之,经过这样的设计,在 Delethink 中的生成和用于更新策略的反向传播两个阶段都是线性 scaling 的,而在 LongCoT 中则是二次级的。下图展示了当思考长度从 n token 增长到 nS token 时,LongCoT 和 Delethink 的 FLOP、内存、反向传播时间、生成时间的变化情况。



效果显著

该团队进行了实验:Delethink 的效果非常显著。即便以 8K 大小的区块进行推理,使用 Delethink 训练的 DeepSeek R1-Distill 1.5B 模型依然可以思考长达 24K token,在相同的 24K 思考预算下,其在数学基准测试上的表现能达到并超过 LongCoT-RL。





在测试时扩展方面,Delethink 在 LongCoT-RL 性能饱和时仍能持续提升,带来了额外的增益。



更进一步,他们使用 Delethink 训练 R1-Distill 1.5B 模型进行长达 96K token 的思考;仅需少量额外的训练步骤,它就在 AIME’24 上达到了 49% 的准确度,其解题过程平均长度为 36K token。



线性计算带来的效果是显著的:他们根据实验数据估计,对于平均 94K 的思考长度,LongCoT-RL 训练需要 27 个 H100 - 月,而使用 Delethink 则仅需 7 个 H100 - 月。

为什么有效?

为了探究 Delethink 训练有效的原因,他们还分析了模型在强化学习初始化阶段的表现。

他们观察到,R1-Distill 系列模型(1.5B-14B) 在没有任何额外训练或提示的情况下已经能够零样本(zero-shot)地采样出马尔可夫式的轨迹,甚至恢复了大部分标准 LongCoT 的性能。



这种强大的初始化(即大量符合期望行为的、分布内的正向样本)为强化学习提供了一个有利的起点。

他们进一步在 Delethink 环境中研究了参数量高达 120B 的推理模型。例如,GPT-OSS 120B(Agarwal et al., 2025)在博士水平问题、编程任务、数学竞赛和填字游戏等多个领域都表现出稳健的马尔可夫式思考能力。

这些结果共同表明,Delethink 能与最先进的模型兼容,并能随之扩展。

结语

马尔可夫式思考的成功表明,将思考长度与上下文大小解耦原则上可以让下一代推理模型进行数百万 token 的思考。它凸显了通常被视为固定不变的强化学习环境,实际上是推动进步的强大杠杆。

这也表明,非二次级复杂度的序列架构可能会让推理模型受益尤多,因为思考过程可以被有效地转化为马尔可夫式的。

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
台军对美军购F-16V战机“交机0”,民众党讽:有人这样做生意的吗

台军对美军购F-16V战机“交机0”,民众党讽:有人这样做生意的吗

海峡导报社
2025-11-02 15:19:04
许昌胖东来生活广场内突发伤人事件,多方回应

许昌胖东来生活广场内突发伤人事件,多方回应

澎湃新闻
2025-11-03 12:58:08
31岁升正处,“80后”段红丽获提拔

31岁升正处,“80后”段红丽获提拔

新京报政事儿
2025-11-02 23:27:10
刚联手就闯大祸!李在明被高市早苗坑惨,中方这一次不会手下留情

刚联手就闯大祸!李在明被高市早苗坑惨,中方这一次不会手下留情

坠入二次元的海洋
2025-11-03 12:27:30
米切尔轰37+8三分仍无缘今日最佳!对不起,你碰到创纪录的卢卡了

米切尔轰37+8三分仍无缘今日最佳!对不起,你碰到创纪录的卢卡了

世界体育圈
2025-11-03 13:18:08
中国代练全球化大迁移,“赛博黑奴”时代来临

中国代练全球化大迁移,“赛博黑奴”时代来临

酷玩实验室
2025-10-27 11:14:38
山姆APP更新惹争议:被指图片失真、交互繁琐,一周前中国区刚换帅

山姆APP更新惹争议:被指图片失真、交互繁琐,一周前中国区刚换帅

蓝鲸新闻
2025-11-03 15:31:14
不夺冠就走?外媒:斯卢茨基愿回欧洲执教,有合适报价可离开申花

不夺冠就走?外媒:斯卢茨基愿回欧洲执教,有合适报价可离开申花

国足风云
2025-11-03 11:26:14
学生校门口买淀粉肠 电动车钥匙被学校工作人员当场收走 学校回应:已成立工作专班

学生校门口买淀粉肠 电动车钥匙被学校工作人员当场收走 学校回应:已成立工作专班

闪电新闻
2025-11-03 11:21:29
33岁吴倩怎么老成这样了?素颜衰老秃顶明显,与李佳航对戏表情严肃

33岁吴倩怎么老成这样了?素颜衰老秃顶明显,与李佳航对戏表情严肃

八星人
2025-11-03 14:41:57
官宣离婚2年后,夺回女儿抚养权的章子怡,没给汪峰留一丝体面

官宣离婚2年后,夺回女儿抚养权的章子怡,没给汪峰留一丝体面

说历史的老牢
2025-10-28 15:02:45
32万年终奖变成3千我没闹,每天准时上下班,再也不维护公司程序

32万年终奖变成3千我没闹,每天准时上下班,再也不维护公司程序

小秋情感说
2025-11-01 18:30:30
社会因为缺钱,已出现这4个明显的变化,你有没有注意到?

社会因为缺钱,已出现这4个明显的变化,你有没有注意到?

猫叔东山再起
2025-11-03 09:40:03
郑丽文抛重磅,第四波人事出炉,连胜文重用无望,卢秀燕无地自容

郑丽文抛重磅,第四波人事出炉,连胜文重用无望,卢秀燕无地自容

原来仙女不讲理
2025-11-03 12:37:25
她是我见过且认为在整个东亚最漂亮的女人

她是我见过且认为在整个东亚最漂亮的女人

小椰的奶奶
2025-11-03 14:38:30
台湾网友质疑:我们日子过得明明挺好,为什么还要回归?

台湾网友质疑:我们日子过得明明挺好,为什么还要回归?

扶苏聊历史
2025-10-30 13:39:37
中国正在上演的诡异经济

中国正在上演的诡异经济

难得君
2025-10-29 19:26:55
山姆一张不雅照,刺痛3亿中产!

山姆一张不雅照,刺痛3亿中产!

广告案例精选
2025-11-02 17:37:27
许绍雄出殡时间已定,家属呼吁:别送花篮直接给钱,原因让人泪目

许绍雄出殡时间已定,家属呼吁:别送花篮直接给钱,原因让人泪目

柠檬有娱乐
2025-11-01 13:48:49
从张家界赤裸裸搞钱的所长到怀化蛮横扣人的所长,都有湘西遗风

从张家界赤裸裸搞钱的所长到怀化蛮横扣人的所长,都有湘西遗风

细雨中的呼喊
2025-11-03 12:02:05
2025-11-03 17:31:00
机器之心Pro incentive-icons
机器之心Pro
专业的人工智能媒体
11631文章数 142497关注度
往期回顾 全部

科技要闻

余承东内部信:鸿蒙下一步要实现上亿覆盖

头条要闻

特朗普称靠关税阻止8场战争 遭反问"为何对普京没用"

头条要闻

特朗普称靠关税阻止8场战争 遭反问"为何对普京没用"

体育要闻

开拓者官宣召回杨瀚森 队记解析核心原因

娱乐要闻

录音彻底揭露知名导演王家卫的体面

财经要闻

最新省市GDP:谁在飙升,谁掉队了?

汽车要闻

超跑同款磁流变减振 深蓝L06包你开得爽

态度原创

时尚
数码
亲子
游戏
军事航空

秋季穿衣别太老气横秋,看看这27套造型,时尚舒适又显高

数码要闻

Steam 10月软硬件调查:RTX 3060居首、AMD CPU持续逼近Intel!

亲子要闻

第一次听到婴儿尖叫

曝GTA6或将再次跳票!知情人士:开发人员还在赶工

军事要闻

美总统威胁对尼日利亚动武 尼方回应

无障碍浏览 进入关怀版