突破单链思考上限，清华团队提出原生「并行思考」scale范式|推理|实验

突破单链思考上限，清华团队提出原生「并行思考」scale范式

2025-09-17 13:00:23　来源: 机器之心Pro

北京举报

分享至

近年来，大语言模型（LLMs）在复杂推理任务上的能力突飞猛进，这在很大程度上得益于深度思考的策略，即通过增加测试时（test-time）的计算量，让模型生成更长的思维链（Chain-of-Thought）。

然而，这条路径正面临着一个明显的瓶颈：随着计算资源的持续投入，性能提升变得微乎其微，甚至陷入停滞。

来自清华大学 AIR 的一篇最新研究论文《ParaThinker: Native Parallel Thinking as a New Paradigm to Scale LLM Test-time Compute》对这一瓶颈发起了挑战。

该研究一针见血地指出，这个单链 test time scaling 的天花板并非模型能力的固有极限，而是源于当前顺序推理策略的根本缺陷 —— 一种被研究者称为「隧道视野」（Tunnel Vision）的现象。

为此，团队提出了模型原生的并行化思考方案，训练 LLM 在一次推理中同时生成和综合多个不同的推理路径，从而有效规避「隧道视野」问题，解锁模型潜在的推理能力。

该研究证明，与串行扩展计算深度相比，并行扩展计算宽度是一种更有效、更高效的推理策略。

论文标题：
ParaThinker: Native Parallel Thinking as a New Paradigm to Scale LLM Test-time Compute
作者：Hao Wen*, Yifan Su*, Feifei Zhang, Yunxin Liu, Yunhao Liu, Ya-Qin Zhang, Yuanchun Li (*Equal Contribution)
机构：清华大学
论文地址：https://arxiv.org/pdf/2509.04475

隧道视野：深度思考的阿喀琉斯之踵

扩展瓶颈（Scaling Bottleneck）：如下图所示，对于单个推理路径（P=1），当投入的计算资源（即 Token 预算）超过一定限度后，模型准确率便不再提升，甚至可能下降，这表明「想得更久」并不能持续带来回报。

隧道视野（Tunnel Vision）：LLM 在生成思维链的初期，一旦迈出有瑕疵的第一步，就很容易被锁定在一条次优的推理路径上，难以在后续步骤中纠正或发现更优的解法。模型仿佛走进了一条狭窄的隧道，无论走多远，都无法摆脱最初错误方向的束缚。

如下图 (b) 所示，研究者进行了一项实验：他们故意让模型从一个错误的推理前缀开始继续生成答案。结果显示，错误的前缀越长，模型最终能够 “拨乱反正” 得到正确答案的概率就越低。这证明了 LLM 一旦陷入错误的思维定式，就很难自行跳出。

新范式：从「深度」到「广度」

原生并行思考（Native Parallel Thinking）的核心思想是，与其让模型在一条路径上「死磕」，不如让它同时探索多条不同思路的推理路径，最后再综合提炼出最优答案。

为此，研究团队推出了一个名为 ParaThinker 的端到端框架。该框架能够训练 LLM 在一个统一的前向传播过程中，并行生成多个多样化的推理路径，并将它们融合成一个更高质量的最终答案。

ParaThinker 的实现主要依靠三大核心创新：

此外，一个关键的工程优势在于，ParaThinker 在汇总阶段能够重用并行推理过程中生成的 KV 缓存。这极大地节省了计算资源，避免了昂贵的重新计算（re-prefilling），使得整个过程的延迟开销极小。

超越 Majority Voting 与简单任务分解

并行推理并非一个全新的概念，类似「多数投票」（Majority Voting）的方法早已被用于提升模型在选择题或数值计算等任务上的表现。但这类方法的局限性也十分明显：它们依赖于可被轻易量化和验证的答案格式，而对于代码生成、数学证明、复杂智能体工作流等开放式、生成式的任务则束手无策。

ParaThinker 的优越性正在于此。它不是简单地对多个独立结果进行投票，而是学习如何智能地「整合」与「提炼」来自不同推理过程的信息。这使其成为一种更通用、更强大的并行推理框架，能够处理无法被简单投票的复杂任务，真正释放了并行思考的潜力。

在并行推理的探索道路上，除了 ParaThinker，近年来也涌现出其他值得关注的思路，例如以 Multiverse（https://arxiv.org/abs/2506.09991）为代表的工作，但其主要目标侧重效率：根据原文分析，这些方法的主要目标是加速生成过程，即让模型「做得快」，而不是直接致力于提升最终答案的准确性。

此外，其任务分解依赖任务结构：它们的成功很大程度上依赖于任务本身是否适合被显式地分解。对于许多不可分解的、需要整体性思维的复杂问题，这种方法的适用性便会受限。

相比之下，ParaThinker 提供了一种更具普适性的并行范式。它不假设任何子任务结构，也不试图对问题进行拆解。ParaThinker 的核心目标是通过思维的多样性来提升准确性。

实验结果：正确率随思维广度有效提升

在 AIME、AMC、MATH-500 等难度基准上，1.5B 参数模型用 8 条并行路径，平均准确率提升12.3%；7B 模型提升7.5%

延迟开销较低：推理延迟并不随着同时思维链数而线性增长，在 batch size=1 时，并行路径数增加了 8 倍，但延迟仅增加了约 10%，这体现了并行计算在硬件层面的巨大优势。

与多数投票（Majority Voting）的结合

ParaThinker 与 majority voting 策略（即生成 k 个独立答案，选择出现次数最多的那个）并不冲突，两者叠加可以达到更高的正确率。

ParaThinker 教会大模型像人类一样「头脑风暴」，并行探索多种思路，再整合成最优答案。它预示着未来 LLM 的规模化发展之路，将从单纯的「深度」扩展转向更有效的「广度」扩展。

特别声明：以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布，本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.