网易首页 > 网易号 > 正文 申请入驻

突破单链思考上限,清华团队提出原生「并行思考」scale范式

0
分享至



近年来,大语言模型(LLMs)在复杂推理任务上的能力突飞猛进,这在很大程度上得益于深度思考的策略,即通过增加测试时(test-time)的计算量,让模型生成更长的思维链(Chain-of-Thought)。

然而,这条路径正面临着一个明显的瓶颈:随着计算资源的持续投入,性能提升变得微乎其微,甚至陷入停滞。

来自清华大学 AIR 的一篇最新研究论文《ParaThinker: Native Parallel Thinking as a New Paradigm to Scale LLM Test-time Compute》对这一瓶颈发起了挑战 。



该研究一针见血地指出,这个单链 test time scaling 的天花板并非模型能力的固有极限,而是源于当前顺序推理策略的根本缺陷 —— 一种被研究者称为「隧道视野」(Tunnel Vision)的现象。

为此,团队提出了模型原生的并行化思考方案,训练 LLM 在一次推理中同时生成和综合多个不同的推理路径,从而有效规避「隧道视野」问题,解锁模型潜在的推理能力。

该研究证明,与串行扩展计算深度相比,并行扩展计算宽度是一种更有效、更高效的推理策略。



  • 论文标题:
  • ParaThinker: Native Parallel Thinking as a New Paradigm to Scale LLM Test-time Compute
  • 作者:Hao Wen*, Yifan Su*, Feifei Zhang, Yunxin Liu, Yunhao Liu, Ya-Qin Zhang, Yuanchun Li (*Equal Contribution)
  • 机构:清华大学
  • 论文地址:https://arxiv.org/pdf/2509.04475

隧道视野:深度思考的阿喀琉斯之踵

扩展瓶颈(Scaling Bottleneck):如下图所示,对于单个推理路径(P=1),当投入的计算资源(即 Token 预算)超过一定限度后,模型准确率便不再提升,甚至可能下降,这表明「想得更久」并不能持续带来回报。



隧道视野(Tunnel Vision):LLM 在生成思维链的初期,一旦迈出有瑕疵的第一步,就很容易被锁定在一条次优的推理路径上,难以在后续步骤中纠正或发现更优的解法 。模型仿佛走进了一条狭窄的隧道,无论走多远,都无法摆脱最初错误方向的束缚。

如下图 (b) 所示,研究者进行了一项实验:他们故意让模型从一个错误的推理前缀开始继续生成答案。结果显示,错误的前缀越长,模型最终能够 “拨乱反正” 得到正确答案的概率就越低。这证明了 LLM 一旦陷入错误的思维定式,就很难自行跳出。



新范式:从「深度」到「广度」

原生并行思考(Native Parallel Thinking)的核心思想是,与其让模型在一条路径上「死磕」,不如让它同时探索多条不同思路的推理路径,最后再综合提炼出最优答案。

为此,研究团队推出了一个名为 ParaThinker 的端到端框架。该框架能够训练 LLM 在一个统一的前向传播过程中,并行生成多个多样化的推理路径,并将它们融合成一个更高质量的最终答案。

ParaThinker 的实现主要依靠三大核心创新:





此外,一个关键的工程优势在于,ParaThinker 在汇总阶段能够重用并行推理过程中生成的 KV 缓存。这极大地节省了计算资源,避免了昂贵的重新计算(re-prefilling),使得整个过程的延迟开销极小。

超越 Majority Voting 与简单任务分解

并行推理并非一个全新的概念,类似「多数投票」(Majority Voting)的方法早已被用于提升模型在选择题或数值计算等任务上的表现。但这类方法的局限性也十分明显:它们依赖于可被轻易量化和验证的答案格式,而对于代码生成、数学证明、复杂智能体工作流等开放式、生成式的任务则束手无策。

ParaThinker 的优越性正在于此。它不是简单地对多个独立结果进行投票,而是学习如何智能地「整合」与「提炼」来自不同推理过程的信息。这使其成为一种更通用、更强大的并行推理框架,能够处理无法被简单投票的复杂任务,真正释放了并行思考的潜力。

在并行推理的探索道路上,除了 ParaThinker,近年来也涌现出其他值得关注的思路,例如以 Multiverse(https://arxiv.org/abs/2506.09991)为代表的工作,但其主要目标侧重效率:根据原文分析,这些方法的主要目标是加速生成过程,即让模型「做得快」,而不是直接致力于提升最终答案的准确性。

此外,其任务分解依赖任务结构:它们的成功很大程度上依赖于任务本身是否适合被显式地分解。对于许多不可分解的、需要整体性思维的复杂问题,这种方法的适用性便会受限。

相比之下,ParaThinker 提供了一种更具普适性的并行范式。它不假设任何子任务结构,也不试图对问题进行拆解。ParaThinker 的核心目标是通过思维的多样性来提升准确性。

实验结果:正确率随思维广度有效提升

在 AIME、AMC、MATH-500 等难度基准上,1.5B 参数模型用 8 条并行路径,平均准确率提升12.3%;7B 模型提升7.5%



延迟开销较低:推理延迟并不随着同时思维链数而线性增长,在 batch size=1 时,并行路径数增加了 8 倍,但延迟仅增加了约 10%,这体现了并行计算在硬件层面的巨大优势。



与多数投票(Majority Voting)的结合

ParaThinker 与 majority voting 策略(即生成 k 个独立答案,选择出现次数最多的那个)并不冲突,两者叠加可以达到更高的正确率。



ParaThinker 教会大模型像人类一样「头脑风暴」,并行探索多种思路,再整合成最优答案。它预示着未来 LLM 的规模化发展之路,将从单纯的「深度」扩展转向更有效的「广度」扩展。

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
婚姻事业全无,沉默4年后,赵薇罕见参加婚礼,49岁的她面相全变

婚姻事业全无,沉默4年后,赵薇罕见参加婚礼,49岁的她面相全变

boss外传
2025-11-12 16:00:03
东契奇谈尼科下课:我曾以为我会永远留在达拉斯,那里永远是我的家

东契奇谈尼科下课:我曾以为我会永远留在达拉斯,那里永远是我的家

懂球帝
2025-11-13 14:11:05
华为新技术刚公布,就要被退场了!

华为新技术刚公布,就要被退场了!

科技堡垒
2025-11-12 11:10:14
佩服郑丽文的勇气!苏起认同两岸谈判方向:过程并不简单

佩服郑丽文的勇气!苏起认同两岸谈判方向:过程并不简单

海峡导报社
2025-11-13 16:39:29
全红婵家别墅正式封顶,无人机环绕广告覆盖,令人不适的事发生

全红婵家别墅正式封顶,无人机环绕广告覆盖,令人不适的事发生

法老不说教
2025-11-12 19:24:02
苏丹爆发大屠杀!伏尸百万堆积如山,血洗法希尔为何无人敢拦

苏丹爆发大屠杀!伏尸百万堆积如山,血洗法希尔为何无人敢拦

史纪文谭
2025-11-12 11:32:23
马库斯在中国寒心了!和平展遭破坏并强制收费,成都官方评论沦陷

马库斯在中国寒心了!和平展遭破坏并强制收费,成都官方评论沦陷

阿纂看事
2025-11-13 13:09:39
国际奥委会急了?中国“不伺候了”,自家全运会办成奥运天花板!

国际奥委会急了?中国“不伺候了”,自家全运会办成奥运天花板!

古史青云啊
2025-11-13 14:13:56
涉赌诈头目佘智江(湖南出生,后获柬埔寨国籍)被引渡回中国,涉案资金超2.7万亿元,曾参与投资开发KK园区

涉赌诈头目佘智江(湖南出生,后获柬埔寨国籍)被引渡回中国,涉案资金超2.7万亿元,曾参与投资开发KK园区

大象新闻
2025-11-12 20:46:22
震惊!河南临颍县设定“萝卜坑”招聘一文职参谋,网友们沸腾了…

震惊!河南临颍县设定“萝卜坑”招聘一文职参谋,网友们沸腾了…

火山诗话
2025-11-13 14:47:42
离婚六年偶遇前岳母在卖菜,我塞给她两万块,隔天前妻的快递到了

离婚六年偶遇前岳母在卖菜,我塞给她两万块,隔天前妻的快递到了

涛哥讲堂
2025-11-11 16:00:58
车比人贵!她撞人后不是救人,而是心疼摩托车,全网炸了

车比人贵!她撞人后不是救人,而是心疼摩托车,全网炸了

热点菌本君
2025-11-12 14:48:34
套路太深!知名软件被指看人下菜,你的电脑正沦为“提款机”

套路太深!知名软件被指看人下菜,你的电脑正沦为“提款机”

电脑报
2025-11-12 17:30:28
后续!男子在地铁站里当众脱裤大便,身份被扒,地铁官方紧急回应

后续!男子在地铁站里当众脱裤大便,身份被扒,地铁官方紧急回应

鋭娱之乐
2025-11-12 20:50:55
小孩试戴金镯10秒被索赔1000元,中国黄金回应

小孩试戴金镯10秒被索赔1000元,中国黄金回应

第一财经资讯
2025-11-13 13:26:15
外媒:特朗普威胁诉讼后,斯塔默呼吁BBC“整顿”

外媒:特朗普威胁诉讼后,斯塔默呼吁BBC“整顿”

参考消息
2025-11-13 11:33:07
约基奇55+12+6无缘今日最佳!文班31+三双落选,只因库里刷爆纪录

约基奇55+12+6无缘今日最佳!文班31+三双落选,只因库里刷爆纪录

你的篮球频道
2025-11-13 14:15:34
一年狂飙21万公里,电池仅衰减5%,小米SU7车主刷新了科学

一年狂飙21万公里,电池仅衰减5%,小米SU7车主刷新了科学

木蹊说
2025-11-11 16:06:19
29分惨败!输雷霆让湖人暴露最大缺陷,谁还敢说不需要詹姆斯?

29分惨败!输雷霆让湖人暴露最大缺陷,谁还敢说不需要詹姆斯?

小路看球
2025-11-13 16:57:43
泪目,C罗重磅官宣41岁告别世界杯,1.83亿年薪也难弥补毕生遗憾

泪目,C罗重磅官宣41岁告别世界杯,1.83亿年薪也难弥补毕生遗憾

削桐作琴
2025-11-12 18:25:46
2025-11-13 17:16:49
机器之心Pro incentive-icons
机器之心Pro
专业的人工智能媒体
11708文章数 142505关注度
往期回顾 全部

科技要闻

深夜重磅!GPT-5.1发布,奥特曼大谈情商

头条要闻

外交部:如日方胆敢武力介入台海 中方必将迎头痛击

头条要闻

外交部:如日方胆敢武力介入台海 中方必将迎头痛击

体育要闻

保罗,看看你对马刺干的好事!

娱乐要闻

古二曝秦雯多次炫耀袭警经历

财经要闻

源峰25亿赌局!汉堡王中国"卖身"求生

汽车要闻

具备高阶辅助驾驶功能 欧拉5预售价10.98万起

态度原创

健康
教育
游戏
时尚
房产

血液科专家揭秘白血病七大误区

教育要闻

两次运用等高模型求解,有难度

《苍翼:混沌效应X》稳了?正传编剧参与创作

今年最好看的4件大衣!

房产要闻

8200元/㎡!海口宝龙城,彻底杀疯了!

无障碍浏览 进入关怀版