美团LongCat团队：让AI像人类集体讨论一样解题，成绩提升多少？|算法|推理|编程|知名企业|美团longcat团

分享至

这项由美团LongCat团队与北京大学软件工程国家工程研究中心联合开展的研究，以预印本形式于2026年5月4日发布，论文编号为arXiv:2605.02396v1，有兴趣深入了解的读者可通过该编号查询完整论文。

一、当一个AI大脑不够用，为什么不让它"开小组讨论"？

你有没有遇到过这种情况：一道难题自己想了半天没头绪，但和几个朋友一起讨论，大家各自从不同角度分析，最终得出了正确答案。这种"众人拾柴火焰高"的现象，在人类解题中屡见不鲜。美团LongCat团队的研究者们就在想：能不能让AI也用同样的方式来解决复杂问题？

这篇论文提出的核心想法叫做HEAVYSKILL，中文可以理解为"重度思考技能"。它的本质很简单：与其让AI只思考一次就给出答案，不如让AI同时启动多个独立的思维分支，各自解题，然后再由一个"总结者"把所有思路汇总，判断哪个正确，最终给出答案。就像一个班级里，老师把同一道难题交给多个学习小组独立解答，然后召集所有小组汇报结果，最后由老师综合各组的思路做出最权威的判断。

这个思路听起来很直觉，但研究团队做的事远不止"想出这个点子"这么简单。他们系统地研究了这种方式到底有多有效、在哪些情况下最管用、如何把它变成AI可以直接调用的"技能"，还探索了能否通过强化学习进一步强化这种能力。接下来就一步步拆解这项研究。

二、AI智能助手背后的"指挥中心"是怎么工作的？

在理解HEAVYSKILL之前，有必要先了解一下现代AI助手的工作方式。目前主流的AI系统往往不是一个单独的大脑，而更像一个复杂的公司组织架构——有一个"总指挥"（称为编排器或协调者），下面管着许多专门的"小分队"（子代理），各自负责不同任务，还配有"档案室"（记忆组件）和"工具库"（技能组件）。

这种架构被称为"智能体编排框架"，代表性的系统包括Claude Code、CodeX以及Hermes等。这些系统之所以能够处理复杂任务，是因为总指挥可以灵活调配各个小分队协同工作。然而，研究团队发现了一个关键问题：这些系统的优秀表现，到底是因为精妙的架构设计，还是因为AI模型本身的推理能力在发挥作用？

研究团队通过仔细观察发现，无论架构多么复杂，这些系统的核心工作模式其实都可以归纳为两个步骤：先是让多个子代理"并行思考"（各自独立分析同一个问题），然后再由总指挥"汇总归纳"（综合所有分析得出最终答案）。换句话说，花哨的系统架构其实只是这两个步骤的不同包装方式。

这一发现让研究团队产生了一个大胆的想法：既然核心机制就是"并行思考加汇总"，何不把这个能力直接内化到AI模型本身，让模型无需复杂的外部架构就能自己执行这套流程？这正是HEAVYSKILL的立论基础。

三、HEAVYSKILL的工作原理：一场有组织的头脑风暴

HEAVYSKILL的工作流程可以拆分为两个清晰的阶段，像接力赛一样前后衔接。

第一阶段叫做"并行推理"。给定一道题目，系统会同时启动K个独立的推理者（K通常设为8或16），每个推理者完全不知道其他推理者在想什么，各自从零开始解题。这种相互隔离非常重要——正是因为每个推理者的思路完全独立，才能产生真正多样化的解题路径。有人可能用代数方法，有人用几何方法，有人倾向于暴力穷举，有人则寻求简洁的优雅解法。多样化的思路意味着更大的概率覆盖到正确答案。

所有推理者完成解题后，他们的思考过程会被整理成一个"记忆缓存"，也就是一份按顺序排列的思路汇总文档。由于每个推理者的思考过程往往非常冗长，直接把全部内容放进去会超出AI的处理上限，所以系统会对每条思路进行适当裁剪，并且打乱顺序排列，防止AI对某个特定位置的答案产生偏向。

第二阶段叫做"顺序审议"。另一个AI扮演"总结者"的角色，拿到这份汇总文档后，不是简单地数哪个答案出现次数最多就采纳哪个，而是进行真正的批判性分析。总结者会比较各个推理者思路的差异，找出逻辑漏洞，判断哪个推理链条最为严密，甚至在发现所有推理者都错了的情况下，独立重新推导出正确答案。

此外，研究团队还设计了一个可选的"迭代审议"机制。在第二阶段产生总结结果后，这个总结可以被重新放回记忆缓存，作为一个额外的"专家推理者"参与下一轮审议。如此循环，最多可以进行N轮迭代，让答案在反复打磨中趋向正确。

四、把工作流程变成一张"说明书"：AI读懂就能执行

这套流程不仅可以通过外部代码来驱动，研究团队还将其提炼成了一份AI可以直接阅读和执行的"技能文件"——HEAVYSKILL.md。

这份文件本质上是一份用自然语言写成的操作规范，就像给新员工入职时发的工作手册。文件的第一部分明确规定了什么情况下应该启用这套流程：当面对竞赛数学、复杂逻辑推理、算法编程等高难度问题时，应当激活；对于简单的信息查询或日常聊天，则不必启动，避免浪费计算资源。

文件的第二部分描述了如何生成并行推理：系统应该同时启动3到5个（在完整工作流模式下可达8个以上）相互独立的推理代理，每个代理必须从头开始解题，不得参考其他代理的工作。文件还鼓励不同代理采用不同的解题策略，以最大化多样性。

文件的第三部分包含了审议阶段的核心提示：总结者必须明确区分哪些推理链条是逻辑严密的，哪些存在缺陷；多数人的意见是参考信号，但绝非正确的保证；少数派的正确推理值得认真对待；如果所有推理者都错了，总结者有责任独立重新推导答案。

文件的第四部分规定了输出格式：最终给用户的只是答案本身，不需要展示整个分析元过程；数学题用标准的方框格式，编程题用代码块，以保持与用户期望的一致性。

这份文件最大的优势在于其可移植性。由于它只是一份纯文本文档，没有任何特定系统的依赖，可以被插入任何支持技能加载和子代理调用的AI编排框架中，无需修改任何代码。研究团队已验证，同一份HEAVYSKILL.md文件在Claude Code和自定义编排框架中均可正常运行。

五、真正的考试：让AI去解竞赛数学题和编程难题

研究团队为HEAVYSKILL安排了一系列严苛的考试，覆盖了理工科、编程和通用推理多个方向。

在理工科方面，测试题目来自AIME25（美国数学邀请赛2025年题目）、BeyondAIME（超越AIME难度的题目）、HMMT25-Feb（哈佛-麻省理工数学竞赛2025年2月场）以及GPQA-Diamond（研究生级别物理、化学、生物综合题目）。这些题目对人类来说也相当有挑战性，对AI更是如此。

测试中参与的AI模型涵盖了闭源和开源两大阵营。闭源方面包括GPT-5 Thinking、Claude 4.5 Thinking和Gemini 3 Pro Preview；开源方面则包括DeepSeek R1系列、Qwen3系列、Kimi K2 Thinking、GLM 4.6等十余个模型，涵盖了从7亿到超大规模参数的不同体量。

为了衡量效果，研究团队设计了五种评价指标，形成了一套完整的测量体系。Mean@K衡量的是K次并行推理的平均准确率，反映基础水平。Pass@K衡量的是K次推理中至少有一次正确的比例，代表模型的"能力天花板"。Vote@K则是传统多数投票法的准确率，相当于当前常用的"最佳K选N"策略（Best-of-N）。在HEAVYSKILL框架下，还有两个新指标：Heavy-Mean@K（简称HM@K）是经过审议阶段后的平均准确率，Heavy-Pass@K（HP@K）是审议后结果中至少一次正确的比例。

实验默认将温度参数设为1.0，并行推理路数K设为8或16，审议阶段生成4份总结内容。

六、数据说话：HEAVYSKILL到底有多强？

测试结果构成了一幅清晰的图景，整体规律相当稳定。

在理工科任务上，HEAVYSKILL展现出全面且稳健的优势。以DeepSeek R1-0528模型在HMMT25-Feb上的表现为例：在K=8的情况下，单次推理平均准确率（M@8）为80.8%，多数投票准确率（V@8）为86.7%，而HEAVYSKILL的平均准确率（HM@4）达到91.7%，进一步接近了"能力天花板"Pass@8的93.3%。类似的提升幅度在几乎所有模型和所有理工科测试集上都能观察到。

研究团队总结出了一个贯穿所有实验的规律：Heavy-Pass@K ≥ Heavy-Mean@K ≥ Vote@K ≥ Mean@K。这个层次关系说明，HEAVYSKILL不仅让平均表现优于传统投票方法，甚至在"潜力天花板"层面也超越了单纯并行推理的上限——这意味着审议阶段有时能合成出单个推理路径根本没有出现过的正确答案。

对于顶尖的前沿模型，效果更为显著。GPT-5 Thinking在BeyondAIME上，K=16时HM@4达到82.5%，HP@4达到88.0%，而相应的Mean@16只有70.1%。Kimi K2 Thinking在AIME25上，K=8时HM@4直接达到100%，与Pass@8的上限齐平。GLM 4.6在HMMT25-Feb上，K=16时HM@4达到99.2%，同样逼近100%的极限。

传统多数投票方法在某些高难度任务上的局限性也被清楚地暴露出来。对于多数模型而言，在BeyondAIME、HMMT和GPQA-Diamond这类更具挑战性的测试集上，HEAVYSKILL相对投票方法的优势比在AIME25上更为明显——正是因为AIME25对强模型来说已经接近饱和，反而看不出多大差别。

在通用推理任务上，情况略有不同，体现出明显的任务依赖性。在LiveCodeBench（代码竞赛）和IFEval（指令遵循）这类有明确正确答案的任务上，提升依然显著。GPT-OSS-20B在LiveCodeBench上的准确率从69.7%跃升到85.5%；R1-Distill-Qwen3-8B在IFEval上从35.7%提升到69.3%，几乎翻了一倍。然而在Arena-Hard（人类偏好对话）这类主观性任务上，提升幅度就相当有限，有时甚至略有下降。这说明审议机制在"追求正确性"的任务上效果突出，但在"追求风格偏好"的任务上未必占优。

七、深挖：是哪些环节真正决定了成败？

除了整体测试，研究团队还做了一系列拆解实验，试图弄清楚HEAVYSKILL各个部分的具体贡献。

第一个实验研究了审议阶段能否纠正并行推理阶段的错误。研究者用R1-Distill-Qwen-7B模型，对1万道题各自生成16条并行推理路径，然后按并行通过率（即K条推理中正确的比例）把题目分组，分别观察审议后的通过率变化。结果显示，即使对于那些并行通过率低于50%的"困难题目"，审议阶段依然能够纠正相当一部分错误——大约有500道原本多数推理者都答错的题目，经过审议后被成功纠正。而对于并行通过率已经超过50%的题目，审议阶段的成功率超过98%，极少出现反向退步。

第二个实验研究了审议阶段用什么模型最合适。研究者固定第一阶段使用R1-Distill-Qwen-7B，第二阶段分别换用三种不同的模型：同样是R1-Distill-Qwen-7B、更新的R1-Distill-Qwen3-8B，以及Qwen2.5-32B-Instruct。结果颇为出人意料：即便是Qwen2.5-32B-Instruct这个模型在独立解题时的表现比R1-Distill-Qwen-7B还要差（其在AIME25上的独立准确率只有12.8%），但当它被用作第二阶段的审议者时，依然能产生有效的性能提升。这说明审议阶段考验的不是"会不会自己解题"，而是"能不能综合分析多条推理路径"——这是一种不同类型的能力，更偏向于批判性阅读和综合判断。

第三个实验研究了迭代次数对效果的影响。研究者将迭代次数从1轮扩展到4轮，每轮固定使用8条并行推理，观察HM@K和HP@K的变化趋势。结果显示，随着迭代次数增加，HM@K（平均准确率）呈现稳定的上升趋势，说明多轮迭代确实有助于进一步提升整体表现。然而HP@K（最高潜力指标）却随迭代次数增加而有所下降，说明多轮迭代在提升平均表现的同时，可能也引入了来自前几轮的信息干扰，限制了模型在少数情况下发挥出极限水平的可能性。这揭示了一个需要权衡的核心矛盾：迭代的深度与信息一致性之间存在张力，并非越多越好。

第四个实验研究了如何从大量并行推理中选取哪K条进行审议。研究者对每道题生成256条推理路径，然后比较四种选取策略。随机选取是基准；最大多样性策略选择差异最大的K条；最大长度策略选择最长的K条；最高频率策略选择包含最高频率答案的K条（即多数投票优先）。结果发现，最大长度策略表现最差，说明推理越长未必越对；最大多样性策略与随机选取效果相近，说明刻意追求多样性的边际收益有限；最高频率策略表现最好，说明先用多数投票筛选出可信度较高的推理路径，再交给审议阶段精炼，是更明智的组合策略。

第五个实验将HEAVYSKILL扩展到需要调用外部工具的场景。研究者让模型在解题过程中可以调用Python解释器获取运算结果，每次与解释器的交互最多50轮。测试结果显示，在AIME25和HMMT25上，HM@4依然全面超过传统投票方法，说明HEAVYSKILL的核心机制在工具辅助场景下同样有效。

八、用强化学习继续"磨炼"这项技能

除了以上已有能力的测试，研究团队还探索了一个更前沿的问题：能不能通过训练让AI把这种"重度思考"的能力变得更强？

具体方案是，把并行推理加审议的完整过程打包成训练数据，用可验证奖励强化学习（RLVR）来优化模型。训练框架采用VeRL，强化学习算法采用GSPO。训练对象是R1-Distill-Qwen-7B，训练数据专门选取了那些"并行通过率在0到62.5%之间"的困难题目，也就是模型不太擅长的那类题目，分别用K=8和K=16两种并行配置进行训练。

从训练过程的图表来看，在前100步内，模型在训练集和测试集上的HM@4均呈现稳定的上升趋势，最终提升幅度约为10个百分点。然而两种配置的表现出现了分歧：K=16的配置在超过100步后出现了明显的熵崩塌现象，训练变得不稳定；而K=8的配置在整个训练过程中保持了相对稳定的趋势。研究团队判断，K=16时产生的序列化记忆缓存过长，超出了R1-Distill-Qwen-7B模型的有效处理范围，导致训练信号质量下降。

这些初步结果表明，RLVR确实能在一定程度上提升HEAVYSKILL的效果，但如何在更大的并行规模下维持训练稳定性，还需要进一步的研究来解决。

说到底，这项研究做的事情是把一个听起来很复杂的"多智能体协作系统"还原成了它的本质：AI同时用多种思路解题，然后由一个批判性的总结者筛选出最佳答案。这套机制被提炼成了一个可以在任意AI编排框架中插拔使用的技能文件，不依赖于任何特定的系统设计。通过覆盖十余个模型、多个难度层级测试集的系统实验，研究团队证明了这种方式在理工科推理和代码竞赛任务上的稳定有效性，尤其是对于强模型，表现能够接近理论上限。对于普通用户而言，这意味着未来AI助手在处理复杂问题时，有望通过这类机制提供更加可靠和准确的答案，而不只是给出一个可能出错的一次性推断。对于AI研究者而言，如何在不增加系统架构复杂度的前提下，进一步通过训练把这种技能刻入模型本身，仍然是一个值得深入探索的开放问题。有兴趣进一步了解技术细节的读者，可以通过arXiv编号2605.02396查阅完整论文，对应的代码也已开源。

Q&A

Q1：HEAVYSKILL和普通多数投票（Best-of-N）有什么本质区别？

A：普通多数投票只是数哪个答案出现次数最多就采纳哪个，本质上是一种统计方法，无法识别逻辑对错。HEAVYSKILL的审议阶段则会真正分析每条推理路径的逻辑严密性，能够识别"少数正确派"，甚至在所有推理者都犯错时独立推导出新答案。实验数据显示，HEAVYSKILL在困难题目上始终优于多数投票，差距在高难度测试集上尤为突出。

Q2：HEAVYSKILL在什么类型的任务上效果最好？

A：HEAVYSKILL在有明确正确答案、可以被客观验证的任务上效果最显著，比如竞赛数学题、科学计算题、算法编程题和指令遵循任务。对于主观性强、以人类偏好为评判标准的任务（如开放式对话），提升幅度则相对有限，有时甚至略有下降。简单来说，越"有标准答案"的任务，HEAVYSKILL的优势越明显。

Q3：审议阶段使用能力弱一点的模型会不会影响效果？

A：不一定会。研究实验发现，即使用独立解题能力较弱的模型作为审议者，也能产生有效的性能提升。这是因为审议阶段需要的核心能力是"综合分析和批判性判断"，而不是"独立解题"。换句话说，一个不擅长自己解数学题但善于评估别人解题过程逻辑性的模型，同样可以胜任审议工作。

特别声明：以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布，本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.