阿里云计算突破：AI推理模型实现分步思考解决复杂工具使用难题|实验|阿里巴巴集团|高吞吐量内核

分享至

这项由阿里巴巴集团阿里巴巴云计算团队领导的研究发表于2026年2月3日的预印本论文，论文编号为arXiv:2602.02160v1，有兴趣深入了解的读者可以通过该编号查询完整论文。

当我们面对一个复杂任务时，比如搬家，我们会自然地将其分解为若干个小步骤：先打包物品、然后联系搬家公司、再安排时间等等。但现在的人工智能大语言模型在使用工具解决复杂问题时，却常常陷入一种"懒惰思考"的状态——它们会在脑海中反复纠结，产生大量无用的思考内容，却始终无法有效地将复杂任务分解成可执行的小步骤。

这就像一个人面对需要做一顿大餐的任务时，不是先想好要做哪些菜、需要哪些食材、按什么顺序操作，而是在那里不停地嘀咕"嗯，我应该做什么呢？可能需要这个，但是等等，也许那个更好，不过话说回来..."，结果思考了半天却一事无成。阿里巴巴云计算团队的研究人员发现，当前的大语言推理模型在处理复杂的工具使用任务时就是这种状态。

为了解决这个问题，研究团队开发了一个名为D-CORE的训练框架。这个框架就像是给AI模型配备了一个贴心的任务管理助手和一个思维训练教练。任务管理助手通过"自我蒸馏"的方式教会模型如何将复杂任务分解成小步骤，而思维训练教练则通过"多样性感知强化学习"的方法帮助模型在保持分步思考能力的同时，还能进行深入的反思。

在实际测试中，这个方法取得了令人瞩目的成果。使用D-CORE训练的8B模型在复杂工具使用基准测试中达到了77.7%的准确率，比同类最佳模型提高了5.7%。更令人惊讶的是，14B规模的D-CORE模型达到了79.3%的准确率，超越了参数规模比它大5倍的70B模型，这就像用一台普通家用车的引擎达到了超级跑车的性能。

一、AI推理模型的"懒惰思考"困境

当我们观察人类专家处理复杂问题的过程时，会发现他们有一个共同特点：善于将大问题拆解成小问题。比如一个经验丰富的厨师准备制作满汉全席时，不会一头雾水地冲进厨房，而是会先列出菜单、计算食材、安排烹饪顺序、协调助手分工等等。每个环节都清晰明确，按部就班地执行。

然而，研究团队在调研当前最先进的大语言推理模型时发现了一个令人困扰的现象。这些模型在处理单一、简单的工具使用任务时表现出色，就像请它们帮你查个天气或者发个邮件，它们能迅速完成。但一旦任务变得复杂起来，需要调用多个工具、处理多轮对话时，它们就会陷入一种"懒惰思考"的状态。

这种懒惰思考具体表现为什么样呢？研究团队通过大量实验发现，当模型面对复杂任务时，它们会产生大量冗长且重复的思考过程，却很少进行有效的任务分解。就像一个学生面对数学应用题时，不是先理清题目要求、找出已知条件、确定解题步骤，而是在那里反复嘀咕"这道题好难啊，我应该从哪里开始呢？也许用这个公式，不对，可能那个更合适，但是等等..."，结果思考了很久却毫无进展。

为了量化这种现象，研究团队设计了一套评估系统。他们让模型处理同一批任务，然后分析模型的思考过程。结果显示，在数学任务中，模型的推理长度和反思次数与答题正确率呈正相关关系——思考越多，答对的可能性越大，这符合我们的直觉。但在复杂工具使用任务中，这种关系完全消失了。无论模型思考多长时间、进行多少次反思，正确率都没有显著提升。这意味着模型的思考是无效的，只是在做无用功。

更深入的分析揭示了问题的根源：模型缺乏任务分解能力。当面对"帮我整理一下第一季度的所有文本文件，并放到一个新的归档文件夹中"这样的复杂任务时，有经验的人会自然地将其分解为：首先找到第一季度的所有文本文件，然后创建一个新文件夹，最后将文件复制过去。但模型却无法进行这样的分解，而是陷入漫无目的的思考循环中。

为了验证任务分解的重要性，研究团队做了一个有趣的实验。他们手工将一些复杂任务分解成清晰的步骤，然后让模型按步骤执行。结果显示，当有了清晰的分解指导时，模型的表现显著提升。这就像给一个迷路的人提供了详细的地图和路线指引，他们立刻就能找到正确的方向。

这个发现启发研究团队思考一个关键问题：既然模型具备执行各个子任务的能力，为什么不能教会它们自己进行任务分解呢？这就像一个人已经掌握了各种烹饪技巧，但缺乏统筹规划能力，那么关键就是培养这种整体规划的思维方式。

二、D-CORE框架：AI的任务管理助手

基于对"懒惰思考"问题的深入理解，研究团队设计了D-CORE框架，这个名字来源于"Decomposing tasks and Composing Reasoning processes"（分解任务和组合推理过程）。可以把D-CORE想象成一个两阶段的训练营：第一阶段是任务管理技能培训，第二阶段是思维灵活性训练。

在第一个阶段，研究团队采用了一种称为"自我蒸馏"的巧妙方法。传统的教学方式是找一个更聪明的老师来指导学生，但这里的创新之处在于让模型成为自己的老师。具体来说，研究团队会给模型提供一些示例，展示如何将复杂任务分解成清晰的子任务。模型观察这些示例后，学会了分解的思维模式，然后将这种能力应用到新的任务中。

这个过程就像教一个人学会做项目管理。你不需要每次都手把手地指导他，而是先给他看几个优秀的项目计划案例，让他理解什么是好的任务分解、什么是合理的执行顺序。他内化了这种思维方式后，就能独立处理新的项目了。

自我蒸馏的过程分为三个步骤。首先是任务分解步骤，模型学会将复杂查询分解为可执行的子任务。比如面对"帮我预定明天到巴黎的航班，要求经济舱最便宜的选项"这样的请求，模型会将其分解为：查询航班信息、筛选经济舱选项、比较价格、执行预定等子任务。

接着是推理生成步骤，模型为每个子任务生成相应的推理过程和工具调用。这就像为每个子任务配备具体的执行方案。查询航班时需要调用哪个搜索工具、使用什么参数，筛选时需要什么条件，每一步都有明确的操作指南。

最后是组合步骤，模型将各个子任务的执行结果组合成完整的解决方案。这就像一个项目经理将各个团队的工作成果整合成最终的项目交付物。

通过这种自我蒸馏的方式，模型掌握了任务分解和逐步执行的能力。但这里出现了一个新问题：模型变得过于"守规矩"了。就像一个严格按照教科书操作的新手，虽然步骤正确，但缺乏灵活性和创造力。在实际应用中，有时候需要根据具体情况调整策略、进行深入思考，这就需要反思能力。

为了解决这个问题，D-CORE框架的第二阶段引入了"多样性感知强化学习"技术。这个技术的核心思想是：既要保持模型的任务分解能力，又要恢复它的反思和灵活思考能力。

传统的强化学习就像给模型打分，表现好就加分，表现差就扣分。但研究团队发现，经过自我蒸馏训练的模型表现过于一致，大家的分数都差不多，这样就失去了区分度，强化学习的效果就会大打折扣。这就像一个班级里所有学生的成绩都是90分，老师就很难知道该如何进一步指导他们。

多样性感知强化学习的巧妙之处在于引入了"熵优势"的概念。简单来说，就是鼓励模型在思考过程中使用更多样化的词汇和表达方式。研究团队发现，那些表达不确定性、进行深入思考的词汇（如"但是"、"也许"、"因为"）往往具有更高的信息熵。通过鼓励模型使用这些词汇，可以促使它进行更深入、更灵活的思考。

这种方法就像告诉一个学生："除了按步骤解题外，你还要学会思考为什么这样做、有没有其他可能性、如果遇到特殊情况该如何应对。"这样培养出来的学生不仅有条理，还有深度和灵活性。

三、实验验证：超越期待的性能表现

为了验证D-CORE框架的有效性，研究团队在多个具有挑战性的基准测试上进行了全面评估。这些测试就像是AI能力的"高考"，涵盖了各种复杂的实际应用场景。

主要的测试平台是BFCLv3和τ-bench，这两个基准测试分别模拟了不同类型的复杂工具使用场景。BFCLv3包含了并行任务处理、工具无关性判断和多轮对话等挑战，而τ-bench则专注于真实世界的代理交互场景，比如航空公司客服和零售平台操作。

在BFCLv3测试中，D-CORE的表现令人印象深刻。8B规模的D-CORE模型达到了77.7%的整体准确率，比基础模型提升了11.4%，比同规模的最佳竞争模型提升了5.7%。更引人注目的是，在最具挑战性的多轮对话任务中，D-CORE的准确率达到了63.8%，比基础模型提升了整整30.8%。这就像一个学生在最难的科目上从不及格一跃成为优秀。

14B规模的D-CORE模型表现更加出色，达到了79.3%的整体准确率，不仅超越了所有同规模模型，甚至超过了参数量比它大5倍的70B模型。这种"以小博大"的成就就像用一辆普通轿车在赛道上跑赢了超级跑车。

在τ-bench测试中，D-CORE同样表现优异。这个测试更加贴近实际应用，模拟了用户与智能客服系统的真实交互。8B模型的准确率提升了18.6%，14B模型提升了17.7%。特别值得注意的是，在最复杂的航空服务场景中，D-CORE-14B达到了46.0%的准确率，成为该任务的最佳表现者。

为了深入理解D-CORE的优势所在，研究团队还进行了详细的分析实验。他们发现，经过D-CORE训练的模型在思维模式上发生了根本性转变。原本冗长无效的"懒惰思考"被替换为简洁有效的分步推理。在一个文件管理任务中，基础模型产生了1616个词汇的冗长思考却给出了错误答案，而D-CORE模型只用了799个词汇就准确完成了任务，效率提升了一倍以上。

更重要的是，D-CORE解决了传统强化学习在复杂工具使用场景中的困境。研究团队对比了使用传统强化学习方法的ToolRL模型，发现后者在多轮对话任务中几乎没有提升，有时甚至出现了倒退。这说明仅仅依靠奖励信号的强化学习无法解决"懒惰思考"问题，必须从根本上改变模型的思维模式。

为了验证D-CORE的泛化能力，研究团队还在多个未见过的测试集上进行了评估。结果显示，D-CORE在完全不同的任务类型中仍然保持了强劲的性能，这证明了它学到的不仅仅是特定任务的解决方案，而是一种通用的问题解决思维方式。

四、深入剖析：为什么D-CORE如此有效

D-CORE框架成功的关键在于它准确抓住了问题的本质，并设计了针对性的解决方案。就像一个优秀的医生不仅能诊断出病症，还能找到病根并对症下药。

首先，D-CORE解决了任务分解能力缺失的根本问题。传统的训练方法就像教学生背公式，但没有教他们如何分析问题的结构。D-CORE通过自我蒸馏的方式，让模型从优秀的示例中学习任务分解的思维模式，就像让学生观摩优秀数学家的解题过程，理解如何将复杂问题层层剖析。

研究团队发现，任务分解能力的关键在于理解任务之间的依赖关系。有些子任务必须按顺序执行（比如先查询再预订），有些可以并行处理（比如同时查询多个选项），还有些任务根本不需要使用工具。D-CORE训练模型识别这些不同的模式，并采用相应的执行策略。

其次，多样性感知强化学习巧妙地解决了训练过程中的技术难题。当模型的表现变得过于一致时，传统强化学习就失去了指导方向，就像所有学生都考同样的分数时，老师就不知道该如何区别指导了。通过引入熵优势机制，D-CORE鼓励模型在保持任务分解能力的同时，还能进行多样化的深入思考。

这种方法的巧妙之处在于它是自适应的。当模型的表现差异很大时，传统的优势函数起主导作用，保证学习的稳定性。当表现趋于一致时，熵优势机制开始发挥作用，促进多样性和创新性思考。这就像一个智能的教学系统，能够根据学生的具体情况调整教学策略。

研究团队通过详细的训练过程分析发现，多样性感知强化学习确实恢复了模型的反思能力。训练后的模型不仅保持了清晰的任务分解思路，还学会了在必要时进行深入思考。比如当遇到模糊的用户需求时，模型会主动澄清意图；当发现可能的执行问题时，模型会提前考虑备选方案。

第三，D-CORE的成功还体现在它对真实世界复杂性的充分考虑。在实际应用中，用户的需求往往是模糊的、变化的，工具的返回结果可能是不完整的，执行过程中可能遇到各种意外情况。D-CORE通过训练模型处理这些不确定性，增强了系统的鲁棒性。

研究团队通过一系列消融实验验证了框架各个组件的贡献。结果显示，仅使用自我蒸馏可以显著提升任务分解能力，但可能牺牲反思能力。仅使用多样性感知强化学习可以增强思考多样性，但无法根本解决懒惰思考问题。只有两者结合，才能达到最佳效果。

特别值得注意的是，D-CORE在不同规模模型上都表现出色，这说明这种方法具有良好的可扩展性。无论是8B的小模型还是14B的大模型，D-CORE都能显著提升其复杂工具使用能力。这种规模无关的优势对于实际部署具有重要意义，意味着即使在计算资源有限的情况下，也能获得显著的性能提升。

五、实际应用前景与未来发展

D-CORE框架的成功不仅在学术研究中具有重要意义，更为实际应用开辟了广阔的前景。它就像为AI助手配备了一个专业的项目管理大脑，使其能够处理复杂的现实世界任务。

在客户服务领域，D-CORE训练的模型可以处理更复杂的客户请求。传统的客服机器人往往只能处理简单的单轮对话，但具备任务分解能力的AI客服可以帮助客户解决涉及多个步骤的复杂问题。比如当客户说"我要改签明天的航班，但如果没有合适的选择就申请退款，另外帮我查一下会员积分情况"时，AI能够将这个复杂请求分解为查询航班、比较选项、执行改签或退款、查询积分等多个子任务，并按照合理的顺序执行。

在企业办公自动化方面，D-CORE的应用潜力更加广阔。现代企业的工作流程往往涉及多个系统和工具的协调配合，比如一个销售订单的处理可能需要在CRM系统中查询客户信息、在库存系统中检查商品可用性、在财务系统中生成发票、在物流系统中安排配送。具备任务分解能力的AI助手可以自动协调这些复杂流程，大大提升工作效率。

在个人助手应用中，D-CORE使AI能够处理更贴近真实生活的复杂需求。当用户说"帮我安排下周的北京出差，包括往返机票、酒店预订，还要在那边约几个重要客户见面"时，AI能够理解这个需求包含多个相互关联的子任务：查询出差日期的航班、根据商务区域选择合适酒店、查看客户的时间安排、协调会议时间等等。

研究团队还展示了D-CORE在跨领域任务中的优秀表现。通过在不同类型的数据集上进行测试，他们发现D-CORE训练的模型具有很强的迁移能力。这意味着在一个领域学会的任务分解思维可以应用到其他领域，这种通用性对于构建真正智能的AI系统具有重要意义。

当然，D-CORE框架也还有进一步改进的空间。研究团队指出，当前的方法主要关注文本和工具调用，未来可以扩展到多模态场景，比如同时处理图像、语音和文本的复杂任务。此外，如何让模型学会更复杂的规划和推理能力，如何处理更长期的任务序列，也是值得探索的方向。

从更广阔的视角来看，D-CORE代表了AI发展的一个重要趋势：从简单的模式匹配向真正的智能推理转变。过去的AI系统更像是一个庞大的百科全书，知道很多知识但缺乏运用这些知识解决复杂问题的能力。D-CORE这样的方法正在改变这种局面，让AI系统不仅"博学"，还"智慧"。

研究团队表示，他们正在将D-CORE方法应用到更大规模的模型中，并探索将其与其他前沿技术结合的可能性。比如与多智能体系统结合，让多个AI助手协同处理更复杂的任务；与强化学习的最新进展结合，进一步提升模型的自主学习能力。

说到底，D-CORE框架的核心价值在于它为AI系统提供了一种更接近人类思维的问题解决方式。人类之所以能够处理复杂任务，很大程度上依赖于我们将大问题分解为小问题的能力。D-CORE让AI系统也具备了这种能力，这是向真正智能AI迈出的重要一步。

归根结底，这项研究不仅解决了当前AI系统在复杂工具使用中的"懒惰思考"问题，更重要的是为构建更智能、更实用的AI系统开辟了新路径。当AI助手真正学会了分步思考和灵活应变，我们与机器的协作将变得更加自然和高效。这种技术进步最终会惠及每一个使用AI工具的普通人，让我们的工作和生活变得更加便捷。对于那些对技术发展感兴趣的读者，不妨思考一下：当AI真正学会像人类一样思考和规划时，我们的世界会发生怎样的变化？如有兴趣深入了解技术细节，可以通过论文编号arXiv:2602.02160v1查询完整的研究报告。

Q&A

Q1：D-CORE框架是如何解决AI的"懒惰思考"问题的？

A：D-CORE通过两个阶段训练解决这个问题。第一阶段用"自我蒸馏"方法教AI学会将复杂任务分解成小步骤，就像教人做项目管理一样。第二阶段用"多样性感知强化学习"恢复AI的灵活思考能力，避免过于机械化。这样AI既能有条理地处理复杂任务，又保持了深度思考的能力。

Q2：D-CORE训练的模型比传统模型性能提升有多大？

A：提升非常显著。8B模型在复杂工具使用测试中达到77.7%准确率，比同类最佳模型高5.7%，在最难的多轮对话任务中提升了30.8%。14B模型达到79.3%准确率，甚至超过了参数量大5倍的70B模型，这就像用普通轿车跑赢了超级跑车。

Q3：D-CORE技术什么时候能应用到实际产品中？

A：D-CORE已经在多个真实场景测试中表现出色，技术相对成熟。主要应用前景包括智能客服处理复杂客户请求、企业办公自动化协调多系统流程、个人助手安排复杂行程等。阿里巴巴团队正在将这项技术应用到更大规模模型中，预计很快就能在实际产品中见到相关应用。

特别声明：以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布，本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.