北大牵头：解决大语言模型对话卡顿问题的"双车道方案"|算法|引擎|通道

分享至

这项由北京大学计算机科学学院牵头，联合清华大学和DeepSeek-AI公司共同完成的研究，发表于2026年2月的arXiv预印本，论文编号为arXiv:2602.21548v1。有兴趣深入了解的读者可以通过这个编号查询完整论文。

当我们和聊天机器人进行对话时，特别是那种需要多轮交互的复杂任务，你有没有发现它有时会卡顿很久才给出回应？这就像一个健谈的朋友突然变得吞吞吐吐，让人很不舒服。这个问题背后隐藏着一个技术难题，而北京大学的研究团队找到了一个巧妙的解决方案。

现在的AI聊天机器人已经不再是简单的一问一答工具，它们更像是能够处理复杂任务的智能助手。比如，你让它帮你写代码、分析数据或者协助完成项目时，它需要记住之前所有的对话内容，还要能够调用各种工具来完成任务。这种多轮对话的模式让AI变得更加智能，但也带来了一个严重的技术瓶颈：每次对话时，AI都需要重新加载之前的所有记忆内容，这就像每次见面都要重新自我介绍一样低效。

在技术层面，这些"记忆内容"被称为KV缓存，可以把它理解为AI的"笔记本"，里面记录着之前对话的所有关键信息。随着对话轮次增加，这个笔记本变得越来越厚，每次翻阅都需要更长时间。目前的技术架构就像一条单车道高速公路，所有的数据加载都必须走同一条路，当交通量增大时自然就会拥堵。

这个问题在实际应用中表现得尤为突出。研究团队收集的数据显示，在典型的智能编程助手场景中，平均每个对话包含157轮交互，平均上下文长度达到32700个词汇，但每轮新增内容只有429个词汇。这意味着每次处理时，有98.7%的内容都是需要从存储中重新加载的历史信息，只有1.3%是真正的新内容。就好比你每次和朋友聊天时，都要把之前所有聊天记录重新读一遍，才能继续今天的话题。

一、现有技术的困境：单车道拥堵问题

为了理解这个问题的严重性，我们可以把现在的AI推理系统想象成一个大型餐厅的运营模式。这个餐厅采用了所谓的"预制菜+现做菜"的模式：有些厨师专门负责准备食材和预制菜（这叫预填充引擎），有些厨师专门负责最后的烹饪和出菜（这叫解码引擎）。这种分工本来是为了提高效率，让不同类型的工作可以并行进行。

在这个餐厅里，预制菜厨师需要从仓库（存储系统）获取大量食材来准备菜品。但是，整个餐厅只有一条从仓库到厨房的通道（存储网络带宽），所有的食材运输都必须走这条路。当业务繁忙时，预制菜厨师需要的食材量急剧增加，这条通道很快就被堵得水泄不通。与此同时，负责最后烹饪的厨师虽然工作相对轻松，但他们身边也有通往仓库的通道，这些通道却大部分时间都闲置着。

这就是目前AI推理系统面临的核心问题。在处理多轮对话任务时，预填充引擎需要从存储中加载大量的历史对话记录，这些数据加载完全依赖单一的存储网络连接。而解码引擎虽然也配备了同样的网络设备，但在传统架构下，这些设备基本处于闲置状态。这种资源浪费导致了严重的性能瓶颈。

研究团队通过深入分析发现，这个问题变得越来越严重的原因有三个。首先，智能对话任务的特点决定了缓存命中率极高，通常达到95%以上，这意味着绝大部分工作都是数据加载而非计算。其次，硬件发展趋势并不友好：近年来GPU的计算能力增长了28.8倍，但网络带宽只增长了2倍，存储容量增长了2.4倍，这种不平衡的发展使得I/O成为越来越突出的瓶颈。最后，现有架构设计导致存储网络带宽利用极不均衡，预填充侧长期过载，而解码侧大量闲置。

这种现状就像城市交通规划中的常见问题：虽然总的道路容量足够，但由于设计不合理，导致某些路段长期拥堵，而其他路段却车流稀少。简单地增加预填充引擎的带宽配置成本高昂，而且在通用集群中往往不现实。因此，如何充分利用所有引擎的I/O带宽，而不是让预填充引擎独自承担重负，成为了亟待解决的关键问题。

二、双车道解决方案：DualPath系统架构

面对这个困境，研究团队提出了一个名为DualPath的创新解决方案。这个方案的核心思想非常直观：既然解码引擎的存储网络大部分时间都闲置着，为什么不让它们也参与到数据加载工作中来？就像在拥堵的单车道高速公路旁边新开一条辅助车道，让交通压力得到缓解。

DualPath系统的工作原理可以用一个快递配送的比喻来解释。传统模式下，所有快递包裹都必须直接从仓库送到主处理中心（预填充引擎），就像所有包裹都要走同一条路线。而DualPath系统引入了一个新的配送策略：部分包裹可以先送到就近的分拣点（解码引擎），然后通过高速内部运输网络（RDMA计算网络）快速转送到主处理中心。

这种双路径设计的巧妙之处在于充分利用了现代AI数据中心的网络架构特点。在这些数据中心里，计算网络的带宽通常远大于存储网络的带宽。每个节点通常配备8个400Gbps的计算网络连接，但只有1个400Gbps的存储网络连接。传统架构下，只有存储网络被用于数据加载，而大量的计算网络带宽被浪费了。DualPath通过让部分数据先加载到解码引擎，再通过高速计算网络传输到预填充引擎，实现了对网络资源的充分利用。

具体的工作流程是这样的：当系统需要处理一个新的对话请求时，调度器会根据当前的负载情况动态决定数据加载路径。如果预填充引擎的存储网络比较空闲，就采用传统的直接加载方式；如果预填充侧负载较重，就让部分数据通过解码引擎的存储网络加载，然后通过计算网络快速传输过来。这种动态调度确保了整个系统的负载均衡，避免了单点瓶颈。

为了实现这种双路径架构，研究团队还需要解决几个技术挑战。首先是数据传输的精细化管理。由于采用了逐层处理的方式来突破显存限制，数据被分解成大量的小块，需要在存储、主机内存和GPU显存之间频繁传输。DualPath采用了一种巧妙的设计：将这些小块数据的传输和计算过程重叠进行，就像流水线作业一样，最大化系统的整体效率。

其次是流量隔离的问题。新增的数据传输路径可能会干扰模型推理过程中的关键通信，就像修路时可能会影响正常交通一样。研究团队采用了一种称为"计算网络中心化"的流量管理策略，通过虚拟通道技术将不同类型的流量严格分离。所有的模型推理通信都被分配到高优先级通道，享有99%的带宽保障，而数据加载流量则使用低优先级通道，利用剩余的带宽资源。这样既不会影响推理性能，又能充分利用网络资源。

三、智能调度算法：动态平衡的艺术

仅仅有双路径架构还不够，关键在于如何智能地在两条路径之间分配任务。这就像交通管制中心需要根据实时路况来引导车流选择最优路线一样。DualPath系统配备了一套复杂的调度算法，能够实时监控系统状态，并做出最优的路径选择决策。

这个调度算法的工作方式可以想象成一个经验丰富的餐厅经理。他需要同时关注多个指标：各个厨师的工作负荷、食材库存情况、顾客等待时间，以及厨房设备的使用状况。基于这些信息，他动态地调整任务分配，确保整个餐厅运营的平衡和高效。

在技术层面，调度算法采用了层次化的设计。第一层是引擎间调度，负责决定每个请求应该分配给哪个预填充引擎和解码引擎对，以及选择哪种数据加载路径。算法会综合考虑引擎的当前负载、所在节点的存储读取队列长度等因素。如果某个节点的存储网络较为空闲，就优先使用直接加载路径；如果预填充侧普遍繁忙，就更多地采用通过解码引擎中转的路径。

第二层是引擎内调度，主要针对预填充引擎的批处理优化。由于AI推理中采用了数据并行的方式，多个GPU需要在每个注意力计算阶段进行同步。如果各个GPU的工作负载不均衡，就会出现"木桶效应"，快的GPU需要等待慢的GPU完成。因此，调度算法会预估每个请求的计算时间，通过精细的批次组合来最小化这种等待时间。

这种调度策略的巧妙之处在于它能够同时平衡多个维度的资源利用：GPU计算资源、存储网络带宽、计算网络带宽，以及主机内存。传统系统往往只关注单一资源的优化，而DualPath通过全局视角的资源协调，实现了系统整体性能的最大化。

调度算法还具备自适应能力。它会持续监控系统的运行状态，并根据工作负载的变化动态调整调度策略。比如，在系统启动初期，预填充引擎的负载较重，算法会更多地使用双路径加载；随着时间推移，当更多请求进入解码阶段时，预填充压力减轻，算法会相应调整路径选择的比例。这种自适应机制确保了系统在不同负载模式下都能保持最优性能。

四、突破性能测试：显著的效果验证

为了验证DualPath系统的实际效果，研究团队进行了大规模的性能测试。测试环境采用了工业级的GPU集群，每个节点配备8个NVIDIA Hopper GPU，通过InfiniBand网络互联，存储系统采用分布式设计。测试数据来源于真实的智能编程助手场景，包含了500个不同长度的对话轨迹，最长的对话包含157轮交互。

测试结果令人印象深刻。在离线批处理场景中，DualPath相比传统方案实现了高达1.87倍的性能提升。这相当于原来需要3个小时完成的任务，现在只需要1个半小时就能搞定。更重要的是，这种性能提升是在不增加任何硬件成本的前提下实现的，纯粹通过更智能的资源利用策略获得。

在在线服务场景中，性能提升同样显著。研究团队测试了系统在不同用户访问频率下的表现，发现DualPath能够支持1.96倍的并发用户数，同时保持相同的响应质量。这意味着原来只能同时服务100个用户的系统，现在可以同时为196个用户提供流畅的对话体验。

特别值得注意的是，DualPath的性能提升在长对话场景中表现得更加突出。当对话长度从32K增加到64K时，传统系统的性能急剧下降，而DualPath系统依然能够保持稳定的高性能。这正好验证了该方案针对多轮对话场景的设计目标。

为了证明性能提升的根本原因，研究团队还进行了详细的性能分析。结果显示，DualPath成功地将存储网络的利用率从严重不均衡状态改善为接近均匀分布。原来只有预填充引擎的存储网络接近100%利用率，而解码引擎的存储网络基本闲置；改进后，所有节点的存储网络利用率都维持在合理水平，消除了系统瓶颈。

研究团队还进行了大规模的扩展性测试，使用了多达1152个GPU来验证系统在产业级部署中的表现。结果表明，从小规模扩展到大规模时，系统保持了近乎线性的性能扩展，这证明了DualPath架构的良好可扩展性。

五、技术创新的深层意义

DualPath系统的成功不仅仅是一个工程优化的胜利，更代表了AI系统设计思路的重要转变。传统的系统设计往往采用"功能导向"的方式，不同组件负责不同功能，彼此相对独立。而DualPath体现的是"资源导向"的设计理念，即根据资源的实际利用情况来动态调整系统行为。

这种设计理念的转变具有重要的启发意义。在AI系统日趋复杂的今天，单纯增加硬件资源往往不是最经济的解决方案。通过更智能的资源调度和利用策略，可以在现有硬件基础上挖掘出更大的性能潜力。这对于降低AI服务的成本，促进AI技术的普及具有重要意义。

从技术发展的角度看，DualPath所采用的动态负载均衡策略也为其他AI系统优化提供了参考。现在的AI训练和推理系统中存在许多类似的资源利用不均衡问题，都可能通过类似的思路得到改善。比如，在模型训练中的数据加载、梯度同步等环节，都存在优化空间。

此外，DualPath系统还展示了现代AI基础设施设计的一个重要趋势：软硬件协同优化。该系统充分利用了现代数据中心网络架构的特点，通过软件层面的智能调度来最大化硬件资源的利用效率。这种协同设计的方法将成为未来AI系统发展的重要方向。

值得注意的是，这项研究还揭示了AI应用模式变化对系统设计的深远影响。随着AI从简单的问答工具发展为能够处理复杂任务的智能助手，系统的工作负载模式发生了根本性变化。传统的系统设计假设可能不再适用，需要重新审视和优化。DualPath正是在这种背景下产生的创新解决方案。

这项研究的成果已经在实际生产环境中得到验证，显示出良好的实用性和稳定性。研究团队表示，相关技术将逐步开源，为整个AI社区提供参考和借鉴。这种开放的研究态度有助于推动整个行业的技术进步。

说到底，DualPath系统解决的不仅仅是一个技术问题，更是AI服务质量和成本效益的实际问题。在AI技术日益普及的今天，如何让更多人能够享受到流畅、高效的AI服务，是一个具有重要社会意义的课题。这项研究为这个目标的实现提供了有价值的技术支撑。

随着多轮对话AI应用的不断增长，类似的系统优化将变得越来越重要。DualPath所展示的创新思路和技术方案，为构建下一代高效AI服务系统奠定了重要基础。对于普通用户来说，这意味着未来的AI助手将变得更加响应迅速，能够更好地理解和处理复杂的多轮对话任务，为我们的工作和生活带来更大的便利。

Q&A

Q1：DualPath系统的双车道是什么意思？

A：DualPath的"双车道"是指两种不同的数据加载路径。传统方式是所有数据都直接从存储加载到预填充引擎，就像单车道高速公路。DualPath新增了一条路径，让数据先加载到解码引擎，再通过高速计算网络传输到预填充引擎，就像增加了一条辅助车道来缓解交通拥堵。

Q2：为什么AI对话会出现卡顿问题？

A：主要原因是AI需要重复加载大量历史对话记录。在多轮对话中，AI要记住之前所有内容才能继续对话，这些"记忆"数据量很大。现有系统就像只有一条路运输这些数据，当对话轮次增多时就会拥堵，导致响应变慢。研究显示在典型场景中，98.7%的内容都是需要重新加载的历史信息。

Q3：DualPath系统能带来多大的性能提升？

A：测试结果显示，DualPath在离线处理中能实现最高1.87倍的性能提升，在线服务中平均能支持1.96倍的并发用户数。这意味着原来需要3小时的任务现在1.5小时就能完成，原来只能服务100个用户的系统现在可以同时为196个用户提供服务，而且不需要增加任何硬件成本。

特别声明：以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布，本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.