首尔大学破解AI智能体内存瓶颈:让多个助手共享"记忆"提速2.5倍|通用

首尔大学破解AI智能体内存瓶颈:让多个助手共享"记忆"提速2.5倍

2026-02-05 16:17:23　来源: 科技行者

北京举报

分享至

在人工智能快速发展的今天，我们经常需要多个AI助手协同工作来完成复杂任务。就像一个公司里需要不同部门的员工分工合作一样，现代AI系统也会部署多个专门化的智能体，比如一个负责制定计划，一个负责执行操作，还有一个负责检查结果。这项由首尔大学电子与计算机工程系团队开展的研究发表于2026年2月的预印本论文，论文编号为arXiv:2602.01053v1，专门解决了这类多智能体系统中一个关键的技术瓶颈问题。

传统的多智能体系统就像几个人各自拿着完全相同的厚重百科全书在工作。每当需要查阅信息时，每个人都要翻遍自己的那本书，即使他们要找的内容完全一样。这种做法不仅浪费了大量的书架空间（对应计算机内存），还让每个人都要重复相同的查找工作（对应计算时间）。研究团队发现，在实际应用中，这些AI智能体处理的很多信息都是重复的，但它们却各自维护着独立的"记忆库"，造成了巨大的资源浪费。

更糟糕的是，现有的解决方案要么需要重新设计整个AI系统架构，要么只能在特定情况下工作，要么虽然节省了内存空间但仍然需要重复计算。就像虽然让几个人共用一本百科全书节省了书架空间，但每个人仍然要花时间重新查找已经被其他人找过的内容。

研究团队提出了一个名为LRAgent的创新解决方案。这个方案的核心思想非常巧妙，就像把一本厚重的百科全书拆分成两部分：一本是所有人都会用到的"通用知识手册"，另一本是每个人专门需要的"个人笔记本"。更重要的是，这些"个人笔记本"采用了一种特殊的压缩记录方式，不需要记录完整的信息，只需要记录关键要点，用的时候再展开成完整内容。

具体来说，当第一个智能体处理某段信息时，它会把通用的基础信息存储在一个所有智能体都能访问的共享"基础缓存"中。同时，它会把自己独特的处理方式以压缩形式记录在自己的"低秩缓存"中。当另一个智能体需要处理相同信息时，它可以直接使用共享的基础缓存，然后根据自己的"低秩缓存"生成专属的处理结果，完全不需要重新计算基础部分。

这种方法的巧妙之处在于，研究团队发现不同智能体在处理相同信息时，基础的处理步骤几乎完全相同，真正的差异只存在于最后的个性化调整部分。而且这个个性化调整部分本身就具有高度的压缩性，可以用很少的存储空间来表示。通过实验验证，基础缓存在不同智能体间的相似度高达97%以上，而个性化部分的大小只有完整信息的几十分之一。

为了进一步提高效率，研究团队还设计了一个升级版方案叫做BaseLRShared。这个方案更进一步，不仅共享基础缓存，连压缩的个性化缓存也尽可能共享。就像发现不同部门员工的工作笔记其实也有很多共同点，于是连笔记本也可以部分共享。这需要对智能体的训练方式做一些调整，让它们在个性化处理的前半部分使用相同的方法，只在最后一步体现差异。

实现这种高效缓存共享的关键技术叫做Flash-LoRA-Attention。传统方法在使用压缩缓存时，需要先将其完全展开成原始大小，然后再进行计算，就像要使用压缩笔记时必须先把所有内容完整抄写一遍。而Flash-LoRA-Attention采用了一种巧妙的计算重排序技术，可以直接在压缩状态下进行大部分计算，只在最后一步才展开必要的部分，大大减少了计算开销。

研究团队在两个主流的大语言模型上测试了这套方案：LLaMA-3.1-8B-Instruct和Ministral-8B-Instruct。他们选择了HotpotQA和ScienceQA两个需要多步推理和外部知识检索的复杂任务作为测试场景。这些任务需要智能体反复查阅大量外部信息，正好适合验证缓存共享的效果。

在测试中，研究团队设计了三种不同类型的智能体：规划智能体负责分析问题和制定行动计划，执行智能体负责调用外部工具和获取信息，反思智能体负责检查结果质量并决定是否需要继续。这种分工模式在实际的AI助手系统中非常常见，能够很好地验证方案的实用性。

实验结果令人印象深刻。在准确性方面，LRAgent的BaseShared方案几乎没有损失，准确率仅下降0.1-0.7%，而BaseLRShared方案的准确率下降也控制在1.5%以内。相比之下，简单粗暴的完全共享方案会导致准确率下降3-5%，说明LRAgent能够在保持智能体个性化能力的同时实现高效共享。

在效率提升方面，结果更加显著。BaseShared方案将系统吞吐量提升了1.42倍，BaseLRShared方案更是实现了2.46倍的提升，几乎达到了理论上限。在首次响应时间方面，BaseShared缩短了1.63倍，BaseLRShared缩短了4.44倍。这意味着用户可以更快得到AI助手的回复，体验大幅改善。

内存使用方面的优化同样出色。传统方案需要为每个智能体维护完整的缓存，而LRAgent将内存使用量减少到原来的三分之一左右。这不仅降低了硬件成本，还使得在同样的硬件条件下能够运行更多智能体或处理更长的对话。

研究团队还进行了详细的消融实验，验证了设计中每个组件的作用。他们发现，Flash-LoRA-Attention技术单独就能带来1.24-1.35倍的性能提升，证明了计算重排序的价值。同时，他们还测试了在不同的LoRA配置下的表现，发现即使将LoRA应用到更多投影层，LRAgent仍然能够保持优势。

特别值得注意的是，研究团队还发现了一个有趣的现象：采用共享下投影矩阵的训练方式（shared-A架构）不仅没有损害性能，反而在所有测试场景下都提升了准确性。这表明不同智能体角色在信息处理的早期阶段确实存在大量共性，而真正的个性化主要体现在后期的决策阶段。

在实际应用测试中，研究团队模拟了真实的多轮对话场景，其中智能体需要处理从2千到66万个词元不等的长对话。结果显示，随着对话长度的增加，LRAgent的优势变得越来越明显。在最长的测试场景中，传统方案已经因为内存不足而无法运行，而LRAgent仍能正常工作并保持高效性能。

这项研究的意义不仅局限于技术层面，它实际上为整个AI助手行业指出了一个可行的发展方向。随着AI助手功能越来越复杂，需要处理的信息越来越多，如何有效管理和共享这些信息将成为关键挑战。LRAgent提供了一个既保持智能体个性化能力，又大幅提升系统效率的解决方案。

从更广阔的视角来看，这项研究体现了一个重要的技术发展趋势：在保持AI系统能力的前提下，通过更智能的资源管理来提升效率。这不仅有助于降低AI服务的成本，让更多人能够享受到先进的AI助手服务，还为在资源受限的环境中部署复杂AI系统提供了可能。

说到底，LRAgent解决的是一个非常实际的问题：如何让多个AI助手更好地"团队合作"。通过巧妙的缓存共享设计，它证明了AI系统可以像人类团队一样，通过有效的信息共享来提升整体工作效率，而不需要牺牲各自的专业能力。这为未来更复杂、更智能的AI助手系统奠定了重要的技术基础。对于正在快速发展的AI助手产业来说，这项研究提供了一个既实用又高效的技术方案，有兴趣深入了解的读者可以通过论文编号arXiv:2602.01053v1查询完整论文。

Q&A

Q1：LRAgent是如何实现多个AI智能体共享内存的？

A：LRAgent将AI智能体的记忆分成两部分：所有智能体都用的"基础缓存"和每个智能体专有的"低秩缓存"。基础缓存存储通用信息，低秩缓存以压缩形式存储个性化信息。当智能体需要处理信息时，直接使用共享的基础缓存，再根据自己的低秩缓存生成专属结果，避免重复计算。

Q2：使用LRAgent后AI智能体的准确性会下降吗？

A：准确性下降很小。BaseShared方案准确率仅下降0.1-0.7%，BaseLRShared方案下降1.5%以内，远低于简单共享方案的3-5%下降。这是因为LRAgent保留了每个智能体的个性化处理能力，只共享了通用的基础部分。

Q3：LRAgent能带来多大的性能提升？

A：性能提升显著。系统吞吐量提升1.42-2.46倍，首次响应时间缩短1.63-4.44倍，内存使用量减少到原来的三分之一。在处理长对话时优势更明显，传统方案内存不足时LRAgent仍能正常高效工作。

特别声明：以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布，本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.