北京交通大学团队突破：让AI学会自己管理记忆，小模型也能干大事|算法|实验

分享至

这项由北京交通大学计算机科学与技术学院张宇翔、舒江明、桑基韬教授团队，联合海信研究、华为诺亚方舟实验室共同完成的研究，发表于2025年10月的arXiv预印本平台，论文编号为arXiv:2510.12635v1。感兴趣的读者可以通过该编号查询完整论文。

当你和朋友聊天时，如果话题越来越多，你的大脑会自动筛选重要信息，忘掉无关紧要的细节。但现在的AI大模型就像一个强迫症患者，必须记住对话中的每一个字，哪怕是无用的废话。结果就是，当对话变得很长时，AI要么被无关信息淹没而变得糊涂，要么因为"脑容量"不够而崩溃。

研究团队发现了一个有趣的现象：虽然现在的AI模型能处理的文本越来越长，但这并不意味着它们能更好地完成复杂任务。这就像给一个人一个超大的书包，但如果他不知道如何整理，书包再大也只会让他背得更累，找东西更困难。

传统的解决方案都是在AI外部加装"记忆管理器"，就像给那个人安排一个助手来整理书包。但这种做法有个根本问题：助手并不了解这个人真正需要什么，只能按照预设的规则机械地整理，往往把重要的东西丢掉，留下一堆无用的物品。

研究团队提出了一个革命性的想法：既然记忆管理这么重要，为什么不让AI自己学会管理记忆呢？他们开发了一个叫做"记忆即行动"（Memory-as-Action，简称MemAct）的新框架。在这个框架中，AI不仅要学会回答问题、使用工具，还要学会主动编辑自己的工作记忆。

这个过程就像教一个学生不仅要学会做题，还要学会整理笔记。当笔记本快满了的时候，学生要能判断哪些内容可以删除，哪些需要总结，哪些必须保留。更重要的是，这种判断不是死记硬背的规则，而是根据当前任务的需要灵活调整的。

研究团队设计的记忆管理工具非常巧妙。AI可以调用一个名为"修剪上下文"的工具，这个工具需要两个参数：一个是AI生成的总结，用来保留被删除内容的关键信息；另一个是要删除的具体记录的ID列表。这样，AI就能在保留核心信息的同时，清理掉冗余的细节。

但这种灵活的记忆编辑带来了一个技术难题：传统的AI训练方法假设对话记录是线性增长的，就像在纸条末尾不断添加新内容。但现在AI可以删除和修改之前的内容，这就像在一张纸的中间撕掉一段，再重新拼接。这种"轨迹断裂"让传统的训练方法完全失效。

为了解决这个问题，研究团队开发了一种新的训练算法，叫做"动态上下文策略优化"（DCPO）。这个算法的核心思想是将AI的行为轨迹按照记忆操作的时间点分割成多个段落，确保每个段落内部是连续的，然后分别对每个段落进行优化训练。

整个训练过程分为两个阶段。第一阶段是"冷启动"，研究团队使用了一个有趣的方法：他们让最先进的AI模型（如DeepSeek-V3.1）模拟MemAct的行为，生成了大量高质量的训练数据。这就像让一个优秀的老师先做示范，然后学生照着学习。

第二阶段是强化学习训练。研究团队设计了一个简单而有效的奖励机制：如果AI成功完成任务，就给正分；如果违反了资源限制（比如使用了太多token），就给负分；其他情况给零分。这种稀疏的奖励信号迫使AI学会在任务成功和资源效率之间找到最佳平衡点。

一、记忆管理的智能化革命

现在的AI模型在处理长时间对话时面临着一个根本性的挑战。当你和AI聊天聊得越来越深入时，对话历史会变得越来越长，就像一个不断增长的滚雪球。这个雪球里既有重要的核心信息，也有大量的无关细节和重复内容。

传统的AI就像一个记忆力超强但不会筛选的图书管理员，它必须把每一页纸都存档保留，哪怕那只是一张废纸。当图书馆变得拥挤不堪时，这个管理员要么找不到需要的重要文件，要么因为存储空间不够而崩溃。

研究团队观察到，即使现在的AI模型能够处理几十万个字符的长文本，但这种"死记硬背"的方式并不能真正提升它们解决复杂问题的能力。这种现象就像一个学生拥有超大的书包，但如果不知道如何整理，书包越大反而越影响学习效率。

现有的解决方案通常是在AI外部添加各种"记忆管理器"。这些外部工具会根据预设的规则来决定保留哪些信息，删除哪些内容，或者将一些信息压缩成摘要。但这种做法就像雇佣一个不了解你学习需求的助手来整理你的学习资料。这个助手可能会把你明天要用的重要笔记丢掉，却保留了一堆过时的参考资料。

更关键的问题是，这种外部管理与AI的核心决策过程是分离的。AI本身并不知道记忆是如何被管理的，也无法根据当前任务的具体需求来调整记忆策略。这就像一个学生在做数学题时，助手却在按照语文课的标准来整理他的草稿纸，结果可想而知。

研究团队提出的"记忆即行动"框架彻底改变了这种模式。在这个新框架中，记忆管理不再是一个外部的、机械的过程，而是AI智能决策的有机组成部分。AI不仅要学会如何回答问题、如何使用工具，还要学会如何管理自己的工作记忆。

这种方法的核心理念是让AI发展出一种"元认知"能力，也就是"思考如何思考"的能力。就像一个优秀的学生不仅会解题，还会主动整理笔记、总结规律、删除无用信息一样，经过训练的AI也能学会根据任务需求来主动策划自己的记忆空间。

在MemAct框架中，AI的每一次行动都可能是两种类型之一：任务行动或记忆行动。任务行动是传统意义上的AI行为，比如搜索信息、调用工具、生成回答等。记忆行动则是全新的概念，它允许AI主动编辑自己的工作记忆，包括删除无关信息、插入总结、重组内容等。

这种设计带来了一个重要的优势：AI可以在执行任务的过程中，根据实时的需求和发现来调整自己的记忆策略。比如，当AI发现某个搜索结果对当前问题没有帮助时，它可以立即将其从记忆中删除，为更重要的信息腾出空间。当AI需要回顾之前的推理过程时，它可以生成一个简洁的总结来替代冗长的原始记录。

这种动态的、自适应的记忆管理策略使得AI能够在资源有限的情况下处理更复杂、更长时间跨度的任务。更重要的是，由于记忆管理是AI学习过程的一部分，不同的AI可以根据自己的能力特点发展出不同的记忆策略，就像不同的学生会形成适合自己的学习方法一样。

二、技术创新的深层突破

MemAct框架在技术层面的创新可以用一个精巧的机械钟来比喻。传统的AI就像一个只有时针的钟，只能单调地指示时间。而MemAct则给这个钟加上了分针、秒针，甚至是调节机制，让整个系统变得更加精确和灵活。

首先，研究团队将AI的整个工作过程重新定义为一个马尔可夫决策过程。这听起来很复杂，但实际上就是一个决策制定的数学框架。在这个框架中，AI在每个时刻都要根据当前的"状态"（也就是它的工作记忆）来选择下一步的"行动"。

这个重新定义的巧妙之处在于，它将记忆管理从一个被动的、外部的过程转变为AI主动决策的一部分。就像一个棋手不仅要考虑下一步棋怎么走，还要考虑是否需要调整自己的思考策略一样，AI现在也要在每一步都考虑是否需要调整自己的记忆。

在这个新的决策框架中，AI的行动空间被扩展为两个部分：任务行动和记忆行动。任务行动包括所有与解决问题直接相关的操作，比如搜索信息、计算结果、生成回答等。记忆行动则专门负责工作记忆的维护和优化。

记忆行动的实现非常精巧。研究团队设计了一个名为"修剪上下文"的工具，这个工具需要AI提供两个关键参数。第一个参数是一个模型生成的总结，用来保留被删除内容的核心信息。第二个参数是一个ID列表，指定哪些历史记录需要被删除。

这种设计的聪明之处在于，它既保证了信息的连续性，又实现了真正的记忆优化。当AI决定删除某些历史记录时，它不是简单地把它们丢掉，而是先提取关键信息生成总结，然后用这个总结来替代原始的详细记录。这就像一个学生在整理笔记时，不是简单地撕掉某一页，而是先提取这一页的要点写成总结，然后用总结替代原来的详细内容。

这种记忆编辑能力给AI带来了革命性的灵活性，但也带来了一个前所未有的技术挑战。传统的AI训练方法基于一个重要假设：对话历史是线性增长的，每次都是在末尾添加新内容。但现在AI可以删除、修改之前的内容，这就打破了这个基本假设。

这个问题被研究团队称为"轨迹断裂"。想象一下，如果你在写一篇文章时，不仅在末尾添加新段落，还经常回到中间删除或修改之前的内容，那么文章的逻辑结构就会变得非常复杂。传统的AI训练方法无法处理这种复杂的结构，就像一个只会从左到右阅读的人无法理解一本可以随时编辑的动态书籍。

为了解决这个难题，研究团队开发了动态上下文策略优化（DCPO）算法。这个算法的核心思想是将AI的行为轨迹按照记忆操作的时间点进行分割，形成多个连续的段落。每个段落内部是线性的、连续的，符合传统训练方法的要求，但段落之间可以有复杂的编辑关系。

DCPO算法的工作过程就像一个熟练的编辑在处理一本不断修订的手稿。当作者（AI）在某个位置进行了大幅修改（记忆行动）时，编辑会将手稿分割成几个部分，分别对每个部分进行校对和优化，最后再将它们重新组合成一个完整的作品。

这种分割策略确保了每个训练段落都有正确的上下文环境。当AI学习如何生成某个回答时，它使用的是生成该回答时实际存在的记忆状态，而不是被后续编辑操作修改过的状态。这就保证了训练过程的准确性和一致性。

DCPO算法还采用了一种巧妙的优势估计方法。它不是为每个单独的行动计算奖励，而是为整个轨迹计算一个统一的优势值，然后将这个值应用到轨迹中的所有段落上。这种方法确保了记忆管理和任务执行之间的协调性，避免了短期的记忆优化损害长期的任务表现。

三、实验设计与数据准备的精心安排

研究团队在实验设计上展现了极大的智慧和细致的考虑。他们面临的第一个挑战是如何让AI学会一种全新的行为模式。传统的AI只会做任务相关的操作，从来没有"编辑自己记忆"这种概念。这就像教一个从来没有整理过房间的人学会收纳，需要从最基础的示范开始。

为了解决这个"冷启动"问题，研究团队采用了一个创新的方法。他们发现，即使是最先进的AI模型（如OpenAI的o3、DeepSeek-V3.1、Qwen3-235B）在被直接要求进行记忆管理时也表现得很糟糕。这些模型的主要问题在于无法正确理解更新后的工作记忆状态，就像一个人在整理房间后反而找不到东西放在哪里了。

为了生成高质量的训练数据，研究团队设计了一个分阶段的提示策略。他们让DeepSeek-V3.1模型模拟MemAct的行为，但给出了明确的指导：当上下文长度在8000到16000个token之间时，轻柔地建议进行记忆操作；当超过16000个token时，则强制要求进行记忆管理。

这种渐进式的训练数据生成策略非常聪明。它避免了让AI在不合适的时机进行记忆操作，确保每次记忆编辑都是有意义和必要的。通过这种方法，研究团队从800多个成功的轨迹中提取了超过3000个训练段落，为后续的强化学习训练奠定了坚实的基础。

在数据集选择上，研究团队也表现出了深思熟虑。他们创建了一个名为"多目标问答"的合成数据集，这个数据集基于HotpotQA改造而成。在这个数据集中，每个任务都包含多个独立的子问题，AI需要逐一解决这些子问题，最后提供一个综合的答案。

这种多目标设计的巧妙之处在于，它自然地创造了对记忆管理的需求。当AI在解决第一个子问题时收集的信息对后续问题没有帮助时，它就需要学会清理这些无关信息。当AI需要综合多个子问题的答案时，它又需要学会保留关键信息并生成有效的总结。

为了测试模型的泛化能力，研究团队在训练和测试数据之间设置了明显的复杂度差异。训练数据主要包含2到4个子目标的简单任务，而测试数据则包含多达8个子目标的复杂任务。这种设计确保了模型不是简单地记忆训练样例，而是真正学会了适应性的记忆管理策略。

除了合成数据集，研究团队还在多个公开的多跳问答基准上进行了测试，包括2WikiMultihopQA、Bamboogle、HotpotQA、Musique和Frames。这些数据集覆盖了不同类型的推理任务和不同深度的上下文依赖，为全面评估模型性能提供了丰富的测试场景。

在强化学习阶段，研究团队设计了一个简洁而有效的奖励函数。这个函数只在任务结束时给出稀疏的奖励信号：成功完成任务获得+1分，违反资源约束（如超过20000个token的上下文限制）获得-0.1分，其他情况获得0分。这种设计迫使AI学会在任务成功和资源效率之间找到最佳平衡点。

奖励函数的评估基于GPT-4的自动评判，这确保了评估的一致性和可扩展性。研究团队仔细校准了评估标准，确保自动评判的结果与人工评判高度一致。

训练过程的参数设置也经过了精心调整。在监督微调阶段，模型训练6个周期，批量大小为256，学习率为5×10^-5，使用余弦衰减调度和10%的预热比例。在强化学习阶段，批量大小为128，为每个提示生成8个轨迹，采样16个段落进行训练，学习率为1×10^-6，使用AdamW优化器。

这些看似复杂的技术细节实际上反映了研究团队对实验设计的深刻理解。每个参数的选择都经过了仔细的权衡，既要保证训练的稳定性，又要确保模型能够学到有效的记忆管理策略。

四、实验结果的精彩发现

当研究团队将训练好的MemAct模型投入实际测试时，结果令人惊喜。最引人注目的发现是，即使是相对较小的14B参数模型，在配备了记忆管理能力后，也能够超越那些大得多的传统模型。

在多目标问答任务上，MemAct-14B-RL模型达到了59.1%的平均准确率，这个成绩超过了所有对比基线，包括参数量是它十几倍的Qwen3-235B模型。更令人印象深刻的是，这种优秀的表现是在极其节省的资源消耗下实现的。MemAct模型平均每轮对话只使用3447个输入token，而传统的Search-R1-14B代理需要8625个token才能达到更低的准确率。

这种效率提升的背后反映了一个深刻的真理：智能不在于记忆容量的大小，而在于记忆管理的质量。就像一个整理能力强的人用小房间就能过得很舒适，而不会整理的人即使住豪宅也会感到拥挤混乱。

更有趣的是，研究团队发现不同大小的模型在经过相同的强化学习训练后，会自然演化出截然不同的策略。14B模型倾向于采用"效率优先"的策略：它学会了用更少的外部工具调用来完成任务，通过精确的记忆管理来维持推理的连贯性。相比之下，7B模型则采用了"勤补拙"的策略：它增加了外部工具的使用频率，同时大幅提升记忆管理的强度来处理更多的信息。

这种策略差异化体现了MemAct框架的一个重要优势：它不是强制所有模型采用相同的记忆策略，而是让每个模型根据自己的能力特点找到最适合的方案。这就像不同能力的学生会自然形成不同的学习方法，有些依靠深度思考，有些依靠大量练习。

在工具使用模式的分析中，研究团队观察到了一些fascinating patterns。对于14B模型，随着任务复杂度的增加，MemAct-RL版本始终比SFT版本使用更少的外部工具，表明强化学习帮助模型学会了更高效的问题解决路径。同时，记忆管理工具的使用频率保持在合理水平，说明模型学会了适时而不过度的记忆编辑。

对于7B模型，情况则相反。RL训练后的模型显著增加了外部工具的使用，同时记忆管理的频率也大幅上升。这种"双增长"模式反映了小模型的补偿策略：既然内在能力有限，就通过更多的外部信息收集和更积极的记忆整理来弥补不足。

令人惊喜的是，这两种截然不同的策略都实现了很好的token效率。研究数据显示，无论是14B模型的"精简路线"还是7B模型的"勤奋路线"，最终的总token消耗都远低于传统baseline模型。这证明了MemAct框架的通用有效性：它能够帮助不同能力的模型找到适合自己的高效策略。

在泛化能力测试中，MemAct模型展现出了令人印象深刻的鲁棒性。虽然训练时只接触过最多4个子目标的任务，但在面对8个子目标的复杂测试时，模型的性能下降相对平缓。这种优雅的性能退化表明模型学到的不是死记硬背的模式，而是真正的记忆管理原则。

在多个多跳问答基准测试中，MemAct的表现也相当稳定。在2WikiMultihopQA、Bamboogle、HotpotQA、Musique和Frames这五个数据集上，MemAct-14B-RL模型的平均分数达到了0.567，几乎与强baseline Search-R1的0.572相当，同时保持了更好的计算效率。

特别值得注意的是，从SFT版本到RL版本的改进在不同数据集上表现出了不同的程度。在Musique和Frames这两个需要更复杂推理链的数据集上，改进幅度最为明显。这暗示强化学习训练在优化长期推理策略方面特别有效，正好契合了记忆管理对长期任务的重要价值。

研究团队还测量了MemAct对训练效率的影响。结果显示，在7B模型上使用MemAct框架能够将rollout阶段的时间减少约40%，将策略更新阶段的时间减少约25%。这种效率提升直接转化为了训练成本的显著降低，使得强化学习训练变得更加可行和经济。

五、技术细节的巧思妙想

在MemAct框架的实现过程中，研究团队展现了许多技术细节上的巧思。这些看似微小的设计决策实际上对整个系统的成功起到了关键作用。

首先是记忆操作的具体实现机制。研究团队为每个工具调用的输出分配了一个随机生成的唯一ID，这个ID就像给每个文件贴上标签一样，使得后续的记忆管理变得精确和高效。当AI决定需要清理某些历史记录时，它只需要指定相应的ID列表，系统就能准确地删除对应的内容。

这种基于ID的删除机制避免了许多潜在的技术问题。比如，如果使用基于内容匹配的删除方法，可能会误删除相似但重要的信息。如果使用基于位置的删除方法，则可能因为历史记录的动态变化而产生错误。ID机制提供了一种既精确又稳定的解决方案。

在训练数据的构建过程中，研究团队采用了分段监督微调（Segmented SFT）的方法。这种方法不仅使用了DCPO的分割策略，还采用了相同的损失掩码机制。具体来说，在计算训练损失时，系统只对新生成的token计算梯度，而对历史上下文部分进行掩码处理。这确保了模型学习的重点始终在于如何根据当前上下文生成合适的响应，而不是如何重现历史信息。

DCPO算法中的轨迹采样策略也经过了精心设计。对于每个提示，系统生成Ntraj=8个完整轨迹，然后从中采样Nseg=16个段落进行训练。这种"超采样"设计（采样段落数超过轨迹数）通过轮询策略实现：系统首先从每个轨迹中抽取一个唯一段落，然后重复这个过程直到收集到足够的段落。

这种采样策略的巧妙之处在于它平衡了多样性和效率。通过确保每个轨迹都被采样，系统避免了某些轨迹被过度忽视的问题。同时，通过允许同一轨迹的多个段落被采样，系统又能够充分利用高质量轨迹中的丰富信息。

在奖励函数的设计上，研究团队选择了极简的稀疏奖励策略，但在实际应用中加入了一些细致的考虑。除了基本的成功奖励（+1.0）和约束惩罚（-0.1）之外，系统还会对执行失败的情况进行特殊处理，比如生成无法解析的最终答案或超出预设的行动步数限制。

这种奖励设计反映了强化学习中的一个重要原则：简单的奖励信号往往比复杂的启发式奖励更容易产生robust的学习结果。通过避免对中间步骤进行细致的奖励塑造，系统鼓励模型学习真正的长期策略，而不是短期的局部优化技巧。

在模型架构的选择上，研究团队基于Qwen2.5系列模型进行开发，这些模型在指令跟随和工具使用方面已经具备了良好的基础能力。通过在这些预训练模型的基础上添加记忆管理能力，研究避免了从零开始训练带来的巨大成本和不确定性。

训练过程中的超参数设置也体现了研究团队的丰富经验。在监督微调阶段，学习率设置为5×10^-5，这个值足够大以实现有效学习，但又不会破坏预训练模型的已有知识。在强化学习阶段，学习率进一步降低到1×10^-6，这种保守的设置确保了训练过程的稳定性。

轨迹终止条件的设计也很有讲究。系统设置了35步的最大工具使用限制，这个数字既给模型留出了足够的探索空间，又避免了过度长时间的inefficient exploration。这种平衡对于强化学习的成功至关重要。

在评估方面，研究团队选择使用GPT-4作为自动评判者，这个选择在当前的研究环境中既实用又可靠。通过carefully crafted的评估提示，自动评判能够提供consistent和scalable的性能评估，为大规模实验提供了必要的支持。

六、深远影响与未来展望

MemAct框架的成功不仅仅是一个技术突破，更代表了AI发展方向上的一个重要转折点。它向我们展示了一个重要的洞察：AI的智能程度不仅取决于它能记住多少信息，更取决于它如何聪明地管理这些信息。

这种记忆管理能力的习得过程特别值得关注。不同规模的模型在相同的训练环境下自然演化出了不同的策略，这表明记忆管理不是一种可以标准化的技能，而是需要根据模型的内在能力进行个性化适配的meta-skill。这种发现对AI训练方法论具有深远的启示意义。

从工程实践的角度来看，MemAct框架的成功证明了端到端学习的巨大潜力。传统的模块化方法虽然在工程上更容易实现和调试，但往往无法实现全局最优。MemAct通过将记忆管理纳入统一的策略学习框架，实现了任务性能和资源效率的协同优化。

这种设计哲学的转变可能会影响未来AI系统的整体架构。我们可能会看到更多的AI能力被重新conceptualized为learnable actions，而不是fixed modules。这种趋势将推动AI系统向更加flexible和adaptive的方向发展。

从计算资源的角度来看，MemAct的成功具有重要的经济意义。研究结果表明，通过intelligent memory management，smaller models可以achieve competitive performance while consuming significantly fewer computational resources。这为AI的democratization开辟了新的路径，使得resource-constrained的组织和个人也能够开发和部署sophisticated AI systems。

在训练效率方面，MemAct带来的40%的rollout时间减少和25%的更新时间减少直接转化为训练成本的降低。这种效率提升不仅降低了research barriers，也为industrial applications提供了更好的economic viability。

DCPO算法的成功也为reinforcement learning在non-stationary environments中的应用提供了新的思路。传统的RL算法通常假设environment或至少state representation是relatively static的，但DCPO证明了通过proper trajectory segmentation，RL可以successfully handle dynamically changing contexts。

这种capability对于许多real-world applications具有重要意义。比如，在human-AI collaboration scenarios中，conversation context经常发生non-linear changes due to topic shifts, clarifications, or corrections。DCPO类型的算法可能为这些scenarios提供more robust的learning solutions。

从认知科学的角度来看，MemAct框架与人类的记忆管理机制有许多相似之处。人类大脑也会主动forget irrelevant information，consolidate important memories，并根据current goals调整attention focus。MemAct的成功可能为understanding biological intelligence提供新的computational perspectives。

但是，研究团队也诚实地承认了当前工作的局限性。现有的记忆操作相对简单，主要限于deletion和summarization。更复杂的memory restructuring operations，比如re-ordering, merging, or hierarchical organization，还没有被探索。这些advanced operations可能会带来更大的performance gains，但也会增加training complexity。

另一个重要的限制是evaluation metrics的相对简单性。目前的评估主要focus on task accuracy和resource efficiency，但没有深入分析memory management strategies的quality or appropriateness。开发更sophisticated的evaluation frameworks将是future work的重要direction。

在scalability方面，虽然MemAct在tested scenarios中表现良好，但在extremely long-horizon tasks或highly complex multi-agent environments中的表现还有待验证。这些more challenging scenarios可能会reveal additional technical challenges that require further algorithmic innovations。

研究团队正在积极explore more advanced memory operations and broader application domains。他们计划investigate hierarchical memory structures, selective attention mechanisms, 和cross-modal memory management。这些extensions可能会进一步expand MemAct框架的applicability and effectiveness。

从broader AI safety和alignment的角度来看，MemAct引入了一些新的considerations。当AI可以actively modify its own memory时，ensuring the reliability和predictability of its behavior becomes more challenging。未来的研究需要develop appropriate safeguards和monitoring mechanisms来address这些concerns。

总的来说，MemAct框架代表了AI记忆管理领域的一个重要milestone。它不仅提供了一个practical solution to current limitations，更开启了一个新的research direction that could fundamentally change how we design和train AI systems。随着这个方向的continued development，我们可能会见证AI能力的another significant leap forward。

说到底，MemAct的成功告诉我们一个simple but profound truth：smart management往往比raw capacity更重要。这个insight不仅适用于AI系统，也适用于human organizations和processes。在information overload的时代，学会intelligent curation可能是achieving high performance的key factor。

Q&A

Q1：MemAct框架是什么？它解决了什么问题？

A：MemAct是"记忆即行动"框架，由北京交通大学团队开发。它让AI学会主动管理自己的工作记忆，就像人类会自动筛选重要信息、忘掉无关细节一样。传统AI必须记住对话中的每一个字，容易被无关信息淹没，而MemAct让AI能够删除无用信息、保留关键内容，大幅提升长对话任务的效率和准确性。

Q2：为什么MemAct需要新的训练算法DCPO？

A：因为传统的AI训练假设对话记录只能在末尾添加内容，但MemAct允许AI删除和修改之前的记录，这打破了原有假设，导致"轨迹断裂"问题。DCPO算法通过将AI行为按记忆操作时间点分割成多个连续段落，分别训练每个段落，解决了这个技术难题，确保训练过程的稳定性。

Q3：MemAct的实际效果如何？有什么优势？

A：实验显示，14B参数的MemAct模型准确率达到59.1%，超越了参数量大十几倍的传统模型，同时每轮对话只用3447个token，比对比模型节省60%以上资源。更有趣的是，不同大小的模型会自动学会不同策略：大模型追求效率，小模型采用勤补拙方式，都能实现很好的性能。

特别声明：以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布，本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.