MusubiAI的Mela模型是如何让机器也学会"遗忘与升华"的？|向量|序列|上下文|新论文|神经网络

分享至

这项由MusubiAI独立研究员完成的工作以预印本形式于2026年5月发布，论文编号为arXiv:2605.10537，感兴趣的读者可通过该编号查阅完整论文。

人的大脑每天都在悄悄做一件了不起的事——它不会把你经历过的每一个细节都原封不动地塞进脑袋，而是在你睡觉的时候，把那些零散的、原始的记忆碎片"重新整理"一遍：把重要的模式提炼成长期知识，把具体的情节压缩成抽象的经验。神经科学家把这个过程叫做"记忆巩固"。这篇论文的核心思路，就是把这套大脑的整理机制，原原本本地复刻到AI语言模型的设计里。

这件事听起来有点玄，但它解决的却是一个非常实际的工程难题。今天主流的AI语言模型，比如驱动各种聊天机器人的Transformer架构，有一个让工程师们头疼的缺陷：它处理文字时，需要同时"看着"所有的字，而这种"看"的计算代价会随着文字数量的增加急速膨胀——准确说是平方级增长。处理1000个字需要100万次计算，处理10000个字就需要1亿次。这就是为什么大多数AI模型都有一个"上下文窗口"的限制，超出这个范围，它就开始遗忘或者犯错。

MusubiAI提出的Mela模型，试图用一套仿照人类大脑记忆巩固机制的新结构，从根本上解决这个问题。研究团队训练Mela时只用了4096个字（4K）的上下文窗口，但在测试时，Mela却能稳定地处理32768个字（32K）的超长文本，而同等规模的传统Transformer模型在超过4K之后，表现就急剧崩溃。这篇文章将完整地带你理解这是怎么做到的。

一、记忆为什么重要，以及AI的记忆有什么问题

要理解Mela做了什么，得先从"记忆"这件事说起。

神经科学界有一个持续了几十年的辩论，核心问题是：人的记忆到底是怎么从短暂的印象变成长久的知识的？目前主流存在三种理论，它们在大方向上是一致的，但在细节上有争论。标准巩固理论认为，记忆先在大脑的海马体里暂存，然后慢慢转移到大脑皮层，最终与海马体完全"脱钩"成为独立的长期记忆。多重痕迹理论则认为，至少对于那些带有丰富情境细节的记忆，海马体永远都会参与其中，每次回忆都会留下新的痕迹，让记忆越来越牢固。而"转化假说"则是这篇论文最核心的灵感来源——它认为，记忆巩固的本质不是"把记忆搬到另一个地方"，而是"把记忆的内容从丰富具体的情节，转化成更抽象、更通用的图式知识"。海马体负责那些"你记得那天下午阳光很好"的细节感知，而大脑皮层负责的是"那段时间你总体上很快乐"这样的提炼性概念。更重要的是，转化假说认为，回忆本身不是被动地读取一段固定的录像，而是在当前情境、个人目标的共同作用下，主动重建出来的。

这套理论对AI设计有什么启发？研究团队认为，现有的AI语言模型有一个根本性的设计缺陷：它们要么把所有历史信息都保留在注意力窗口里（代价太大），要么把历史信息压缩成固定大小的状态向量（太粗糙，信息损失严重）。两种做法都没有做到"分层巩固"——既保留具体的情节细节，又提炼出抽象的全局知识，并且在回忆时能根据当前需要灵活地混合两者。

Mela的解决方案，就是在语言模型里内置一个模拟大脑记忆巩固过程的专用模块，让它在处理每一段新文字时，同时完成两件事：一是保留足够丰富的情节性记忆，二是将这些记忆持续提炼成更高层次的语义知识。

二、分工明确的记忆双引擎：HMM是什么

Mela架构的核心部件叫做"分层记忆模块"（Hierarchical Memory Module，简称HMM）。理解HMM最直接的方式，是把它比作一个由两位性格迥异的编辑共同运作的新闻编辑室。

第一位编辑叫做"L模块"（低层记忆模块），她的工作节奏非常快，对每一条新闻都保持高度关注，笔记里记满了具体的人名、地点、时间和细节。她的记忆是"情节性"的——在神经科学的类比中，她扮演的是海马体的角色。

第二位编辑叫做"H模块"（高层记忆模块），他工作节奏较慢，每隔一段时间才看一次L模块整理好的材料，然后从中提炼出这段时间的核心趋势和模式，写成一份言简意赅的综述。他的记忆是"语义性"的——在神经科学的类比中，他扮演的是大脑皮层的角色。

这两位编辑的关键区别不仅在于工作节奏，还在于他们分别处理什么程度的信息。L模块参数量更少，更"轻盈"，每一个时间步都会更新自己的记忆状态；H模块参数量更多、更"深沉"，每次只有在L模块已经完成若干轮整理之后，才会根据L模块的最新输出来更新自己的状态。这种更新节奏上的差异，在神经科学里有一个专门的名字，叫做"跨频耦合"——大脑里不同脑区的神经振荡以不同的频率运作，而它们之间的协同正是大脑整合信息的关键机制。研究发现，前额叶皮层的跨频耦合强度与人的流体智力高度相关，而跨频耦合的异常则与精神分裂症等认知障碍有关联。Mela的设计者认为，这种"快-慢嵌套"的结构值得被引入到AI架构设计中来。

两个模块是怎么协作的？这套协作机制叫做"分层潜递归"（Hierarchical Latent Recursion，简称HLR）。它的运作方式是这样的：给定一段输入文字，L模块先独立运行若干轮，不断打磨和精炼自己的"情节记忆"；每完成这若干轮，H模块就看一眼L模块此刻的状态，更新自己的"语义记忆"；这个"L循环多轮、H更新一次"的大循环再整体重复若干次。整个过程在训练时除了最后一轮之外，中间的递归步骤都不参与梯度计算（意思是不更新参数），只有最后一轮完整地走一遍反向传播。这种设计既避免了极大的计算开销，又让模型能在推理时做相当深度的"思考"。

HLR与之前一个叫做HRM（分层推理模型）的工作有相似之处，但有一个关键改进：HRM依赖一个"递归会收敛到固定点"的假设，以此来合理化它的梯度近似方法，而这个假设在实践中很难保证成立。Mela采用的HLR参考了另一个叫做TRM的工作——不依赖固定点假设，只对最后一步计算梯度——同时保留了HRM的神经科学分层设计哲学，并在其基础上加入了"两个模块的输出最终融合"这一关键改进，而不是像HRM和TRM那样只用高层模块的输出。

在具体实现上，HMM的每个记忆块内部包含两个子层：一个是"门控注意力"层，用来在局部窗口内灵活地读写信息；另一个是"神经记忆"层，它以神经网络的权重参数本身作为记忆的载体，通过梯度下降将新信息写入其中。神经记忆层的工作原理可以这样理解：它维护一张"键值对联想表"，每次接收新的输入时，都计算"当前输入和我已有的联想知识之间差了多少"，然后按照这个差值的大小来决定更新多少。这种"用惊讶程度来决定学习强度"的机制，与人类大脑中新奇刺激更容易被记住的机制有概念上的对应关系。

在内存更新的具体公式层面，Mela采用了带遗忘因子和动量的梯度更新规则。遗忘因子控制着过去的记忆保留多少——当它接近1时，几乎不遗忘；当它接近0时，几乎全部更新为新内容。动量则防止模型在"极度惊讶"的步骤之后陷入混乱，让更新方向保持一定的惯性。此外，Mela还引入了一个来自Muon优化器的技巧，叫做Newton-Schulz正交化——每次更新记忆权重时，先把梯度方向"正交化"（大致相当于让更新方向尽量不相互干扰），再写入记忆。消融实验证明这个步骤让困惑度下降了约0.21个点，是一个有效但往往容易被忽略的细节。

最后，在完成所有递归之后，HMM把H模块的语义记忆（h state）和L模块的情节记忆（l state）通过一个两层MLP（多层感知机，可以理解为一个简单的前馈神经网络）融合在一起，生成最终的记忆输出。这种融合方式允许模型根据当前查询的需要，灵活地在情节细节和语义概括之间权衡，而不是硬性地选择某一种。消融实验显示，简单的加权求和在这里效果反而不如不融合，因为固定的权重无法适应不同位置、不同情境下"情节记忆"和"语义记忆"各自的重要程度变化；而用MLP做融合，由于MLP可以做到"输入依赖"的非线性变换，效果最好。

三、记忆如何变成语言模型的"参考书"：Mela的整体架构

有了HMM这台"记忆工厂"，下一步是把它产出的记忆内容接入到真正做语言预测的解码器里。Mela的做法是把HMM产出的记忆片段，当作解码器在处理每一段文字时可以查阅的"参考书页"。

具体来说，输入的文字序列首先被切成若干固定大小的"块"（chunk），每一块在进入解码器之前，都会有若干个来自HMM的记忆特征向量被"拼在前面"。解码器在处理这一块文字时，文字里的每个词都可以看到这几个记忆特征向量，但块与块之间的文字相互看不见——跨越块边界的信息，必须完全依靠那几个记忆特征向量来传递。这个设计的用意是强迫解码器真正依赖HMM的记忆，而不是绕开记忆、直接靠注意力机制把很长的历史文字都看一遍。

在具体参数上，输入文字先经过一个1D卷积层被"打包"成更大颗粒的"补丁"（patch），每个补丁包含32个连续的词元，作为进入记忆模块的最小单位。补丁序列再被切成每块64个补丁的"块"，交给神经记忆层处理。这两个参数（补丁大小和块大小）控制着记忆更新的时间分辨率与计算代价之间的平衡。

更精妙的地方在于如何利用HMM递归过程中产生的中间状态。HLR进行H轮递归，每一轮都会产生一对（l state, h state）。研究团队提出了一个叫做MemStack的方法：不只是把最后一轮的记忆输出注入到解码器的输入层，而是把每一中间轮次的记忆状态（同样经过融合MLP处理）注入到解码器的对应早期层。具体来说，第1轮的中间记忆特征被加到解码器第1层的隐藏状态上，第2轮的特征加到第2层，以此类推，最后一轮的最终记忆特征则以普通记忆特征向量的形式存在于输入序列里。这样，解码器的早期层不仅处理记忆内容本身，还处理了记忆在不同巩固阶段的"中间形态"——研究团队认为，这类似于大脑在认知时可能同时访问不同抽象程度的记忆痕迹。消融实验验证了MemStack带来了约0.1个困惑度点的提升。

四、三个规模，一个结论：Mela在语言建模上真的更好吗

Mela被设计成三个参数规模：约4亿参数（400M）、约8亿参数（800M）和约12亿参数（1.2B）。每个规模都有一个同等参数量的Transformer++作为对照——Transformer++是现代LLaMA风格的标准Transformer，集成了RMSNorm、SwiGLU激活函数、旋转位置编码（RoPE）和分组查询注意力（GQA）等当前最佳实践。两组模型都用了同一个数据集（FineWeb-Edu）的50亿词元进行训练，训练时上下文窗口都固定在4096个词元（4K）。

评测指标是"困惑度"（perplexity）——简单说，困惑度越低，意味着模型预测下一个词的时候越"胸有成竹"，模型性能越好。

在4K以内的训练范围内，Mela在三个规模上都优于同等参数量的Transformer++。以400M为例，在4096词元的上下文长度下，Mela的困惑度是12.01，而Transformer++是12.56；在1024词元下，Mela是12.53，Transformer++是13.59。这说明Mela不是靠某种特殊的"长度技巧"赢的，而是在同等规模下确实学到了更好的语言模型。

更戏剧性的差距出现在超出训练长度之后。在8192词元（约为训练长度的两倍）时，Mela-400M的困惑度从4K时的12.01微升到12.64，而Transformer++-400M从12.56急剧跳升到28.26。到了16384词元，Mela-400M是14.43，Transformer++-400M已经飙到130.21。到了32768词元，Mela-400M稳在14.50，而Transformer++-400M是303.56——后者的困惑度已经高到实际上什么有用信息都没学到的程度。这个差距在1.2B的规模上同样成立：32K时，Mela-1.2B的困惑度是11.85，Transformer++-1.2B是597.37。

这说明什么？Mela通过HMM的记忆巩固机制，实际上在推理时"学会了"如何把超出训练窗口的历史信息压缩进记忆状态，因此当上下文变得更长时，它不会因为"没见过这么长的序列"而崩溃，而是继续用记忆状态来传递跨越片段边界的信息。

五、深入挖掘每个设计选择：消融实验说了什么

论文包含了相当详尽的消融实验，系统地验证了每个设计选择的贡献。

**H循环数量的影响。**H循环控制的是"整体巩固深度"——做几轮"L模块精炼多次、H模块更新一次"的大循环。把H从1增加到2，再从2增加到4，困惑度在所有上下文长度上都单调下降。在4K以内，H=2和H=4之间的差距很小（约0.06到0.08个点），但在超出4K之后，差距迅速扩大——在8K时差距达到0.33，在16K时是0.18。这个规律暗示了一件有意义的事：更深的H循环对于长程记忆的质量至关重要，而不只是对短程预测有帮助。这与转化假说的预测一致——长时间的巩固过程对于形成高质量的长期语义记忆更加重要。

**L循环数量的影响。**L循环控制的是"H模块每次得到多精炼的情节记忆作为输入"。L=4明显优于L=1，比如在4K时困惑度从14.96降到13.59。但一个有趣的异常是L=2反而比L=1还差——在1K时，L=2是23.72，而L=1是21.24，L=4是19.11。研究团队解释说，两步的L循环处于一个"尴尬区间"：已经足够延迟H模块的更新（带来了信息滞后），但又不足以真正精炼出有意义的情节记忆（没有收到足够的回报）。同时，L循环的效果沿着上下文长度轴呈现出与H循环相反的趋势：L=2和L=4之间的差距在短上下文时更大（1K时差4.61），随着上下文增长而收窄（16K时差0.80）。这意味着高质量的情节性输入在上下文短时最关键——此时模型能依赖的历史信息本来就少，情节记忆的质量直接决定成败；而当上下文足够长时，H模块积累了足够多的巩固知识，部分弥补了情节记忆质量不足的影响。

**H模块和L模块深度的影响。**在这部分，研究者分别把H模块和L模块的记忆块数量从2增加到8，观察效果。结论是两者都从更多层数中受益，但方式不同。L模块加深的好处在短上下文最大，随长度增加而减小（1K时差0.49，16K时差0.19）。H模块加深则相反，好处随上下文增长而增大（1K时差0.51，8K时达到1.19，16K时0.74）。这两条曲线共同指向一个统一的叙事：短上下文时，情节记忆的质量是瓶颈；长上下文时，将大量情节片段整合成连贯语义表示的能力是瓶颈。

**门控注意力的重要性。**消融实验中单个组件影响最大的是门控机制：去掉门控后，困惑度从16.40跳到17.64，上升了1.24个点，是表格里最大的单项差距。研究团队的解释是，H模块和L模块处理的信号来自不同时间尺度，门控机制允许模型在写入记忆时有选择地抑制不相关的信息，而没有门控时，每一个输入都无差别地影响记忆状态，使得最终的记忆表示更难被解码器利用。

**神经记忆vs.注意力的贡献。**去掉神经记忆（困惑度上升0.43）比去掉注意力（困惑度上升0.13）的代价大得多。这印证了设计的初衷：注意力负责局部窗口内的精细检索，神经记忆负责跨片段的持久状态维护，两者互补，但神经记忆对长程信息传递的贡献更根本。

说到底，Mela这项研究做的事情，用最简单的话说就是：把神经科学里研究了几十年的"大脑怎么整理记忆"的理论，翻译成了一套可以用代码实现、可以在真实语言模型里测试的架构设计。它不是在说"AI和人脑是一样的"——论文本身也明确指出，它不主张自己的系统在功能上等价于生物记忆系统。但它提供了一个令人信服的论证：用那些支撑了人类复杂认知功能的神经科学原理作为架构设计的指导框架，是一条值得走的路。

三个规模的实验都证明，在同等参数量下，带有HMM的Mela确实比没有记忆模块的标准Transformer更准确，而且在超出训练长度的上下文上，差距会随着长度的增加而迅速扩大。这对于那些需要处理长文档、长对话或长代码的应用场景来说，意味着在不增加训练成本的前提下，可能获得相当可观的实用优势。

对于AI研究领域，这项工作更深层的意义或许在于它提示了一种思路：在模型规模越来越大、训练数据越来越多之外，架构设计本身仍然有很大的探索空间，而神经科学提供了一个丰富但尚未被充分挖掘的灵感库。当然，目前Mela只在语言建模这一个任务上做了评测，它是否能在问答、推理、代码生成等更多下游任务上带来同样的收益，还有待后续研究验证。

Q&A

Q1：Mela模型和普通Transformer模型的最大区别是什么？

A：普通Transformer在处理文字时需要同时"看着"所有历史内容，计算量随文字数量急速增长，超出训练范围就会出错。Mela加入了一个模拟大脑记忆巩固过程的HMM模块，它会持续把历史信息提炼成两种记忆——保留细节的情节记忆和保留规律的语义记忆，并把它们作为"参考书"提供给语言解码器，因此即使文字超出训练长度，Mela也能继续正常工作。

Q2：HMM里的L模块和H模块分别做什么？

A：L模块（低层记忆模块）类似大脑海马体，更新频率高，专注保留丰富的情节性细节。H模块（高层记忆模块）类似大脑皮层，更新频率低，每次等L模块完成多轮精炼后才处理，专注把情节细节提炼为更抽象的语义知识。最终的记忆输出是两者通过MLP融合的结果，模型可以根据当前需要灵活地偏重其中一方。

Q3：MemStack是什么，为什么要用它？

A：MemStack是一种把HMM递归过程中每一中间轮次产生的记忆状态，分别注入解码器对应早期层的方法。这样解码器不只得到最终巩固好的记忆，还能看到记忆在不同程度巩固阶段的"中间形态"，类似大脑可能同时访问不同抽象层次的记忆痕迹。消融实验显示，使用MemStack后困惑度下降约0.1个点，计算代价没有增加，因为它不引入额外的token。

特别声明：以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布，本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.