不调参、不费力！上海交大&上海AI Lab推出“记忆解码器”，任意LLM无缝自适应|图像生成基础模型

不调参、不费力！上海交大&上海AI Lab推出“记忆解码器”，任意LLM无缝自适应

2025-08-26 15:56:40　来源: 学术头条

北京举报

分享至

当前，大语言模型（LLM）在医疗、金融、法律等专业领域，常因缺乏深度知识而表现较差，如何让 LLM 在不同特定领域中发挥最佳性能，仍是一大挑战。

现有主流方案包括领域自适应预训练（DAPT）和检索增强生成（RAG）。然而，DAPT需要进行耗时的全参数训练，且易产生灾难性遗忘，难以让多个模型在同一领域中高效适配；而 RAG 也因昂贵的 kNN 搜索和更长的上下文，推理延迟大大增加。

而且，由于 RAG 的即插即用特性与 DAPT 的推理效率之间存在固有矛盾，开发既能跨模型适应，又能在部署时保持计算效率的解决方案，仍为空白。

为此，来自上海交通大学和上海AI Lab的研究团队提出了一个“即插即用”的预训练记忆模块——“记忆解码器”（Memory Decoder），无需修改原模型参数，即可适配不同尺寸模型，实现 LLM 的高效领域适应。

论文链接：https://arxiv.org/abs/2508.09874v1

Memory Decoder 的核心创新在于其“即插即用”的特性。经过训练后，单个Memory Decoder可无缝集成到任何使用相同 tokenizer 的 LLM 中，而无需进行模型特定调整或额外训练。这种设计实现了跨不同模型架构的即时部署，显著降低了部署成本。

实验结果表明，Memory Decoder 能够有效地将各种 Qwen 和 Llama 模型适应于生物医学、金融和法律专业领域，困惑度平均降低 6.17%。

架构

在预训练阶段，Memory Decoder 通过分布对齐损失函数，学习如何将其输出分布与非参数检索器生成的分布进行对齐。

在推理阶段，Memory Decoder 与基础语言模型并行处理输入数据，通过插值其分布生成领域增强型预测结果，且无需额外的检索开销。

图｜Memory Decoder 架构概览，在预训练阶段学习模仿非参数检索分布，在推理阶段无缝集成任何兼容的语言模型，从而消除数据存储维护和 kNN 搜索带来的计算开销。

与传统基于单标签目标的语言建模方法不同，kNN 分布通过捕捉领域内合理延续的多样性，提供更丰富的监督信号。大量实验验证，混合目标函数能获得最佳性能。这一研究方法的核心在于引入分布对齐损失函数，该函数通过最小化 Memory Decoder 输出分布与缓存 kNN 分布之间的 KL 散度来实现。

图｜跨领域适应方法的推理延迟比较

经过预训练的 Memory Decoder 能够通过简单的插值操作，将任何语言模型与兼容的 tokenizer 适配到目标领域。

相比其他领域自适应技术，Memory Decoder 仅需对相对较小的 transformer 解码器进行单次前向传播，在推理效率上实现了显著提升。Memory Decoder 与 LLM 之间的进程通信开销可通过延长推理时间来分摊，而 kNN 搜索则会随数据量线性增长。这种计算优势结合 Memory Decoder 的“模型无关”设计，使其在对性能和效率都至关重要的生产环境中具有独特价值。

性能评估

研究团队评估了 Memory Decoder 在 6 种互补场景下的性能：

在 WikiText-103 数据集上的语言建模，验证其在不同规模 GPT-2 模型中的适用性；
下游任务测试，验证领域适应过程中通用能力的保留效果；
跨模型适应，展示单个 Memory Decoder 在 Qwen 模型（0.5B-72B）带来的性能提升；
跨词汇适应，证明不同 tokenizer 间的高效迁移能力；
知识密集型问答任务，证明 Memory Decoder 在保持推理能力的同时也可以增强事实回忆功能——这是传统检索方法的关键局限；
针对特定领域的下游任务，验证其在 13 项真实场景基准测试中对上下文学习能力的保持。

具体如下：

1.WikiText-103中的语言建模

表｜GPT2 模型在 WikiText-103 数据集上的域适应方法的困惑度对比

上表展示了 Memory Decoder在所有 GPT2 模型尺寸上的有效性。仅需 1.24 亿参数的单个 Memory Decoder，就能显著提升整个 GPT2 系列模型的性能，展现了其即插即用的优势——无论基础模型规模如何。

即使在应用于更大规模的模型时，尽管 DAPT 由于采用全模型更新而具有固有优势，Memory Decoder 依然保持着强劲的竞争力，且在不修改任何原始参数的情况下，能够持续超越其他所有参数优化方法。

这些结果证明，小参数解码器既能有效发挥非参数检索的优势，又能大幅降低计算开销。

2.下游性能

表｜在情感分析、文本蕴含和文本分类等 9 种不同 NLP 任务上的性能表现

如上表，在零样本评估环境中，Memory Decoder 在增强领域适应的同时保持通用语言功能的能力。与在多个任务中出现灾难性遗忘的 DAPT 不同，Memory Decoder 在所有评估任务中，均能保持或提升性能。

这一方法在全部 9 项任务中均取得最高平均分。不仅超越了基础模型、kNN-LM 和 LoRA，还在 CB、RTE 等文本蕴含任务中展现出独特优势。

这些结果验证了这一架构的核心优势：在保持原始模型参数完整的同时，Memory Decoder 通过融入领域知识，实现了无需牺牲通用能力的领域适应。

3.跨模型适应

表｜三个专业领域的跨模型适应结果

上表展示出 Memory Decoder 在不同模型规模和架构上的即插即用能力。单个Memory Decoder (0.5B 参数）在 Qwen2 和 Qwen2.5 系列的所有模型中均能持续提升性能。单一预训练记忆组件可提升共享同一 tokenizer 的多个模型，实现高效的领域适应扩展，使得不同尺寸模型都能持续超越现有方法。

4.跨词汇适应

表｜跨模型知识迁移效果显著

上表展示了 Memory Decoder 在不同 tokenizer 和模型架构下的泛化能力。通过仅重新初始化基于 Qwen2.5 训练的 Memory Decoder 的嵌入层和语言模型头，团队成功将其适配到 Llama 模型家族，且仅需原训练预算的 10%。这种高效的迁移能力使所有 Llama 变体都实现了性能提升。

对于 Llama3-8B，Memory Decoder 在生物医学和金融领域降低了约 50% 困惑度。类似的改进也延伸至 Llama3.1 和 Llama3.2，他们的方法在生物医学和金融领域始终优于 LoRA，但在法律文本领域仍有改进空间。

这些发现表明，Memory Decoder 的通用性超越了单一 tokenizer 家族，证明了从单一架构中习得的领域知识可以高效迁移至其他架构，且仅需要少量额外训练。这一能力扩展了我们方法的实际应用价值，为在多样化的模型生态系统中实现领域适应提供了简化的路径。

5.知识密集型推理任务

表｜知识密集型问答任务的性能表现

虽然 RAG 方法在提升事实记忆方面表现出色，但在同时需要知识检索与复杂推理的任务中却常常表现较差。先前研究表明，尽管 kNN-LM 能从相关维基百科语料库中检索信息，但在知识密集型问答任务中反而可能影响性能表现。

如上表所示，Memory Decoder 在两项基准测试中成功增强了模型获取事实性知识的能力，同时保持了推理能力，解决了传统检索方法的根本性局限。

实验结果表明，通过学习内化检索模式而非依赖显式推理，Memory Decoder 在保持处理复杂多跳问题所需组合推理能力的同时，还能充分利用扩展后的知识访问优势。

不足

以上结果证明，Memory Decoder 保留了检索方法的记忆能力，又兼具参数化方法的高效性和泛化优势。

Memory Decoder 的多功能性和高效性，使得它能无缝增强任何共享相同 tokenizer 的模型，且只需少量额外训练即可适配不同 tokenizer 和架构的模型。这种能力使得跨模型家族的高效领域适应成为可能，大幅减少了专用模型开发通常所需的资源。

可以说，Memory Decoder开创了领域自适应的新范式，并从根本上重新定义了如何为特定领域定制语言模型。通过预训练记忆组件将领域专业知识与模型架构解耦，这一方法构建了一个更模块化、高效且易于访问的框架，从而能够提升语言模型在专业领域的表现。

然而，Memory Decoder也并非完美，依然存在一些局限性。

例如，在预训练阶段，Memory Decoder 需要通过 KV 数据存储进行搜索，以获取 kNN 分布作为训练信号，这会产生计算开销。尽管该成本仅在每个领域中产生一次，且可分摊至所有适应模型，但这仍是整个流程中的瓶颈。

此外，尽管跨 tokenizer 适应相比从头训练所需参数更新较少，但仍需进行部分参数调整以对齐嵌入空间，阻碍了真正「零样本跨架构迁移」的实现。

作者：小瑜

如需转载或投稿，请直接在公众号内留言

特别声明：以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布，本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.