网易首页 > 网易号 > 正文 申请入驻

不调参、不费力!上海交大&上海AI Lab推出“记忆解码器”,任意LLM无缝自适应

0
分享至


当前,大语言模型(LLM)在医疗、金融、法律等专业领域,常因缺乏深度知识而表现较差,如何让 LLM 在不同特定领域中发挥最佳性能,仍是一大挑战

现有主流方案包括领域自适应预训练(DAPT)检索增强生成(RAG)。然而,DAPT需要进行耗时的全参数训练,且易产生灾难性遗忘,难以让多个模型在同一领域中高效适配;而 RAG 也因昂贵的 kNN 搜索和更长的上下文,推理延迟大大增加。

而且,由于 RAG 的即插即用特性与 DAPT 的推理效率之间存在固有矛盾,开发既能跨模型适应,又能在部署时保持计算效率的解决方案,仍为空白。

为此,来自上海交通大学上海AI Lab的研究团队提出了一个“即插即用”的预训练记忆模块——“记忆解码器”(Memory Decoder),无需修改原模型参数,即可适配不同尺寸模型,实现 LLM 的高效领域适应。


论文链接:https://arxiv.org/abs/2508.09874v1

Memory Decoder 的核心创新在于其“即插即用”的特性。经过训练后,单个Memory Decoder可无缝集成到任何使用相同 tokenizer 的 LLM 中,而无需进行模型特定调整或额外训练。这种设计实现了跨不同模型架构的即时部署,显著降低了部署成本。

实验结果表明,Memory Decoder 能够有效地将各种 Qwen 和 Llama 模型适应于生物医学、金融和法律专业领域,困惑度平均降低 6.17%。

架构

在预训练阶段,Memory Decoder 通过分布对齐损失函数,学习如何将其输出分布与非参数检索器生成的分布进行对齐。

在推理阶段,Memory Decoder 与基础语言模型并行处理输入数据,通过插值其分布生成领域增强型预测结果,且无需额外的检索开销。


图|Memory Decoder 架构概览,在预训练阶段学习模仿非参数检索分布,在推理阶段无缝集成任何兼容的语言模型,从而消除数据存储维护和 kNN 搜索带来的计算开销。

与传统基于单标签目标的语言建模方法不同,kNN 分布通过捕捉领域内合理延续的多样性,提供更丰富的监督信号。大量实验验证,混合目标函数能获得最佳性能。这一研究方法的核心在于引入分布对齐损失函数,该函数通过最小化 Memory Decoder 输出分布与缓存 kNN 分布之间的 KL 散度来实现。


图|跨领域适应方法的推理延迟比较

经过预训练的 Memory Decoder 能够通过简单的插值操作,将任何语言模型与兼容的 tokenizer 适配到目标领域

相比其他领域自适应技术,Memory Decoder 仅需对相对较小的 transformer 解码器进行单次前向传播,在推理效率上实现了显著提升。Memory Decoder 与 LLM 之间的进程通信开销可通过延长推理时间来分摊,而 kNN 搜索则会随数据量线性增长。这种计算优势结合 Memory Decoder 的“模型无关”设计,使其在对性能和效率都至关重要的生产环境中具有独特价值。

性能评估

研究团队评估了 Memory Decoder 在 6 种互补场景下的性能:

  • 在 WikiText-103 数据集上的语言建模,验证其在不同规模 GPT-2 模型中的适用性;

  • 下游任务测试,验证领域适应过程中通用能力的保留效果;

  • 跨模型适应,展示单个 Memory Decoder 在 Qwen 模型(0.5B-72B)带来的性能提升;

  • 跨词汇适应,证明不同 tokenizer 间的高效迁移能力;

  • 知识密集型问答任务,证明 Memory Decoder 在保持推理能力的同时也可以增强事实回忆功能——这是传统检索方法的关键局限;

  • 针对特定领域的下游任务,验证其在 13 项真实场景基准测试中对上下文学习能力的保持。

具体如下:

1.WikiText-103中的语言建模


表|GPT2 模型在 WikiText-103 数据集上的域适应方法的困惑度对比

上表展示了 Memory Decoder在所有 GPT2 模型尺寸上的有效性。仅需 1.24 亿参数的单个 Memory Decoder,就能显著提升整个 GPT2 系列模型的性能,展现了其即插即用的优势——无论基础模型规模如何。

即使在应用于更大规模的模型时,尽管 DAPT 由于采用全模型更新而具有固有优势,Memory Decoder 依然保持着强劲的竞争力,且在不修改任何原始参数的情况下,能够持续超越其他所有参数优化方法。

这些结果证明,小参数解码器既能有效发挥非参数检索的优势,又能大幅降低计算开销。

2.下游性能


表|在情感分析、文本蕴含和文本分类等 9 种不同 NLP 任务上的性能表现

如上表,在零样本评估环境中,Memory Decoder 在增强领域适应的同时保持通用语言功能的能力。与在多个任务中出现灾难性遗忘的 DAPT 不同,Memory Decoder 在所有评估任务中,均能保持或提升性能。

这一方法在全部 9 项任务中均取得最高平均分。不仅超越了基础模型、kNN-LM 和 LoRA,还在 CB、RTE 等文本蕴含任务中展现出独特优势。

这些结果验证了这一架构的核心优势:在保持原始模型参数完整的同时,Memory Decoder 通过融入领域知识,实现了无需牺牲通用能力的领域适应。

3.跨模型适应


表|三个专业领域的跨模型适应结果

上表展示出 Memory Decoder 在不同模型规模和架构上的即插即用能力。单个Memory Decoder (0.5B 参数)在 Qwen2 和 Qwen2.5 系列的所有模型中均能持续提升性能。单一预训练记忆组件可提升共享同一 tokenizer 的多个模型,实现高效的领域适应扩展,使得不同尺寸模型都能持续超越现有方法。

4.跨词汇适应


表|跨模型知识迁移效果显著

上表展示了 Memory Decoder 在不同 tokenizer 和模型架构下的泛化能力。通过仅重新初始化基于 Qwen2.5 训练的 Memory Decoder 的嵌入层和语言模型头,团队成功将其适配到 Llama 模型家族,且仅需原训练预算的 10%。这种高效的迁移能力使所有 Llama 变体都实现了性能提升。

对于 Llama3-8B,Memory Decoder 在生物医学和金融领域降低了约 50% 困惑度。类似的改进也延伸至 Llama3.1 和 Llama3.2,他们的方法在生物医学和金融领域始终优于 LoRA,但在法律文本领域仍有改进空间。

这些发现表明,Memory Decoder 的通用性超越了单一 tokenizer 家族,证明了从单一架构中习得的领域知识可以高效迁移至其他架构,且仅需要少量额外训练。这一能力扩展了我们方法的实际应用价值,为在多样化的模型生态系统中实现领域适应提供了简化的路径。

5.知识密集型推理任务


表|知识密集型问答任务的性能表现

虽然 RAG 方法在提升事实记忆方面表现出色,但在同时需要知识检索与复杂推理的任务中却常常表现较差。先前研究表明,尽管 kNN-LM 能从相关维基百科语料库中检索信息,但在知识密集型问答任务中反而可能影响性能表现。

如上表所示,Memory Decoder 在两项基准测试中成功增强了模型获取事实性知识的能力,同时保持了推理能力,解决了传统检索方法的根本性局限。

实验结果表明,通过学习内化检索模式而非依赖显式推理,Memory Decoder 在保持处理复杂多跳问题所需组合推理能力的同时,还能充分利用扩展后的知识访问优势。

不足


以上结果证明,Memory Decoder 保留了检索方法的记忆能力,又兼具参数化方法的高效性和泛化优势。

Memory Decoder 的多功能性和高效性,使得它能无缝增强任何共享相同 tokenizer 的模型,且只需少量额外训练即可适配不同 tokenizer 和架构的模型。这种能力使得跨模型家族的高效领域适应成为可能,大幅减少了专用模型开发通常所需的资源

可以说,Memory Decoder开创了领域自适应的新范式,并从根本上重新定义了如何为特定领域定制语言模型。通过预训练记忆组件将领域专业知识与模型架构解耦,这一方法构建了一个更模块化、高效且易于访问的框架,从而能够提升语言模型在专业领域的表现。

然而,Memory Decoder也并非完美,依然存在一些局限性。

例如,在预训练阶段,Memory Decoder 需要通过 KV 数据存储进行搜索,以获取 kNN 分布作为训练信号,这会产生计算开销。尽管该成本仅在每个领域中产生一次,且可分摊至所有适应模型,但这仍是整个流程中的瓶颈。

此外,尽管跨 tokenizer 适应相比从头训练所需参数更新较少,但仍需进行部分参数调整以对齐嵌入空间,阻碍了真正「零样本跨架构迁移」的实现。

作者:小瑜

如需转载或投稿,请直接在公众号内留言

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
长春亚泰6比0成都蓉城!重返中超稳了?上演一天两胜,打出统治力

长春亚泰6比0成都蓉城!重返中超稳了?上演一天两胜,打出统治力

罗掌柜体育
2026-02-01 15:03:02
大破防!华裔二代怒撕父母:你们当初移民美国,我们错过中国发展

大破防!华裔二代怒撕父母:你们当初移民美国,我们错过中国发展

星星会坠落
2026-01-31 23:18:10
果然不出所料!委内瑞拉正式宣布了!

果然不出所料!委内瑞拉正式宣布了!

达文西看世界
2026-01-31 19:13:13
HWG!罗马诺:博加租借加盟尤文,含500万欧非强制买断条款

HWG!罗马诺:博加租借加盟尤文,含500万欧非强制买断条款

懂球帝
2026-02-01 11:35:10
90多岁日本奶奶连续在一家公司干了快70年!会长甚至还当她“小弟”?

90多岁日本奶奶连续在一家公司干了快70年!会长甚至还当她“小弟”?

日本通
2026-01-30 10:33:54
“硅基少女”现身上海,全球首款完全仿生具身智能机器人Moya发布

“硅基少女”现身上海,全球首款完全仿生具身智能机器人Moya发布

IT之家
2026-01-31 11:52:08
不查不知道一查吓一跳,坐拥北京60亩马场的于谦,私下到底有多壕

不查不知道一查吓一跳,坐拥北京60亩马场的于谦,私下到底有多壕

小熊侃史
2026-01-20 07:40:05
警惕!仙人跳3.0杀疯了,专坑老实人,一次私了就可能毁终身

警惕!仙人跳3.0杀疯了,专坑老实人,一次私了就可能毁终身

老特有话说
2026-01-29 23:44:15
中资港口双线告急!美式霸权“黑手”伸向全球,中国岂能坐视?

中资港口双线告急!美式霸权“黑手”伸向全球,中国岂能坐视?

无情有思ss
2026-02-01 15:23:37
77年邓华复出,叶剑英问他有何要求,邓华:让我老哥重回部队工作

77年邓华复出,叶剑英问他有何要求,邓华:让我老哥重回部队工作

兴趣知识
2026-02-01 08:24:57
终于是时候了!2026老旧小区加梯新规,1楼6楼都支持,不用再吵了

终于是时候了!2026老旧小区加梯新规,1楼6楼都支持,不用再吵了

老特有话说
2026-01-30 23:03:43
后悔也晚了!大批F35逼到家门口,伊朗却发现红旗9和歼10还未到位

后悔也晚了!大批F35逼到家门口,伊朗却发现红旗9和歼10还未到位

文雅笔墨
2026-01-25 03:11:20
“很晦气,这房子不敢住了!” 杭州夫妻买房2年后得知一个消息,想退房了

“很晦气,这房子不敢住了!” 杭州夫妻买房2年后得知一个消息,想退房了

潇湘晨报
2026-01-31 10:38:17
上海明确:今年确保新增就业60万人以上,帮助2万名长期失业人员实现再就业

上海明确:今年确保新增就业60万人以上,帮助2万名长期失业人员实现再就业

纵相新闻
2026-02-01 03:17:18
国产半导体,具备“唯一性”的10家公司,机构扎堆抢筹(附名单)

国产半导体,具备“唯一性”的10家公司,机构扎堆抢筹(附名单)

白浅娱乐聊
2026-02-01 14:55:44
最新民调:郑丽文信任度28.7%、不信任度53.5%。真是弱鸡一只

最新民调:郑丽文信任度28.7%、不信任度53.5%。真是弱鸡一只

我心纵横天地间
2026-01-31 13:20:47
“秦岚”也太凡尔赛了吧!穿一身瑜伽服凹凸有致,巴掌腰太抢镜

“秦岚”也太凡尔赛了吧!穿一身瑜伽服凹凸有致,巴掌腰太抢镜

巧手晓厨娘
2025-12-30 18:59:18
大量变压器工厂已经处于满产的状态 其中部分面向数据中心的业务订单已排到2027年

大量变压器工厂已经处于满产的状态 其中部分面向数据中心的业务订单已排到2027年

财联社
2026-01-31 19:20:12
牢A命中,被一窝端16人都是女留学生

牢A命中,被一窝端16人都是女留学生

雪中风车
2026-01-28 13:23:54
本书当年在地下被广泛传抄,影响了一代人(刺痛,却令人清醒!)

本书当年在地下被广泛传抄,影响了一代人(刺痛,却令人清醒!)

尚曦读史
2026-01-29 07:07:36
2026-02-01 16:08:49
学术头条
学术头条
致力于学术传播和科学普及,重点关注AI4Science、大模型等前沿科学进展。
1430文章数 5081关注度
往期回顾 全部

科技要闻

腾讯元宝宣布:10亿现金红包,今日开抢

头条要闻

马斯克曾问爱泼斯坦:岛上哪一晚会有"最疯狂的派对"

头条要闻

马斯克曾问爱泼斯坦:岛上哪一晚会有"最疯狂的派对"

体育要闻

锁喉吃红牌+扇耳光 英超15人打群架

娱乐要闻

马年春晚第三次联排,多位明星现身

财经要闻

黄仁勋台北"夜宴":汇聚近40位台企高管

汽车要闻

岚图汽车1月交付10515辆 同比增长31%

态度原创

时尚
教育
手机
数码
军事航空

伊姐周六热推:电视剧《年少有为》;电视剧《有罪之身》......

教育要闻

10秒钟学会绝对值

手机要闻

不忘中端机!华为畅享70X获鸿蒙OS 6公测,功能不输旗舰

数码要闻

苹果改进线上商店购机流程 Mac订单全面改为“自选配置”模式

军事要闻

伊朗民众:伊朗不会屈服于美国霸权

无障碍浏览 进入关怀版