网易首页 > 网易号 > 正文 申请入驻

不调参、不费力!上海交大&上海AI Lab推出“记忆解码器”,任意LLM无缝自适应

0
分享至

当前,大语言模型(LLM)在医疗、金融、法律等专业领域,常因缺乏深度知识而表现较差,如何让 LLM 在不同特定领域中发挥最佳性能,仍是一大挑战

现有主流方案包括领域自适应预训练(DAPT)检索增强生成(RAG)。然而,DAPT需要进行耗时的全参数训练,且易产生灾难性遗忘,难以让多个模型在同一领域中高效适配;而 RAG 也因昂贵的 kNN 搜索和更长的上下文,推理延迟大大增加。

而且,由于 RAG 的即插即用特性与 DAPT 的推理效率之间存在固有矛盾,开发既能跨模型适应,又能在部署时保持计算效率的解决方案,仍为空白。

为此,来自上海交通大学上海AI Lab的研究团队提出了一个“即插即用”的预训练记忆模块——“记忆解码器”(Memory Decoder),无需修改原模型参数,即可适配不同尺寸模型,实现 LLM 的高效领域适应。

论文链接:https://arxiv.org/abs/2508.09874v1

Memory Decoder 的核心创新在于其“即插即用”的特性。经过训练后,单个Memory Decoder可无缝集成到任何使用相同 tokenizer 的 LLM 中,而无需进行模型特定调整或额外训练。这种设计实现了跨不同模型架构的即时部署,显著降低了部署成本。

实验结果表明,Memory Decoder 能够有效地将各种 Qwen 和 Llama 模型适应于生物医学、金融和法律专业领域,困惑度平均降低 6.17%。

架构

在预训练阶段,Memory Decoder 通过分布对齐损失函数,学习如何将其输出分布与非参数检索器生成的分布进行对齐。

在推理阶段,Memory Decoder 与基础语言模型并行处理输入数据,通过插值其分布生成领域增强型预测结果,且无需额外的检索开销。

图|Memory Decoder 架构概览,在预训练阶段学习模仿非参数检索分布,在推理阶段无缝集成任何兼容的语言模型,从而消除数据存储维护和 kNN 搜索带来的计算开销。

与传统基于单标签目标的语言建模方法不同,kNN 分布通过捕捉领域内合理延续的多样性,提供更丰富的监督信号。大量实验验证,混合目标函数能获得最佳性能。这一研究方法的核心在于引入分布对齐损失函数,该函数通过最小化 Memory Decoder 输出分布与缓存 kNN 分布之间的 KL 散度来实现。

图|跨领域适应方法的推理延迟比较

经过预训练的 Memory Decoder 能够通过简单的插值操作,将任何语言模型与兼容的 tokenizer 适配到目标领域

相比其他领域自适应技术,Memory Decoder 仅需对相对较小的 transformer 解码器进行单次前向传播,在推理效率上实现了显著提升。Memory Decoder 与 LLM 之间的进程通信开销可通过延长推理时间来分摊,而 kNN 搜索则会随数据量线性增长。这种计算优势结合 Memory Decoder 的“模型无关”设计,使其在对性能和效率都至关重要的生产环境中具有独特价值。

性能评估

研究团队评估了 Memory Decoder 在 6 种互补场景下的性能:

  • 在 WikiText-103 数据集上的语言建模,验证其在不同规模 GPT-2 模型中的适用性;

  • 下游任务测试,验证领域适应过程中通用能力的保留效果;

  • 跨模型适应,展示单个 Memory Decoder 在 Qwen 模型(0.5B-72B)带来的性能提升;

  • 跨词汇适应,证明不同 tokenizer 间的高效迁移能力;

  • 知识密集型问答任务,证明 Memory Decoder 在保持推理能力的同时也可以增强事实回忆功能——这是传统检索方法的关键局限;

  • 针对特定领域的下游任务,验证其在 13 项真实场景基准测试中对上下文学习能力的保持。

具体如下:

1.WikiText-103中的语言建模

表|GPT2 模型在 WikiText-103 数据集上的域适应方法的困惑度对比

上表展示了 Memory Decoder在所有 GPT2 模型尺寸上的有效性。仅需 1.24 亿参数的单个 Memory Decoder,就能显著提升整个 GPT2 系列模型的性能,展现了其即插即用的优势——无论基础模型规模如何。

即使在应用于更大规模的模型时,尽管 DAPT 由于采用全模型更新而具有固有优势,Memory Decoder 依然保持着强劲的竞争力,且在不修改任何原始参数的情况下,能够持续超越其他所有参数优化方法。

这些结果证明,小参数解码器既能有效发挥非参数检索的优势,又能大幅降低计算开销。

2.下游性能

表|在情感分析、文本蕴含和文本分类等 9 种不同 NLP 任务上的性能表现

如上表,在零样本评估环境中,Memory Decoder 在增强领域适应的同时保持通用语言功能的能力。与在多个任务中出现灾难性遗忘的 DAPT 不同,Memory Decoder 在所有评估任务中,均能保持或提升性能。

这一方法在全部 9 项任务中均取得最高平均分。不仅超越了基础模型、kNN-LM 和 LoRA,还在 CB、RTE 等文本蕴含任务中展现出独特优势。

这些结果验证了这一架构的核心优势:在保持原始模型参数完整的同时,Memory Decoder 通过融入领域知识,实现了无需牺牲通用能力的领域适应。

3.跨模型适应

表|三个专业领域的跨模型适应结果

上表展示出 Memory Decoder 在不同模型规模和架构上的即插即用能力。单个Memory Decoder (0.5B 参数)在 Qwen2 和 Qwen2.5 系列的所有模型中均能持续提升性能。单一预训练记忆组件可提升共享同一 tokenizer 的多个模型,实现高效的领域适应扩展,使得不同尺寸模型都能持续超越现有方法。

4.跨词汇适应

表|跨模型知识迁移效果显著

上表展示了 Memory Decoder 在不同 tokenizer 和模型架构下的泛化能力。通过仅重新初始化基于 Qwen2.5 训练的 Memory Decoder 的嵌入层和语言模型头,团队成功将其适配到 Llama 模型家族,且仅需原训练预算的 10%。这种高效的迁移能力使所有 Llama 变体都实现了性能提升。

对于 Llama3-8B,Memory Decoder 在生物医学和金融领域降低了约 50% 困惑度。类似的改进也延伸至 Llama3.1 和 Llama3.2,他们的方法在生物医学和金融领域始终优于 LoRA,但在法律文本领域仍有改进空间。

这些发现表明,Memory Decoder 的通用性超越了单一 tokenizer 家族,证明了从单一架构中习得的领域知识可以高效迁移至其他架构,且仅需要少量额外训练。这一能力扩展了我们方法的实际应用价值,为在多样化的模型生态系统中实现领域适应提供了简化的路径。

5.知识密集型推理任务

表|知识密集型问答任务的性能表现

虽然 RAG 方法在提升事实记忆方面表现出色,但在同时需要知识检索与复杂推理的任务中却常常表现较差。先前研究表明,尽管 kNN-LM 能从相关维基百科语料库中检索信息,但在知识密集型问答任务中反而可能影响性能表现。

如上表所示,Memory Decoder 在两项基准测试中成功增强了模型获取事实性知识的能力,同时保持了推理能力,解决了传统检索方法的根本性局限。

实验结果表明,通过学习内化检索模式而非依赖显式推理,Memory Decoder 在保持处理复杂多跳问题所需组合推理能力的同时,还能充分利用扩展后的知识访问优势。

不足


以上结果证明,Memory Decoder 保留了检索方法的记忆能力,又兼具参数化方法的高效性和泛化优势。

Memory Decoder 的多功能性和高效性,使得它能无缝增强任何共享相同 tokenizer 的模型,且只需少量额外训练即可适配不同 tokenizer 和架构的模型。这种能力使得跨模型家族的高效领域适应成为可能,大幅减少了专用模型开发通常所需的资源

可以说,Memory Decoder开创了领域自适应的新范式,并从根本上重新定义了如何为特定领域定制语言模型。通过预训练记忆组件将领域专业知识与模型架构解耦,这一方法构建了一个更模块化、高效且易于访问的框架,从而能够提升语言模型在专业领域的表现。

然而,Memory Decoder也并非完美,依然存在一些局限性。

例如,在预训练阶段,Memory Decoder 需要通过 KV 数据存储进行搜索,以获取 kNN 分布作为训练信号,这会产生计算开销。尽管该成本仅在每个领域中产生一次,且可分摊至所有适应模型,但这仍是整个流程中的瓶颈。

此外,尽管跨 tokenizer 适应相比从头训练所需参数更新较少,但仍需进行部分参数调整以对齐嵌入空间,阻碍了真正「零样本跨架构迁移」的实现。

作者:小瑜

如需转载或投稿,请直接在公众号内留言

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
四川省文物局局长唐飞:眉山文物资源呈现出三大特点丨关注四川历史文化名城保护③

四川省文物局局长唐飞:眉山文物资源呈现出三大特点丨关注四川历史文化名城保护③

北青网-北京青年报
2026-03-25 19:43:12
47岁袁泉被骂“断崖式衰老”,素颜糙脸背后,藏着演员最狠的自律

47岁袁泉被骂“断崖式衰老”,素颜糙脸背后,藏着演员最狠的自律

情感大头说说
2026-03-26 17:04:32
三分命中率64.1%,断层全联盟第一!郭士强该给他一个国家队名额

三分命中率64.1%,断层全联盟第一!郭士强该给他一个国家队名额

弄月公子
2026-03-26 11:03:13
强化金融风险源头防控

强化金融风险源头防控

经济日报
2026-03-26 06:48:05
5种“夺命花”不要养,家里要有赶快扔,谁不听劝谁吃亏

5种“夺命花”不要养,家里要有赶快扔,谁不听劝谁吃亏

三农老历
2026-03-26 09:42:30
57岁的宋祖英,虽是大妈年龄,却散发出中年女性的气质。

57岁的宋祖英,虽是大妈年龄,却散发出中年女性的气质。

情感大头说说
2026-03-27 00:16:52
大巨变!发现没有?农村越来越多四五十岁的人,都不出去打工了

大巨变!发现没有?农村越来越多四五十岁的人,都不出去打工了

复转这些年
2026-03-22 17:26:02
宝格丽晚宴:刘亦菲兜不住副乳,海瑟薇手歪曲,金智媛生图没眼看

宝格丽晚宴:刘亦菲兜不住副乳,海瑟薇手歪曲,金智媛生图没眼看

嫹笔牂牂
2026-03-25 07:14:56
一审重判整整17年,柯文哲当庭最后一搏,藏着赖清德最担心的结局

一审重判整整17年,柯文哲当庭最后一搏,藏着赖清德最担心的结局

李健政观察
2026-03-26 18:16:56
撕破脸!郑丽文公开炮轰卢秀燕,蓝营内斗彻底公开化!

撕破脸!郑丽文公开炮轰卢秀燕,蓝营内斗彻底公开化!

达文西看世界
2026-03-25 10:53:39
伊朗称已组织超百万人为地面战斗做准备

伊朗称已组织超百万人为地面战斗做准备

界面新闻
2026-03-26 22:53:08
省下一亿镑!曼联自有 “新吉马良斯”,卡里克手握王炸

省下一亿镑!曼联自有 “新吉马良斯”,卡里克手握王炸

澜归序
2026-03-26 04:56:27
柯文哲被判重刑,黄国昌蒋万安回应,赖清德又盯上郑丽文?

柯文哲被判重刑,黄国昌蒋万安回应,赖清德又盯上郑丽文?

DS北风
2026-03-26 17:58:06
外资大撤退:亚洲股市遭遇2009年以来...

外资大撤退:亚洲股市遭遇2009年以来...

新浪财经
2026-03-27 01:06:32
A股:紧急提醒3亿股民股民,主力已摊牌,周五,将迎来狂风暴雨

A股:紧急提醒3亿股民股民,主力已摊牌,周五,将迎来狂风暴雨

云鹏叙事
2026-03-27 00:00:07
李莉没有说过“伊朗半小时灭以色列”,

李莉没有说过“伊朗半小时灭以色列”,

雪中风车
2026-03-01 08:11:49
4.7万亿!马斯克打破人类财富纪录:他一个人的钱抵得过160个国家

4.7万亿!马斯克打破人类财富纪录:他一个人的钱抵得过160个国家

通鉴史智
2026-03-15 11:45:00
蒙古总理当众给斯大林一耳光,走出宴会厅3小时后,被扣上间谍帽子枪决

蒙古总理当众给斯大林一耳光,走出宴会厅3小时后,被扣上间谍帽子枪决

老杉说历史
2026-03-23 22:17:08
终于知道广东人为啥不抑郁了!网友:西医叫抑郁,中医叫郁结

终于知道广东人为啥不抑郁了!网友:西医叫抑郁,中医叫郁结

另子维爱读史
2026-03-25 22:34:08
陪玩陪睡不过冰山一角?张艺谋团队爆猛料,让女演员“小三逼婚”

陪玩陪睡不过冰山一角?张艺谋团队爆猛料,让女演员“小三逼婚”

情感大头说说
2026-03-25 03:04:32
2026-03-27 01:51:00
学术头条
学术头条
致力于学术传播和科学普及,重点关注AI4Science、大模型等前沿科学进展。
1430文章数 5081关注度
往期回顾 全部

科技要闻

美团发布外卖大战后成绩单:亏损超200亿

头条要闻

特朗普:伊朗允许10艘油轮通行霍尔木兹海峡

头条要闻

特朗普:伊朗允许10艘油轮通行霍尔木兹海峡

体育要闻

申京努力了,然而杜兰特啊

娱乐要闻

刘晓庆妹妹发声!称姐姐受身边人挑拨

财经要闻

油价"驯服"特朗普?一到100美元就TACO

汽车要闻

一汽奥迪A6L e-tron开启预售 CLTC最大续航815km

态度原创

时尚
房产
旅游
家居
健康

400万人爱过的女孩,被黄谣网暴180天后

房产要闻

突发,三亚又有大批征迁补偿方案出炉!

旅游要闻

河南开封万岁山武侠城,游客买300元门票:给妻子拍照被保安阻拦

家居要闻

傍海而居 静观蝴蝶海

转头就晕的耳石症,能开车上班吗?

无障碍浏览 进入关怀版