网易首页 > 网易号 > 正文 申请入驻

ACL 2024 | 提升大模型持续学习性能,哈工大、度小满提出共享注意力框架SAPT

0
分享至

在大模型实际部署落地的过程中,如何赋予大模型持续学习的能力是一个至关重要的挑战。这使其能够动态适应新的任务并不断获得新的知识。大模型的持续学习主要面临两个重大挑战,分别是灾难性遗忘和知识迁移。灾难性遗忘是指模型在学习新任务时,会忘记其已掌握的旧任务。知识迁移则涉及到如何在学习新任务时有效地应用旧任务的知识来提升新任务学习的效果。

为了有效应对以上难题,哈工大联合度小满推出针对大模型的共享注意力持续学习框架 SAPT,相应论文已被自然语言处理顶级会议 ACL 2024 接收

论文标题: SAPT: A Shared Attention Framework for Parameter-Efficient Continual Learning of Large Language Models 论文地址: https://arxiv.org/abs/2401.08295

一、研究动机

现有面向大模型的持续学习的工作大都基于参数高效微调 (Parameter-Efficient Tuning, PET) 而开展,并且可以被抽象为由学习模块和选择模块组成的工作框架。如图 1 中虚线所示,当新任务对话生成到达时,学习模块会为其分配一个单独的 PET 块来学习任务特定的知识,然后将其保存在 PET 资源池中,以供后续在测试样本到来时(任务序号在测试阶段无法获取),选择模块能够自动地为其选择所属的 PET 块,得到测试输入的结果。然而,当前工作中每个模块的设计在有效应对灾难性遗忘和知识迁移挑战方面都表现出一定的局限性

一方面,学习模块的设计旨在促进不同任务之间的知识迁移。不幸的是,学习模块分配的 PET 只学习当前任务特定知识的现状阻断了存储在已习得的 PET 块中的来自先前任务知识的潜在迁移,并阻碍它们协助当前新任务知识的获取。

另一方面,选择模块在缓解灾难性遗忘方面发挥着关键作用,因为只有当它能够自动选择当前输入所属的 PET 块时,大模型基座才能成功完成当前任务。然而,当前工作中基于拼接或相加来自所有任务的 PET 块的设计无法有效缓解灾难性遗忘。

更重要的是,他们忽略了将这两个模块进行对齐来同时解决灾难性遗忘和知识迁移。直觉上来看(如图 1 中的实线所示),为了促进新任务学习时的知识迁移,学习模块应该依靠任务相关性来利用先前 PET 块中最相关的知识。而后选择模块可以自然地重复这一注意力过程,通过寻找属于每个测试输入的相应 PET 块的组合来抵抗灾难性遗忘。在本工作中,这种注意力过程被称为共享注意力。由此,这两个模块的端到端对齐能够通过这种共享注意力而建立。

二、问题定义和设定

持续学习旨在解决学习连续而来的任务序列中的挑战。形式上,任务序列中 每个任务依次而来。每个任务 包含一个单独的目标数据集,其大小为 。在任意时间步 t,模型不仅需要掌握第 t 个任务,而且还要保持其在之前所有任务上的性能不发生明显衰减。

在本工作中,我们深入研究更具挑战性和实用性的持续学习设定,即不同任务的任务序号不可获取:在测试阶段,模型面对输入样本时不知道它们属于哪个特定任务。

图 1 当前基于学习模块和选择模块进行大模型持续学习的概念化框架。其中,虚线表示现有工作的流程,实现表示本工作提出方法的工作流程。

三、方法介绍

本文提出了针对大语言模型的共享注意力持续学习框架 SAPT,为同时应对灾难性遗忘和知识迁移的挑战提供了有效的解决方案。SAPT 的整体架构由两个关键组件组成,如图 2 所示:共享注意力学习与选择模块(SALS)和注意力反思模块(ARM)。在 SALS 中,注意力学习(实线)和注意力选择(虚线)通过共享注意力操作对齐。然后在 ARM 中,我们通过生成的伪样本帮助 SALS 回忆来自以前任务输入对应的正确的注意力权重。

图 2 我们提出的 SAPT 的整体架构,有共享注意力学习与选择模块(左)和注意力反思模块构成(右)。

共享注意力学习与选择模块(SALS):

  • 注意力学习:为了获取来自先前任务的相关知识,当第 t 个任务到达时,通过 Query Projection 层生成查询向量和可学习的键值 进行注意力运算,将所有之前的 PET 块的参数 和当前 通过加权组合进行聚合,用于第 t 个任务的学习。

  • 注意力选择:该部分通过重复注意力学习时的相同的注意力过程,得到现有 PET 块在每个输入样本上的最佳组合,并结合到 LLM 上,完成对当前样本的测试。

注意力反思模块(ARM):

然而,随着依次而来的新任务不断更新 SALS 会导致该模块仅针对最新任务进行最佳注意力组合,从而导致忘记以前任务相应的注意力组合系数。由此,ARM 模块确保来自先前任务的输入仍然可以正确地执行相应的共享注意力操作,以识别每个任务特定的 PET 块的组合。具体方法基于生成式回放得到伪样本,用来对 Query Projection 层进行约束。

四、实验结果

我们基于 Prompt Tuning 和 LoRA 这两个具有代表性的参数高效微调方法,在 SuperNI Benchmark,Long Sequence Benchmark 两个评测基准上进行了实验,评价指标为:平均性能(AP)、遗忘率(F.Ra)、前向迁移 (FWT) 以及反向迁移 (BWT)。如表 1 中结果所示,SAPT 具有最高的 AP 和最低的 F.Ra,表明其能够有效应对灾难性遗忘。与此同时,其在 FWT 和 BWT 上也具有最优的表现,体现出 SAPT 能够实现有效的知识迁移。

表 1 基于 T5-Large 模型在两个持续学习基准的总体结果

图 3 展示了在训练(左图)和测试(右图)期间共享注意力的分布示意图。我们可以观察到:(1)PET 块的学习和选择过程是完全对齐的,两个热力图几乎具有相同的布局。(2)知识迁移确实发生在注意力学习过程中,以帮助 SAPT 获取新知识。这些进一步验证了 SAPT 处理灾难性遗忘和知识迁移的有效性。

图 3 共享注意力的可视化结果。

我们将实验采用的基础大模型拓展到了不同的规模,我们实验分析了 T5 模型大小如何影响 SAPT 的性能。图 4 显示了随着逐渐增大的基础模型大小,即 Large(770M)、XL(3B)和 XXL(11B),SAPT、O-LoRA 和 Replay 在 AP、F.Ra 和 FWT 方面的表现。总体而言,随着基础模型大小的增加,在抵抗灾难性遗忘和促进知识迁移方面,SAPT 始终能够展现出比基线方法更优越的性能。

图 4 SAPT 基于不同规模的 T5 模块的实验结果

我们也将基础大模型拓展到了不同的架构。图 5 展示了基于不同大小的 T5 和 LLaMA-2 在 SuperNI 基准上的 SAPT 和基线方法的结果。可以观察到,SAPT 依旧能够有效地缓解灾难性遗忘并促进不同模型架构间的知识迁移。此外,平均性能随着模型基础能力的增强而提高(LLaMA-2 > T5),这进一步证明了我们提出的 SAPT 的通用性。

图 5 SAPT 基于不同架构的大模型的实验结果。

更多详细内容可以参考论文原文。论文提出的方法未来将结合到度小满轩辕大模型中,欢迎大家访问!

大模型项目地址:https://github.com/Duxiaoman-DI/XuanYuan

来源:公众号【机器之心】

llustration From IconScout By Manypixels Gallery

-The End-

扫码观看!

本周上新!

“AI技术流”原创投稿计划

TechBeat是由将门创投建立的AI学习社区(

www.techbeat.net
) 。 社区上线500+期talk视频,3000+篇技术干货文章,方向覆盖CV/NLP/ML/Robotis等;每月定期举办顶会及其他线上交流活动,不定期举办技术人线下聚会交流活动。我们正在努力成为AI人才喜爱的高质量、知识型交流平台,希望为AI人才打造更专业的服务和体验,加速并陪伴其成长。

投稿内容

// 最新技术解读/系统性知识分享 //

// 前沿资讯解说/心得经历讲述 //

投稿须知

稿件需要为原创文章,并标明作者信息。

我们会选择部分在深度技术解析及科研心得方向,对用户启发更大的文章,做原创性内容奖励

投稿方式

发送邮件到

melodybai@thejiangmen.com

或添加工作人员微信(yellowsubbj)投稿,沟通投稿详情;还可以关注“将门创投”公众号,后台回复“投稿”二字,获得投稿说明。

关于我“门”

将门是一家以专注于数智核心科技领域新型创投机构,也是北京市标杆型孵化器。 公司致力于通过连接技术与商业,发掘和培育具有全球影响力的科技创新企业,推动企业创新发展与产业升级。

将门成立于2015年底,创始团队由微软创投在中国的创始团队原班人马构建而成,曾为微软优选和深度孵化了126家创新的技术型创业公司。

如果您是技术领域的初创企业,不仅想获得投资,还希望获得一系列持续性、有价值的投后服务,欢迎发送或者推荐项目给我“门”:

bp@thejiangmen.com

点击右上角,把文章分享到朋友圈

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
美国赌中国不敢打日本,而中国则在赌美国不会在关键时候帮助日本

美国赌中国不敢打日本,而中国则在赌美国不会在关键时候帮助日本

安安说
2026-03-21 10:56:42
日本人想不通:卖上万的电饭煲,怎么就被广东廉江干成几十块

日本人想不通:卖上万的电饭煲,怎么就被广东廉江干成几十块

潮鹿逐梦
2026-03-18 14:55:03
我退休后去探望定居美国的儿子,回来后我立马把财产都给了女儿

我退休后去探望定居美国的儿子,回来后我立马把财产都给了女儿

胡同里有只猫A
2026-03-21 09:12:41
装不下了?特朗普访华延期,嘴上说无关,转身就拿护航逼中方表态

装不下了?特朗普访华延期,嘴上说无关,转身就拿护航逼中方表态

兴史兴谈
2026-03-20 12:31:06
放进去就是做了,不放进去就是没做

放进去就是做了,不放进去就是没做

桉予
2026-03-20 13:54:20
全球央行超级周落幕!通胀警报拉响,加息潮要来了?

全球央行超级周落幕!通胀警报拉响,加息潮要来了?

第一财经资讯
2026-03-21 08:28:13
中东,突发!以军:正在打击“伊朗政权目标”!霍尔木兹海峡,大消息!

中东,突发!以军:正在打击“伊朗政权目标”!霍尔木兹海峡,大消息!

证券时报e公司
2026-03-21 12:31:26
笑喷了!汪小菲真惧内,马筱梅说啥听啥,自爆老婆比自己有钱

笑喷了!汪小菲真惧内,马筱梅说啥听啥,自爆老婆比自己有钱

丁丁鲤史纪
2026-03-21 10:56:30
首发9胜2负!谢泼德效应来了,乌度卡赛后明牌,未来8场阵容不变

首发9胜2负!谢泼德效应来了,乌度卡赛后明牌,未来8场阵容不变

巴叔GO聊体育
2026-03-21 11:52:01
听一车企高管聊开发商,我吓出冷汗

听一车企高管聊开发商,我吓出冷汗

真叫卢俊
2026-03-20 10:15:41
海莉夜出聚餐:缎面衬衫配超短裙,冷艳拽姐气场拉满

海莉夜出聚餐:缎面衬衫配超短裙,冷艳拽姐气场拉满

述家娱记
2026-03-21 11:33:55
开拓者108-104险胜森林狼,克林根21+12,格兰特关键时刻8分

开拓者108-104险胜森林狼,克林根21+12,格兰特关键时刻8分

懂球帝
2026-03-21 10:48:12
离谱又真实!伊朗空袭现场:民众山顶开心的弹吉他庆祝

离谱又真实!伊朗空袭现场:民众山顶开心的弹吉他庆祝

老马拉车莫少装
2026-03-21 11:23:41
“血栓大户”被揪出!再次提醒:劝你少吃3种食物,越吃血管越堵

“血栓大户”被揪出!再次提醒:劝你少吃3种食物,越吃血管越堵

39健康网
2026-03-20 20:20:37
东京中国籍陪酒女灌客人醉酒不省人事后盗刷信用卡1300万

东京中国籍陪酒女灌客人醉酒不省人事后盗刷信用卡1300万

日本物语
2026-03-20 20:59:04
承认一个中国?民进党破天荒喊话大陆:你大,我小,大的该让小的

承认一个中国?民进党破天荒喊话大陆:你大,我小,大的该让小的

小涛叨叨
2026-03-21 11:02:26
美以伊战事进入第二十二天,最新动态

美以伊战事进入第二十二天,最新动态

参考消息
2026-03-21 10:26:14
张本美和夺冠后,特别提到孙颖莎王曼昱,放话要在世界杯击败国乒双子星

张本美和夺冠后,特别提到孙颖莎王曼昱,放话要在世界杯击败国乒双子星

好乒乓
2026-03-20 11:44:09
一瓶3块,爆卖2亿!喝一口能把人送走的广东神饮,让老表们疯抢了

一瓶3块,爆卖2亿!喝一口能把人送走的广东神饮,让老表们疯抢了

毒sir财经
2026-03-16 21:37:01
伊朗宣布击中美军F-35战机,美军承认战机紧急迫降,事件正在调查中

伊朗宣布击中美军F-35战机,美军承认战机紧急迫降,事件正在调查中

环球网资讯
2026-03-21 07:07:29
2026-03-21 12:48:49
将门创投 incentive-icons
将门创投
加速及投资技术驱动型初创企业
2318文章数 596关注度
往期回顾 全部

教育要闻

废掉一个孩子最快的方式:偷走他的灵气!3个行为家长每天都在做

头条要闻

81岁老人呼吸衰竭 女儿曾拒绝插管:以为要失去爸爸了

头条要闻

81岁老人呼吸衰竭 女儿曾拒绝插管:以为要失去爸爸了

体育要闻

谁在决定字母哥未来?

娱乐要闻

CMG盛典获奖名单:章子怡高叶同获影后

财经要闻

通胀警报拉响,加息潮要来了?

科技要闻

宇树招股书拆解,人形机器人出货量第一!

汽车要闻

小鹏汽车2025年Q4盈利净赚3.8亿 全年营收767亿

态度原创

房产
艺术
数码
公开课
军事航空

房产要闻

全城狂送1000杯咖啡!网易房产【早C计划】,即刻启动!

艺术要闻

第四届深圳大芬国际油画双年展 | 国际入选油画选刊(二)

数码要闻

小米NAS终于要来了!官方发布影像管理需求调研问卷

公开课

李玫瑾:为什么性格比能力更重要?

军事要闻

特朗普:正考虑逐步降级对伊朗的军事行动

无障碍浏览 进入关怀版