网易首页 > 网易号 > 正文 申请入驻

提升大模型持续学习性能,哈工大、度小满提出共享注意力框架SAPT

0
分享至

AIxiv专栏是机器之心发布学术、技术内容的栏目。过去数年,机器之心AIxiv专栏接收报道了2000多篇内容,覆盖全球各大高校与企业的顶级实验室,有效促进了学术交流与传播。如果您有优秀的工作想要分享,欢迎投稿或者联系报道。投稿邮箱:liyazhou@jiqizhixin.com;zhaoyunfeng@jiqizhixin.com

本论文作者赵伟翔是哈尔滨工业大学社会计算与信息检索研究中心 2021 级直博生,导师为赵妍妍教授和秦兵教授,主要研究方向为对话系统、大语言模型对齐等。他曾以第一作者在 ACL、AAAI、IJCAI、COLING 等会议上发表论文。

个人主页: https://circle-hit.github.io/

在大模型实际部署落地的过程中,如何赋予大模型持续学习的能力是一个至关重要的挑战。这使其能够动态适应新的任务并不断获得新的知识。大模型的持续学习主要面临两个重大挑战,分别是灾难性遗忘和知识迁移。灾难性遗忘是指模型在学习新任务时,会忘记其已掌握的旧任务。知识迁移则涉及到如何在学习新任务时有效地应用旧任务的知识来提升新任务学习的效果。

为了有效应对以上难题,哈工大联合度小满推出针对大模型的共享注意力持续学习框架 SAPT,相应论文已被自然语言处理顶级会议 ACL 2024 接收。

  • 论文:SAPT: A Shared Attention Framework for Parameter-Efficient Continual Learning of Large Language Models
  • 论文地址:https://arxiv.org/abs/2401.08295

研究动机

现有面向大模型的持续学习的工作大都基于参数高效微调 (Parameter-Efficient Tuning, PET) 而开展,并且可以被抽象为由学习模块和选择模块组成的工作框架。如图 1 中虚线所示,当新任务对话生成到达时,学习模块会为其分配一个单独的 PET 块来学习任务特定的知识,然后将其保存在 PET 资源池中,以供后续在测试样本到来时(任务序号在测试阶段无法获取),选择模块能够自动地为其选择所属的 PET 块,得到测试输入的结果。然而,当前工作中每个模块的设计在有效应对灾难性遗忘和知识迁移挑战方面都表现出一定的局限性。

一方面,学习模块的设计旨在促进不同任务之间的知识迁移。不幸的是,学习模块分配的 PET 只学习当前任务特定知识的现状阻断了存储在已习得的 PET 块中的来自先前任务知识的潜在迁移,并阻碍它们协助当前新任务知识的获取。

另一方面,选择模块在缓解灾难性遗忘方面发挥着关键作用,因为只有当它能够自动选择当前输入所属的 PET 块时,大模型基座才能成功完成当前任务。然而,当前工作中基于拼接或相加来自所有任务的 PET 块的设计无法有效缓解灾难性遗忘。

更重要的是,他们忽略了将这两个模块进行对齐来同时解决灾难性遗忘和知识迁移。直觉上来看(如图 1 中的实线所示),为了促进新任务学习时的知识迁移,学习模块应该依靠任务相关性来利用先前 PET 块中最相关的知识。而后选择模块可以自然地重复这一注意力过程,通过寻找属于每个测试输入的相应 PET 块的组合来抵抗灾难性遗忘。在本工作中,这种注意力过程被称为共享注意力。由此,这两个模块的端到端对齐能够通过这种共享注意力而建立。

问题定义和设定

方法介绍

本文提出了针对大语言模型的共享注意力持续学习框架 SAPT,为同时应对灾难性遗忘和知识迁移的挑战提供了有效的解决方案。SAPT 的整体架构由两个关键组件组成,如图 2 所示:共享注意力学习与选择模块(SALS)和注意力反思模块(ARM)。在 SALS 中,注意力学习(实线)和注意力选择(虚线)通过共享注意力操作对齐。然后在 ARM 中,我们通过生成的伪样本帮助 SALS 回忆来自以前任务输入对应的正确的注意力权重。

图 2 我们提出的 SAPT 的整体架构,有共享注意力学习与选择模块(左)和注意力反思模块构成(右)。

实验结果

我们基于 Prompt Tuning 和 LoRA 这两个具有代表性的参数高效微调方法,在 SuperNI Benchmark,Long Sequence Benchmark 两个评测基准上进行了实验,评价指标为:平均性能(AP)、遗忘率(F.Ra)、前向迁移 (FWT) 以及反向迁移 (BWT)。如表 1 中结果所示,SAPT 具有最高的 AP 和最低的 F.Ra,表明其能够有效应对灾难性遗忘。与此同时,其在 FWT 和 BWT 上也具有最优的表现,体现出 SAPT 能够实现有效的知识迁移。

表 1 基于 T5-Large 模型在两个持续学习基准的总体结果

图 3 展示了在训练(左图)和测试(右图)期间共享注意力的分布示意图。我们可以观察到:(1)PET 块的学习和选择过程是完全对齐的,两个热力图几乎具有相同的布局。(2)知识迁移确实发生在注意力学习过程中,以帮助 SAPT 获取新知识。这些进一步验证了 SAPT 处理灾难性遗忘和知识迁移的有效性。

图 3 共享注意力的可视化结果。

我们将实验采用的基础大模型拓展到了不同的规模,我们实验分析了 T5 模型大小如何影响 SAPT 的性能。图 4 显示了随着逐渐增大的基础模型大小,即 Large(770M)、XL(3B)和 XXL(11B),SAPT、O-LoRA 和 Replay 在 AP、F.Ra 和 FWT 方面的表现。总体而言,随着基础模型大小的增加,在抵抗灾难性遗忘和促进知识迁移方面,SAPT 始终能够展现出比基线方法更优越的性能。

图 4 SAPT 基于不同规模的 T5 模块的实验结果

我们也将基础大模型拓展到了不同的架构。图 5 展示了基于不同大小的 T5 和 LLaMA-2 在 SuperNI 基准上的 SAPT 和基线方法的结果。可以观察到,SAPT 依旧能够有效地缓解灾难性遗忘并促进不同模型架构间的知识迁移。此外,平均性能随着模型基础能力的增强而提高(LLaMA-2 > T5),这进一步证明了我们提出的 SAPT 的通用性。

图 5 SAPT 基于不同架构的大模型的实验结果。

更多详细内容可以参考论文原文。论文提出的方法未来将结合到度小满轩辕大模型中,欢迎大家访问!

大模型项目地址:https://github.com/Duxiaoman-DI/XuanYuan

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
他曾是广州市长,两袖清风,卸任26年后病逝,却为何引发集体追悼

他曾是广州市长,两袖清风,卸任26年后病逝,却为何引发集体追悼

历史龙元阁
2026-01-16 14:45:07
网红凤姐近况曝光!发文称白人医生建议她切除子宫,以预防癌变

网红凤姐近况曝光!发文称白人医生建议她切除子宫,以预防癌变

小徐讲八卦
2026-01-15 15:03:33
宋美龄弟弟有多残忍?玩弄舞女致其怀孕,令杜月笙将其沉江灭口

宋美龄弟弟有多残忍?玩弄舞女致其怀孕,令杜月笙将其沉江灭口

叹为观止易
2026-01-17 09:59:29
贝克汉姆和贝嫂没向儿媳道歉,儿子表示:你们以后别跟我联系了

贝克汉姆和贝嫂没向儿媳道歉,儿子表示:你们以后别跟我联系了

小书生吃瓜
2026-01-15 17:46:37
全世界都被普京耍了!打击乌克兰只是个幌子,真正目标已布局4年

全世界都被普京耍了!打击乌克兰只是个幌子,真正目标已布局4年

李橑在北漂
2026-01-17 12:38:29
别猜了!成都下一步 “撤县设区”,这三地的可能性最大!

别猜了!成都下一步 “撤县设区”,这三地的可能性最大!

阿讯说天下
2026-01-15 11:42:46
年底回农村,发现了村里的四大怪现象,一个比一个真实!你村里占几个?

年底回农村,发现了村里的四大怪现象,一个比一个真实!你村里占几个?

农夫也疯狂
2025-12-27 19:51:33
有人预测,不出意外的话,2026年春节可能会出现以下四大“怪象”

有人预测,不出意外的话,2026年春节可能会出现以下四大“怪象”

林子说事
2026-01-17 04:48:01
税务部门提醒纳税人对近三年境外所得开展自查

税务部门提醒纳税人对近三年境外所得开展自查

界面新闻
2026-01-16 19:46:12
2026年新成语:恶意寻子!该警惕了,细节越挖越心寒!

2026年新成语:恶意寻子!该警惕了,细节越挖越心寒!

你食不食油饼
2026-01-11 06:41:42
寒风中的记者会:加拿大总理卡尼在京释放中加关系暖意

寒风中的记者会:加拿大总理卡尼在京释放中加关系暖意

澎湃新闻
2026-01-17 10:44:28
突然食物噎住,千万别再拍背、喝水了!医生教你正确的处理方法

突然食物噎住,千万别再拍背、喝水了!医生教你正确的处理方法

岐黄传人孙大夫
2026-01-11 06:50:03
天呀,杜海涛竟然现成这样了,沈梦辰对他是真爱啊

天呀,杜海涛竟然现成这样了,沈梦辰对他是真爱啊

草莓解说体育
2026-01-07 01:43:18
深夜德国返回,林高远家中有变?原因曝光,教练发声,退役有结论

深夜德国返回,林高远家中有变?原因曝光,教练发声,退役有结论

乐聊球
2026-01-17 15:09:03
自闭症妈妈年终总结:鸡娃梦碎后我带他走遍世界,这场人生重启,值!

自闭症妈妈年终总结:鸡娃梦碎后我带他走遍世界,这场人生重启,值!

大米和小米
2025-12-28 18:31:20
尹锡悦建议死刑?不,是李在明发动死战!尹锡悦死刑下的大变局

尹锡悦建议死刑?不,是李在明发动死战!尹锡悦死刑下的大变局

末蓝星星
2026-01-16 21:32:53
“风流才女”徐静蕾,住美国豪宅,身材发福,51岁有伴侣但不结婚

“风流才女”徐静蕾,住美国豪宅,身材发福,51岁有伴侣但不结婚

丰谭笔录
2025-12-18 11:09:01
小米18/18 Pro发布节奏确认:9月见!

小米18/18 Pro发布节奏确认:9月见!

快科技
2026-01-17 14:37:07
新来的县委书记是我大学时的男友,会议结束,他把我叫到了办公室

新来的县委书记是我大学时的男友,会议结束,他把我叫到了办公室

五元讲堂
2025-12-14 08:50:03
“装死”小羊身价飙至30万,专家:“装死”非“演技”在线,系因遗传缺陷,可以人工繁殖更多只

“装死”小羊身价飙至30万,专家:“装死”非“演技”在线,系因遗传缺陷,可以人工繁殖更多只

极目新闻
2026-01-16 11:05:37
2026-01-17 16:00:49
机器之心Pro incentive-icons
机器之心Pro
专业的人工智能媒体
12134文章数 142543关注度
往期回顾 全部

科技要闻

8亿周活扛不住烧钱 ChatGPT终向广告"低头"

头条要闻

女儿被前男友杀害 癌症晚期母亲熬439天等到死刑判决

头条要闻

女儿被前男友杀害 癌症晚期母亲熬439天等到死刑判决

体育要闻

三巨头走了俩,联盟笑柄却起飞了

娱乐要闻

徐家还是爱孩子的,在马筱梅生产前选择和解

财经要闻

保不准,人民币会闪击6.8!

汽车要闻

林肯贾鸣镝:稳中求进,将精细化运营进行到底

态度原创

游戏
房产
艺术
数码
军事航空

社交沙盒MMO《BitCraft》开源 第一阶段1月21日

房产要闻

真四代来了!这次,海口楼市将彻底颠覆!

艺术要闻

16位西方画家眼中的女性风姿

数码要闻

外媒wccftech:一文读懂显卡短缺背后的另一面

军事要闻

普京谈及当前国际局势:世界太危险了

无障碍浏览 进入关怀版