网易首页 > 网易号 > 正文 申请入驻

破解可塑性瓶颈!清华团队新作刷榜持续学习:可迁移任务关系指导训练

0
分享至


新智元报道

编辑:LRST

【新智元导读】清华团队用「任务关系」破解AI学完就忘的难题,提出的H-embedding guided hypernet先算新旧任务的亲疏关系,再让超网络按关系生成专属模型参数,低维小向量即插即用,在ImageNet-R等测试把遗忘率再降一成。

持续学习(Continual Learning,CL)是人工智能系统迈向长期智能的重要能力。其核心目标是让模型在任务序列中不断吸收新知识,同时维持甚至提升旧任务的表现。

然而,在主流深度学习框架下,模型在学习新任务时往往会显著遗忘旧知识,即「灾难性遗忘」(Catastrophic Forgetting),这是限制持续学习走向大规模实用的关键瓶颈。

现有CL方法大致可分为三类:基于数据回放的重放方法、基于参数约束的正则化方法,以及基于模型结构的动态扩展方法。尽管它们都在不同程度上缓解了遗忘,但一个根本问题始终被忽视:

大多数CL方法仍从「模型中心」视角出发,而缺乏对任务之间内在关系的建模和利用。

然而,任务关系直接决定了知识迁移的方向与效率:哪些任务之间协同度高,哪些任务之间冲突大,哪些旧任务对新任务有帮助,哪些新任务可能破坏已有能力——这些信息对于稳健的持续学习至关重要。


为解决这一长期存在的空白,清华大学研究提出了一种「任务关系中心」(task-relation-centric)的新型CL方案:H-embedding引导的超网络(Hypernetwork)持续学习框架。


论文链接:https://arxiv.org/pdf/2502.11609

其核心思想是:在每次学习新任务前,通过信息论度量构建可迁移性感知的任务嵌入H-embedding,并利用超网络根据嵌生成任务专属参数,从而显式地在CL过程中编码任务关系。

方法动机

任务关系应成为CL的显式指导信息

在典型CL设置中,模型只能在训练新任务之后,基于参数变化做「事后分析」,来判断任务之间的干扰和迁移。

这种模式天然存在三大问题:

1. 缺乏任务级先验,模型无法在训练开始前规划迁移路径

模型既不知道哪些旧任务对当前任务有帮助,也不知道哪些知识需要重点保护。

2. 正向和后向迁移难以被同时优化

传统方法常只能顾其一:强正则化减少遗忘,但削弱新任务学习能力;强学习新任务提升前向迁移,却导致显著遗忘。

3. 随着任务数量增长,干扰累积,使方法难以扩展

任务序列越长,模型「盲学」的代价越高。

因此,一个自然的问题是:

「如果持续学习能够从任务关系出发构建学习路径,而非单纯从模型参数出发,是否能同时提升前向与后向迁移能力?

在此背景下,研究团队引入了「任务关系中心」的设计思路,将任务可迁移性转化为可学习的先验信息,并直接驱动参数生成与知识保护策略。

核心贡献

提出H-embedding:基于H-score的任务可迁移性嵌入


可迁移性和任务嵌入的图解关系

团队采用信息论指标H-score来表征从任一旧任务到当前任务的迁移价值。H-score 能反映源任务特征对目标任务的有效性,是一种在实际场景中可高效计算的可迁移性度量。

随后,通过层次分析法(AHP)对这些迁移性数值进行归一化,使其与嵌入空间中的距离度量保持一致,再通过距离一致性优化得到任务的低维H-embedding。

这种表示具备三个重要特性:

  • 先验可用:任务训练开始前即可获得

  • 低维紧凑:便于长期存储与快速调用

  • 与迁移性对齐:嵌入之间的距离反映任务间关系

这使得持续学习拥有了「可显式管理的任务关系结构」。

提出由H-embedding驱动的超网络参数生成框架


该框架使用超网络(Hypernetwork)根据任务嵌入,为每个任务生成其专属参数。更重要的是,模型内部引入了一个轻量级解码器,通过重构 H-embedding 的方式迫使超网络显式地吸收任务关系。

训练过程包含三类关键损失:

  • 任务损失:学习当前任务

  • 持续学习正则项:减轻对旧知识的覆盖

  • 嵌入引导损失:确保任务关系参与参数生成


这一设计使得模型能够:针对任务差异自动调节生成参数、在任务相关时进行正向迁移、在任务冲突时强化知识保护,从而在结构层面解决了 CL 的核心矛盾。

高可用性:可端到端训练,兼容多种参数高效微调技术

该框架具有极强的工程可落地性:

  • 每个任务仅需保存一个embedding(极低存储成本)

  • 支持CNN、ViT等主流架构

  • 可与LoRA等参数高效微调技术结合并部署在多种预训练模型上


实验结果

在多项CL基准上全面领先

研究团队在多个主流持续学习基准上进行了广泛评估,包括CIFAR-100、ImageNet-R和DomainNet,涵盖了不同模型架构(如ResNet、Vision Transformer)和学习设置(如全模型训练、参数高效微调)。主要结果如下:


结果显示:

1. FAA全面领先现有方法,在所有数据集上均取得更优的最终性能。

2. 强正向与后向迁移能力同时出现。DAA与FAA差值极小,表明新任务学习对旧任务几乎无干扰,同时能从旧任务中有效吸收知识。

3. 算法对任务数量增长具有更高鲁棒性。在5→10→20个任务的扩展实验中,该方法的性能增益持续放大,显示出很好的扩展性。并且在靠后的任务中,引入embedding guidance带来了显著的收敛加速。

4. 消融实验验证组件有效性。去除H-embedding引导或AHP归一化均会出现明显性能下降。

结论与展望

研究人员提出了一种「任务关系中心」的持续学习范式,通过在训练前引入信息论驱动的任务关系嵌入 H-embedding,使得模型能够:

  • 预测迁移性而非被动适应

  • 在学习过程中有意识地管理任务间的知识交互

  • 大幅减少遗忘、提升迁移效率

H-embedding引导的超网络框架在多个基准上取得领先表现,展示了任务关系建模在持续学习中的关键作用。

未来,任务结构感知的方法有望拓展至跨模态增量学习、大模型的长期任务适配、任务自组织(task discovery)与自动化学习顺序规划等更复杂场景。为构建更具扩展性、可生长的通用 AI 体系提供新的方向。

参考资料:

https://arxiv.org/pdf/2502.11609

https://yangli-feasibility.com/home/group.html

秒追ASI

⭐点赞、转发、在看一键三连⭐

点亮星标,锁定新智元极速推送!

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
102岁夫妻,一个爱吃糖,一个爱喝酒,儿女分享父母长寿秘诀

102岁夫妻,一个爱吃糖,一个爱喝酒,儿女分享父母长寿秘诀

华人星光
2026-01-22 11:31:13
震惊!网传有学校老师冬天坐在教学楼走廊,批改作业并为学生解答

震惊!网传有学校老师冬天坐在教学楼走廊,批改作业并为学生解答

火山诗话
2026-01-22 14:44:08
同样是不敌中国队,看看澳大利亚、乌兹别克斯坦、越南都怎么说

同样是不敌中国队,看看澳大利亚、乌兹别克斯坦、越南都怎么说

不写散文诗
2026-01-22 19:44:04
远离“造神”陷阱!官媒揭单依纯真实现状,给所有女星提了个醒

远离“造神”陷阱!官媒揭单依纯真实现状,给所有女星提了个醒

笑饮孤鸿非
2026-01-21 07:49:51
朝鲜停战前夜,毛主席发现致命漏洞,急调24万奇兵入朝一举定乾坤

朝鲜停战前夜,毛主席发现致命漏洞,急调24万奇兵入朝一举定乾坤

南宗历史
2026-01-13 17:26:28
这趟不带活人带死物?美俄都眼红,中国航天不再低调:必须拆了!

这趟不带活人带死物?美俄都眼红,中国航天不再低调:必须拆了!

荣亭小吏
2026-01-22 10:06:08
林黛玉不是编的!她病逝那夜曹雪芹哭断肝肠,写下“葬花词”

林黛玉不是编的!她病逝那夜曹雪芹哭断肝肠,写下“葬花词”

千秋文化
2026-01-20 20:39:41
一场追悼会,戳穿向华强夫妇在香港的真实地位,原来李连杰没说谎

一场追悼会,戳穿向华强夫妇在香港的真实地位,原来李连杰没说谎

不写散文诗
2026-01-22 19:38:59
到底什么叫洗钱?网友"完美闭环"式回答,感觉错过了一个亿

到底什么叫洗钱?网友"完美闭环"式回答,感觉错过了一个亿

另子维爱读史
2026-01-09 22:18:04
毛主席只用一句话,就点破武则天无字碑:原来我们猜了千年都错了

毛主席只用一句话,就点破武则天无字碑:原来我们猜了千年都错了

鹤羽说个事
2026-01-20 11:48:10
你那么爱马杜罗,就问送你去马杜罗治下的委国你去不去?

你那么爱马杜罗,就问送你去马杜罗治下的委国你去不去?

廖保平
2026-01-11 09:38:31
就在今天!1月23号上午,CBA传来,郑永刚、贺希宁消息

就在今天!1月23号上午,CBA传来,郑永刚、贺希宁消息

老做体育解说
2026-01-23 13:19:44
撑杆跳没哨,锁喉不犯规!四大黑哨助力湖人还输球,难怪詹皇急眼

撑杆跳没哨,锁喉不犯规!四大黑哨助力湖人还输球,难怪詹皇急眼

嘴炮体坛
2026-01-23 14:29:18
乌军总司令西尔斯基,是否达到了战神水平?这5大战役证明一切

乌军总司令西尔斯基,是否达到了战神水平?这5大战役证明一切

黑洞观星
2025-07-30 17:59:53
哈登生涯抢断数来到1766,超越伊戈达拉排名历史第20

哈登生涯抢断数来到1766,超越伊戈达拉排名历史第20

懂球帝
2026-01-23 12:26:17
不许报复美国,美方话音刚落,欧盟作出决定,将逐步淘汰中国制造

不许报复美国,美方话音刚落,欧盟作出决定,将逐步淘汰中国制造

明天见灌装冰块
2026-01-23 03:31:46
身价2000万!李昊已被欧洲俱乐部关注 国内3家争冠俱乐部有意

身价2000万!李昊已被欧洲俱乐部关注 国内3家争冠俱乐部有意

新英体育
2026-01-23 10:34:48
NBA无愧商业联盟,裁判强行制造悬念,快船险遭湖人26分大翻盘

NBA无愧商业联盟,裁判强行制造悬念,快船险遭湖人26分大翻盘

邹维体育
2026-01-23 13:40:02
陈光标出面后,央视也出手了,嫣然医院有救了!

陈光标出面后,央视也出手了,嫣然医院有救了!

娱乐故事
2026-01-23 11:46:52
胡锡进疑为西贝发声:预制菜必须卖很便宜,这在道理上是不全面的

胡锡进疑为西贝发声:预制菜必须卖很便宜,这在道理上是不全面的

映射生活的身影
2026-01-23 13:11:27
2026-01-23 15:04:49
新智元 incentive-icons
新智元
AI产业主平台领航智能+时代
14390文章数 66523关注度
往期回顾 全部

科技要闻

TikTok守住了算法"灵魂" 更握紧了"钱袋子"

头条要闻

32岁猝死程序员一人干六七人的工作 上月到手薪资披露

头条要闻

32岁猝死程序员一人干六七人的工作 上月到手薪资披露

体育要闻

跑个步而已,他们在燃什么?

娱乐要闻

刘大锤曝料 将王星越的“体面”撕粉碎

财经要闻

茂名首富,这次糟了

汽车要闻

“四十不惑”的吉利 信力不信命

态度原创

手机
旅游
时尚
本地
家居

手机要闻

W3周排名:vivo、OPPO位置互换,小米、荣耀没变化

旅游要闻

万豪旅享家邀宾客共庆马年新春 "万式过年•定位你的年味"活动启幕

告别臃肿!这种简约的高级穿法,别拒绝

本地新闻

云游中国|格尔木的四季朋友圈,张张值得你点赞

家居要闻

在家度假 160平南洋混搭宅

无障碍浏览 进入关怀版