网易首页 > 网易号 > 正文 申请入驻

多模态大模型持续学习,综述+Benchmark+方法+Codebase一网打尽

0
分享至



本系列工作核心作者: 郭海洋(自动化所博士生)、 朱飞 (中科院香港院AI中心AP)、 曾繁虎 (自动化所硕士生)、 刘文卓 (自动化所博士生)、 赵宏博 (自动化所博士生)。通讯作者为自动化所博士生导师张煦尧研究员和刘成林研究员。团队长期从事人工智能研究,成果发表于 CVPR、ICCV、NeurIPS、ICLR、ACL、TPAMI、IJCV 等国际顶级会议与期刊。

近年来,生成式 AI 和多模态大模型在各领域取得了令人瞩目的进展。然而,在现实世界应用中,动态环境下的数据分布和任务需求不断变化,大模型如何在此背景下实现持续学习成为了重要挑战。为了应对这一问题,中国科学院自动化研究所联合中国科学院香港院 AI 中心系统性地研究了生成式 AI 和多模态大模型的持续学习,提出了一系列综述、方法、Benchmark 和 Codebase,为相关领域的研究者和实践者提供了全面支持。

生成式 AI 的持续学习综述

论文:Continual Learning for Generative AI: From LLMs to MLLMs and Beyond



  • 论文链接:https://arxiv.org/pdf/2506.13045
  • 项目主页:https://github.com/Ghy0501/Awesome-Continual-Learning-in-Generative-Models

研究动机:以大模型为代表的生成式 AI 模型的快速发展让现代智能系统具备了理解和生成复杂内容的能力,甚至在部分领域达到了接近人类的表现。然而,这些模型依旧面临着“灾难性遗忘”问题,即在学习新任务时,往往会导致已学任务性能的显著下降。为解决这一挑战,大量的研究提出了多种方法以增强生成式 AI 在实际应用中的适应性和扩展性。本文系统性地综述了生成式 AI 的持续学习方法,涵盖大语言模型(LLMs)、多模态大语言模型(MLLMs)、视觉语言动作模型(VLA)和扩散模型(Diffusion Models)。



图 1:生成式 AI 中的持续学习示意图

研究内容:本文围绕生成式 AI 的持续学习问题,系统性地综述了不同模型的训练目标、应用场景及技术方法。研究涵盖大语言模型在理解与生成中的知识保留与任务适应、多模态大模型处理跨模态数据时的抗遗忘能力、视觉语言动作模型在机器人动态环境中的行为迁移与适应,以及扩散模型针对个性化生成需求的增量学习。这些模型的持续学习方法主要包括架构扩展、正则化和回放策略,旨在平衡新任务学习与旧任务性能的保持。此外,研究还探讨了评估指标(整体性能、遗忘程度、泛化能力)和未来方向(高效机制、强化学习范式、多模态扩展等),为生成式 AI 的持续学习提供了全面参考。



图 2:持续学习方法分类图

多模态大模型持续学习:Benchmark 与方法

传统的持续学习任务多聚焦于单模态场景,如图像或文本分类,但随着应用需求的复杂化,多模态任务逐渐成为核心。为此,我们提出了一系列新的 Benchmark 和方法,旨在推动多模态大模型持续学习的发展。

论文 1:[ACL 2025] HiDe-LLaVA: Hierarchical Decoupling for Continual Instruction Tuning of Multimodal Large Language Model



  • 论文链接:https://arxiv.org/pdf/2503.12941
  • 代码链接:https://github.com/Ghy0501/HiDe-LLaVA
  • 数据链接:https://huggingface.co/datasets/HaiyangGuo/UCIT

研究动机:本文认为当前的多模态大模型的持续学习面临两大关键挑战:一是现有评测基准普遍存在与预训练数据重叠的问题,导致评估结果失真;二是传统方法难以平衡新任务学习与旧任务遗忘之间的矛盾。为此,本研究提出构建全新的UCIT评测基准,通过严格的 zero-shot 筛选机制,构建了全新的无信息泄露风险数据集。同时创新性地提出层次化解耦学习策略,旨在解决持续指令微调中的灾难性遗忘问题,为多模态大模型的持续学习提供可靠的评估框架和解决方案。

研究方法:本文通过 CKA 相似性分析揭示了模型不同层级的任务特性差异:顶层具有任务特异性,其余层则保持任务通用性。基于此,本文提出的HiDe-LLaVA采用分层处理机制:在顶层引入多模态锚点驱动的动态专家选择模块,实现任务自适应;在其余层采用参数融合策略保留跨任务共享知识。实验结果表明,该方法可以有效缓解模型的灾难性遗忘现象,并且有效平衡了模型性能与计算资源效率。

目前该研究已被ACL 2025主会接收,相关代码及数据已全部开源。



图 3:HiDe-LLaVA 模型框架示意图。

论文 2:[ICCV 2025] Federated Continual Instruction Tuning



  • 论文链接:https://arxiv.org/pdf/2503.12897
  • 代码链接:https://github.com/Ghy0501/FCIT
  • 数据链接:https://huggingface.co/datasets/MLLM-CL/FCIT

研究动机:当前多模态大模型的指令微调面临集中训练成本高、实用性差的问题,而现有联邦学习方案在动态环境中难以实现持续学习与知识保留的平衡。为此,本文首次提出联邦连续指令微调(FCIT)基准,以解决分布式环境下持续学习的关键挑战。FCIT 基准包含同质(各客户端学习相同任务)和异质(各客户端学习不同任务)两种现实场景,通过 4 种实验设置和 12 个精选数据集,全面评估模型在非独立同分布数据和灾难性遗忘情况下的表现,为多模态大模型的联邦持续学习研究提供标准化评测框架。



图 4:FCIT 设定示意图

研究方法:为应对 FCIT 中的挑战,我们提出了DISCO框架,结合了 动态知识梳理(DKO) 和 子空间选择激活(SSA) 两种策略。DKO 利用全局服务器的动态缓存,存储并组织任务特定的参数,减少任务间和阶段间的冲突;SSA 则通过匹配输入特征与动态缓存中的任务子空间,选择性激活相关输出,同时过滤无关信息。实验结果表明,DISCO 在解决数据异质性和灾难性遗忘方面显著提升了模型性能,全面超越现有方法,并在 FCIT 基准上取得了最好的表现。

目前该研究已被ICCV 2025接收,相关代码及数据已全部开源。

论文 3:[EMNLP 2025]ModalPrompt: Dual-Modality Guided Prompt for Continual Learning of Large Multimodal Models



  • 论文链接:https://arxiv.org/pdf/2410.05849
  • 代码链接:https://github.com/AuroraZengfh/ModalPrompt


研究动机:为缓解多模态大模型持续学习任务中的灾难性遗忘现象,本文认为现有解决方案存在显著局限性:基于数据回放的方法面临隐私泄露风险和存储成本压力,而模型扩展策略则不可避免地引发计算资源的线性增长。值得注意的是,当前研究尚未充分探索多模态数据在持续学习中的协同监督潜力。而当前领域内缺乏专门针对多模态特性的持续学习框架,因此需要开发一种既能利用图像-文本双重监督、又能避免计算膨胀的新方法,以实现高效且隐私安全的知识持续积累。



图 5:ModalPrompt 模型框架示意图

研究方法:本文提出ModalPrompt框架,利用多模态监督,通过构建任务特定的图像文本原型提示,结合双模态引导提示选择和多任务提示融合机制,实现了在无回放数据的情况下有效保留旧任务知识并提升新任务性能。此外,该方法通过动态提示选择降低计算复杂度,使推理速度提升 1.42 倍,同时显著减少存储和训练成本。

目前该研究已被EMNLP 2025主会接收,相关代码已全部开源。

论文 4. MLLM-CL: Continual Learning for Multimodal Large Language Models



  • 论文链接:https://arxiv.org/pdf/2506.05453
  • 代码链接:https://github.com/bjzhb666/MLLM-CL
  • 数据链接:https://huggingface.co/datasets/Impression2805/MLLM-CL

研究动机:本文认为现有的多模态大模型连续指令微调评测基准主要关注独立同分布(IID)场景下的领域知识评估,缺乏对模型基础能力(如 OCR、数学推理等)在非 IID 场景下的系统性评测。为此,本文提出了一个新的多模态大模型持续学习基准MLLM-CL,涵盖领域持续学习(DCL) 和能力持续学习(ACL) 两种设置,分别针对同分布(IID)和非同分布(non-IID)场景下的领域知识和基础能力学习进行评估。



图 6:MLLM-CL 基准示意图

研究方法:为解决灾难性遗忘问题,本文提出了MR-LoRA,通过领域或能力特定的 LoRA 模块实现参数隔离,避免任务间干扰,并设计了基于 MLLM 自身的多模态理解能力的路由选择器,仅需少量样本微调即可精准匹配输入与最优专家模块。实验表明,该方法在领域持续学习(DCL)和能力持续学习(ACL)任务上显著优于传统回放或模型扩展方法。

论文 5. LLaVA-c: Continual Improved Visual Instruction Tuning



  • 论文链接:https://arxiv.org/pdf/2506.08666

研究动机:多模态大模型(如 LLaVA-1.5)在连续指令微调中面临的两大核心挑战:首先,传统的多任务联合训练存在任务平衡困难(需人工调整数据比例)和扩展成本高(新增任务需全量重训练)的固有缺陷;其次,现有持续学习方法虽能增量学习新任务,但普遍存在 "基础模型退化" 现象——模型过度拟合任务特定指令(如强制单字回答),丧失处理多样化指令的通用能力。



图 7:LLaVA-c 模型框架示意图

研究方法:本文提出了LLaVA-c,通过两个核心技术改进 LLaVA-1.5 模型:1)谱感知巩固(SAC),基于奇异值分解的模型融合策略有效克服新旧知识冲突,相比传统的模型混合策略提升了任务兼容性;2)无监督查询正则化(UIR),通过约束未标注文本指令的特征空间偏移(L2 距离损失)防止基础模型退化,在零额外标注成本下保持指令跟随能力。本文在预训练和指令微调两阶段上都验证了所提出方法的有效性,在通用评价基准和下游任务指标上均取得了最优的性能,并且首次实现持续学习效果超越多任务联合训练。

多模态大模型持续学习:代码仓库

论文:MCITlib: Multimodal Continual Instruction Tuning Library and Benchmark



  • 论文链接:https://arxiv.org/pdf/2508.07307
  • 代码仓库:https://github.com/Ghy0501/MCITlib

研究动机:随着多模态大模型持续学习研究的蓬勃发展,各类创新方法和评估基准不断涌现,但研究社区始终缺乏一个系统化、标准化的开发与评测平台。为填补这一关键空白,我们推出了MCITlib,一个开源的多模态持续指令微调代码仓库。MCITlib 集成了当前领域内 8 种主流算法,精心挑选了两个高质量基准(UCIT 和 DCL),有效避免信息泄露,为研究者提供了一个统一、公平的实验环境,便于全面评估不同方法的优劣。



图 8:开源代码仓库 MCITlib

未来,MCITlib 也将持续进行更新,扩展更多模型、任务和评测维度,为多模态大模型持续学习研究提供坚实助力。

总结与展望

赋予以多模态大模型为代表的生成式 AI 持续学习的能力是迈向人工智能通用化的重要一步。我们希望通过系统的综述、完善的 Benchmark、前沿的方法和开源的工具,能够为这一领域的研究者和应用开发者提供更多支持。未来,我们团队将继续深耕多模态大模型持续学习领域,探索更广泛的应用场景,持续推动该领域技术的发展与创新。

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
任职少林寺住持刚5个月,释印乐再迎喜讯,释永信肠子悔青也晚了

任职少林寺住持刚5个月,释印乐再迎喜讯,释永信肠子悔青也晚了

看尽落尘花q
2026-02-07 01:57:31
牢A让每个粉丝给他每个月充电988元,这镰刀够锋利!

牢A让每个粉丝给他每个月充电988元,这镰刀够锋利!

廖保平
2026-02-07 09:20:42
加拿大人彻底破防!超六成喊话:快把中国车卖给我

加拿大人彻底破防!超六成喊话:快把中国车卖给我

娱乐洞察点点
2026-02-07 06:09:15
车主吐槽高速服务区充电太贵 100元都充不满!网友神回复

车主吐槽高速服务区充电太贵 100元都充不满!网友神回复

快科技
2026-02-06 08:57:05
徐彬周六迎英伦处子秀!媒体人热议:踢不了英甲,英超遥不可及

徐彬周六迎英伦处子秀!媒体人热议:踢不了英甲,英超遥不可及

奥拜尔
2026-02-06 18:52:15
冬奥会首日看点:苏翊鸣冲击中国队首金,谷爱凌坡障赛场迎首秀

冬奥会首日看点:苏翊鸣冲击中国队首金,谷爱凌坡障赛场迎首秀

全景体育V
2026-02-07 08:12:19
林徽因后人现状,子孙都不愿姓梁,女儿仍健在,曾孙女家喻户晓

林徽因后人现状,子孙都不愿姓梁,女儿仍健在,曾孙女家喻户晓

云霄纪史观
2026-01-14 13:40:47
扶桑谈|高市早苗的“危机大选”:成就强人政权还是开启崩塌之路

扶桑谈|高市早苗的“危机大选”:成就强人政权还是开启崩塌之路

澎湃新闻
2026-02-06 15:23:08
李嘉诚遭零元购?巴拿马港口丢了?这局怎么破?

李嘉诚遭零元购?巴拿马港口丢了?这局怎么破?

看看新闻Knews
2026-02-05 18:39:22
人民日报怒批!炫富、偷税749万、跑国外,现又来“割内地韭菜”

人民日报怒批!炫富、偷税749万、跑国外,现又来“割内地韭菜”

小熊侃史
2026-01-18 07:20:09
张靓颖,丝袜这么可爱呀

张靓颖,丝袜这么可爱呀

陈意小可爱
2026-02-04 12:51:16
联合国秘书长:美独霸天下不行!中美共治也不行!我有第三套方案

联合国秘书长:美独霸天下不行!中美共治也不行!我有第三套方案

历史有些冷
2026-02-06 08:45:07
爱泼斯坦档案中的猛料:特朗普是傀儡,伊万卡是“肉票”大小姐?

爱泼斯坦档案中的猛料:特朗普是傀儡,伊万卡是“肉票”大小姐?

云舟史策
2026-02-05 22:19:12
黄子韬透露朵薇卫生巾工厂现状:卖了1.5亿还没回本

黄子韬透露朵薇卫生巾工厂现状:卖了1.5亿还没回本

界面新闻
2026-02-06 18:49:38
制裁大疆的欧美国家慌了:大疆无人机飞越珠峰,连直升机都做不到

制裁大疆的欧美国家慌了:大疆无人机飞越珠峰,连直升机都做不到

雅儿姐在遛弯
2026-02-07 08:07:11
祝贺!中山小伙入选中国男篮国家队,家乡沃土孕育锋线新星!

祝贺!中山小伙入选中国男篮国家队,家乡沃土孕育锋线新星!

中山印象体育摄影师
2026-02-06 14:39:29
66岁山口百惠的残酷家规:儿子40岁,仍在挤电车。

66岁山口百惠的残酷家规:儿子40岁,仍在挤电车。

果妈聊军事
2026-02-05 15:31:06
东契奇替补有了!球哥重新搭档老詹!湖人有意鲍尔加盟

东契奇替补有了!球哥重新搭档老詹!湖人有意鲍尔加盟

湖人侃球师
2026-02-06 08:50:41
微博之夜卷入座位风波!肖战被挪到边缘,杨幂超话沦陷,好精彩!

微博之夜卷入座位风波!肖战被挪到边缘,杨幂超话沦陷,好精彩!

萌神木木
2026-02-05 19:37:39
邓超儿子在日本走红!长相酷似迷你版流川枫,日本网友都要等他长大

邓超儿子在日本走红!长相酷似迷你版流川枫,日本网友都要等他长大

八星人
2026-02-06 10:12:44
2026-02-07 09:48:49
机器之心Pro incentive-icons
机器之心Pro
专业的人工智能媒体
12265文章数 142564关注度
往期回顾 全部

科技要闻

小米千匹马力新车亮相!问界M6双动力齐报

头条要闻

老人900万积蓄被儿子儿媳挪用 儿媳死后其姐继承300万

头条要闻

老人900万积蓄被儿子儿媳挪用 儿媳死后其姐继承300万

体育要闻

西甲射手榜第2,身价不到姆巴佩1/40

娱乐要闻

微博之夜抢C风波 杨幂工作室9字讨说法

财经要闻

爱尔眼科董事长旗下7家精神病院骗保

汽车要闻

AITO问界与Abu Dhabi Motors达成战略合作

态度原创

本地
数码
游戏
艺术
公开课

本地新闻

围观了北京第一届黑色羽绒服大赛,我笑疯了

数码要闻

9999元!雷蛇布斯朗悍蛇20周年纪念款预售开启 全球限量1337只

《生化危机4:重制版》换用DRM后 遭差评轰炸

艺术要闻

十年练字只认3个狂草字,揭秘其中的秘密!

公开课

李玫瑾:为什么性格比能力更重要?

无障碍浏览 进入关怀版