网易首页 > 网易号 > 正文 申请入驻

多模态大模型持续学习,综述+Benchmark+方法+Codebase一网打尽

0
分享至

本系列工作核心作者: 郭海洋(自动化所博士生)、 朱飞 (中科院香港院AI中心AP)、 曾繁虎 (自动化所硕士生)、 刘文卓 (自动化所博士生)、 赵宏博 (自动化所博士生)。通讯作者为自动化所博士生导师张煦尧研究员和刘成林研究员。团队长期从事人工智能研究,成果发表于 CVPR、ICCV、NeurIPS、ICLR、ACL、TPAMI、IJCV 等国际顶级会议与期刊。

近年来,生成式 AI 和多模态大模型在各领域取得了令人瞩目的进展。然而,在现实世界应用中,动态环境下的数据分布和任务需求不断变化,大模型如何在此背景下实现持续学习成为了重要挑战。为了应对这一问题,中国科学院自动化研究所联合中国科学院香港院 AI 中心系统性地研究了生成式 AI 和多模态大模型的持续学习,提出了一系列综述、方法、Benchmark 和 Codebase,为相关领域的研究者和实践者提供了全面支持。

生成式 AI 的持续学习综述

论文:Continual Learning for Generative AI: From LLMs to MLLMs and Beyond

  • 论文链接:https://arxiv.org/pdf/2506.13045
  • 项目主页:https://github.com/Ghy0501/Awesome-Continual-Learning-in-Generative-Models

研究动机:以大模型为代表的生成式 AI 模型的快速发展让现代智能系统具备了理解和生成复杂内容的能力,甚至在部分领域达到了接近人类的表现。然而,这些模型依旧面临着“灾难性遗忘”问题,即在学习新任务时,往往会导致已学任务性能的显著下降。为解决这一挑战,大量的研究提出了多种方法以增强生成式 AI 在实际应用中的适应性和扩展性。本文系统性地综述了生成式 AI 的持续学习方法,涵盖大语言模型(LLMs)、多模态大语言模型(MLLMs)、视觉语言动作模型(VLA)和扩散模型(Diffusion Models)。

图 1:生成式 AI 中的持续学习示意图

研究内容:本文围绕生成式 AI 的持续学习问题,系统性地综述了不同模型的训练目标、应用场景及技术方法。研究涵盖大语言模型在理解与生成中的知识保留与任务适应、多模态大模型处理跨模态数据时的抗遗忘能力、视觉语言动作模型在机器人动态环境中的行为迁移与适应,以及扩散模型针对个性化生成需求的增量学习。这些模型的持续学习方法主要包括架构扩展、正则化和回放策略,旨在平衡新任务学习与旧任务性能的保持。此外,研究还探讨了评估指标(整体性能、遗忘程度、泛化能力)和未来方向(高效机制、强化学习范式、多模态扩展等),为生成式 AI 的持续学习提供了全面参考。

图 2:持续学习方法分类图

多模态大模型持续学习:Benchmark 与方法

传统的持续学习任务多聚焦于单模态场景,如图像或文本分类,但随着应用需求的复杂化,多模态任务逐渐成为核心。为此,我们提出了一系列新的 Benchmark 和方法,旨在推动多模态大模型持续学习的发展。

论文 1:[ACL 2025] HiDe-LLaVA: Hierarchical Decoupling for Continual Instruction Tuning of Multimodal Large Language Model

  • 论文链接:https://arxiv.org/pdf/2503.12941
  • 代码链接:https://github.com/Ghy0501/HiDe-LLaVA
  • 数据链接:https://huggingface.co/datasets/HaiyangGuo/UCIT

研究动机:本文认为当前的多模态大模型的持续学习面临两大关键挑战:一是现有评测基准普遍存在与预训练数据重叠的问题,导致评估结果失真;二是传统方法难以平衡新任务学习与旧任务遗忘之间的矛盾。为此,本研究提出构建全新的UCIT评测基准,通过严格的 zero-shot 筛选机制,构建了全新的无信息泄露风险数据集。同时创新性地提出层次化解耦学习策略,旨在解决持续指令微调中的灾难性遗忘问题,为多模态大模型的持续学习提供可靠的评估框架和解决方案。

研究方法:本文通过 CKA 相似性分析揭示了模型不同层级的任务特性差异:顶层具有任务特异性,其余层则保持任务通用性。基于此,本文提出的HiDe-LLaVA采用分层处理机制:在顶层引入多模态锚点驱动的动态专家选择模块,实现任务自适应;在其余层采用参数融合策略保留跨任务共享知识。实验结果表明,该方法可以有效缓解模型的灾难性遗忘现象,并且有效平衡了模型性能与计算资源效率。

目前该研究已被ACL 2025主会接收,相关代码及数据已全部开源。

图 3:HiDe-LLaVA 模型框架示意图。

论文 2:[ICCV 2025] Federated Continual Instruction Tuning

  • 论文链接:https://arxiv.org/pdf/2503.12897
  • 代码链接:https://github.com/Ghy0501/FCIT
  • 数据链接:https://huggingface.co/datasets/MLLM-CL/FCIT

研究动机:当前多模态大模型的指令微调面临集中训练成本高、实用性差的问题,而现有联邦学习方案在动态环境中难以实现持续学习与知识保留的平衡。为此,本文首次提出联邦连续指令微调(FCIT)基准,以解决分布式环境下持续学习的关键挑战。FCIT 基准包含同质(各客户端学习相同任务)和异质(各客户端学习不同任务)两种现实场景,通过 4 种实验设置和 12 个精选数据集,全面评估模型在非独立同分布数据和灾难性遗忘情况下的表现,为多模态大模型的联邦持续学习研究提供标准化评测框架。

图 4:FCIT 设定示意图

研究方法:为应对 FCIT 中的挑战,我们提出了DISCO框架,结合了 动态知识梳理(DKO) 和 子空间选择激活(SSA) 两种策略。DKO 利用全局服务器的动态缓存,存储并组织任务特定的参数,减少任务间和阶段间的冲突;SSA 则通过匹配输入特征与动态缓存中的任务子空间,选择性激活相关输出,同时过滤无关信息。实验结果表明,DISCO 在解决数据异质性和灾难性遗忘方面显著提升了模型性能,全面超越现有方法,并在 FCIT 基准上取得了最好的表现。

目前该研究已被ICCV 2025接收,相关代码及数据已全部开源。

论文 3:[EMNLP 2025]ModalPrompt: Dual-Modality Guided Prompt for Continual Learning of Large Multimodal Models

  • 论文链接:https://arxiv.org/pdf/2410.05849
  • 代码链接:https://github.com/AuroraZengfh/ModalPrompt


研究动机:为缓解多模态大模型持续学习任务中的灾难性遗忘现象,本文认为现有解决方案存在显著局限性:基于数据回放的方法面临隐私泄露风险和存储成本压力,而模型扩展策略则不可避免地引发计算资源的线性增长。值得注意的是,当前研究尚未充分探索多模态数据在持续学习中的协同监督潜力。而当前领域内缺乏专门针对多模态特性的持续学习框架,因此需要开发一种既能利用图像-文本双重监督、又能避免计算膨胀的新方法,以实现高效且隐私安全的知识持续积累。

图 5:ModalPrompt 模型框架示意图

研究方法:本文提出ModalPrompt框架,利用多模态监督,通过构建任务特定的图像文本原型提示,结合双模态引导提示选择和多任务提示融合机制,实现了在无回放数据的情况下有效保留旧任务知识并提升新任务性能。此外,该方法通过动态提示选择降低计算复杂度,使推理速度提升 1.42 倍,同时显著减少存储和训练成本。

目前该研究已被EMNLP 2025主会接收,相关代码已全部开源。

论文 4. MLLM-CL: Continual Learning for Multimodal Large Language Models

  • 论文链接:https://arxiv.org/pdf/2506.05453
  • 代码链接:https://github.com/bjzhb666/MLLM-CL
  • 数据链接:https://huggingface.co/datasets/Impression2805/MLLM-CL

研究动机:本文认为现有的多模态大模型连续指令微调评测基准主要关注独立同分布(IID)场景下的领域知识评估,缺乏对模型基础能力(如 OCR、数学推理等)在非 IID 场景下的系统性评测。为此,本文提出了一个新的多模态大模型持续学习基准MLLM-CL,涵盖领域持续学习(DCL) 和能力持续学习(ACL) 两种设置,分别针对同分布(IID)和非同分布(non-IID)场景下的领域知识和基础能力学习进行评估。

图 6:MLLM-CL 基准示意图

研究方法:为解决灾难性遗忘问题,本文提出了MR-LoRA,通过领域或能力特定的 LoRA 模块实现参数隔离,避免任务间干扰,并设计了基于 MLLM 自身的多模态理解能力的路由选择器,仅需少量样本微调即可精准匹配输入与最优专家模块。实验表明,该方法在领域持续学习(DCL)和能力持续学习(ACL)任务上显著优于传统回放或模型扩展方法。

论文 5. LLaVA-c: Continual Improved Visual Instruction Tuning

  • 论文链接:https://arxiv.org/pdf/2506.08666

研究动机:多模态大模型(如 LLaVA-1.5)在连续指令微调中面临的两大核心挑战:首先,传统的多任务联合训练存在任务平衡困难(需人工调整数据比例)和扩展成本高(新增任务需全量重训练)的固有缺陷;其次,现有持续学习方法虽能增量学习新任务,但普遍存在 "基础模型退化" 现象——模型过度拟合任务特定指令(如强制单字回答),丧失处理多样化指令的通用能力。

图 7:LLaVA-c 模型框架示意图

研究方法:本文提出了LLaVA-c,通过两个核心技术改进 LLaVA-1.5 模型:1)谱感知巩固(SAC),基于奇异值分解的模型融合策略有效克服新旧知识冲突,相比传统的模型混合策略提升了任务兼容性;2)无监督查询正则化(UIR),通过约束未标注文本指令的特征空间偏移(L2 距离损失)防止基础模型退化,在零额外标注成本下保持指令跟随能力。本文在预训练和指令微调两阶段上都验证了所提出方法的有效性,在通用评价基准和下游任务指标上均取得了最优的性能,并且首次实现持续学习效果超越多任务联合训练。

多模态大模型持续学习:代码仓库

论文:MCITlib: Multimodal Continual Instruction Tuning Library and Benchmark

  • 论文链接:https://arxiv.org/pdf/2508.07307
  • 代码仓库:https://github.com/Ghy0501/MCITlib

研究动机:随着多模态大模型持续学习研究的蓬勃发展,各类创新方法和评估基准不断涌现,但研究社区始终缺乏一个系统化、标准化的开发与评测平台。为填补这一关键空白,我们推出了MCITlib,一个开源的多模态持续指令微调代码仓库。MCITlib 集成了当前领域内 8 种主流算法,精心挑选了两个高质量基准(UCIT 和 DCL),有效避免信息泄露,为研究者提供了一个统一、公平的实验环境,便于全面评估不同方法的优劣。

图 8:开源代码仓库 MCITlib

未来,MCITlib 也将持续进行更新,扩展更多模型、任务和评测维度,为多模态大模型持续学习研究提供坚实助力。

总结与展望

赋予以多模态大模型为代表的生成式 AI 持续学习的能力是迈向人工智能通用化的重要一步。我们希望通过系统的综述、完善的 Benchmark、前沿的方法和开源的工具,能够为这一领域的研究者和应用开发者提供更多支持。未来,我们团队将继续深耕多模态大模型持续学习领域,探索更广泛的应用场景,持续推动该领域技术的发展与创新。

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
中国“B级轿车”销量王:老势力油车重回第一,月零售量超17000台

中国“B级轿车”销量王:老势力油车重回第一,月零售量超17000台

柳先说
2026-04-23 14:57:47
64岁阿姨肺癌离世,常年吃清蒸鱼、炖汤,医生:祸根在3个细节里

64岁阿姨肺癌离世,常年吃清蒸鱼、炖汤,医生:祸根在3个细节里

垚垚分享健康
2026-03-23 08:59:14
我跟大伯去伐木,夜里外面突然有动静,大伯看一眼:今晚必须下山

我跟大伯去伐木,夜里外面突然有动静,大伯看一眼:今晚必须下山

千秋文化
2026-03-25 21:38:09
我敢打赌99%的男人会选白衣服女孩做老婆,看腿型就知道

我敢打赌99%的男人会选白衣服女孩做老婆,看腿型就知道

匹夫来搞笑
2026-04-24 12:20:31
5000万截胡曼城?曼联要签新库尼亚,不等了!

5000万截胡曼城?曼联要签新库尼亚,不等了!

澜归序
2026-04-25 07:21:55
金平日:与金正日争权失败,驻外30年躲过暗杀,因这件事允许回国

金平日:与金正日争权失败,驻外30年躲过暗杀,因这件事允许回国

阿胡
2025-04-03 13:59:42
金莎备孕成功刷屏,原来3年前就冻了7枚胚胎!高龄怀孕不再凭运气

金莎备孕成功刷屏,原来3年前就冻了7枚胚胎!高龄怀孕不再凭运气

一盅情怀
2026-04-25 19:31:31
早上为什么不建议吃馒头?忠告:不止馒头,这5类食物,尽量少吃

早上为什么不建议吃馒头?忠告:不止馒头,这5类食物,尽量少吃

白话电影院
2026-04-05 22:37:36
退休大爷帮忙接小孩2年,住院要借8千应急,邻居没借,隔天傻眼了

退休大爷帮忙接小孩2年,住院要借8千应急,邻居没借,隔天傻眼了

五元讲堂
2025-09-02 10:40:18
有种差距叫于和伟和王阳,同样跟万茜搭戏,才知“CP感”是门玄学

有种差距叫于和伟和王阳,同样跟万茜搭戏,才知“CP感”是门玄学

陈述影视
2026-04-24 22:44:40
宁波队3-0全取3分将负分清零,中甲4支扣分队已全部抹去负分

宁波队3-0全取3分将负分清零,中甲4支扣分队已全部抹去负分

懂球帝
2026-04-25 21:31:09
一汽-大众产品全面焕新升级 春季新品发布会五车齐发

一汽-大众产品全面焕新升级 春季新品发布会五车齐发

齐鲁壹点
2026-04-01 11:18:03
特朗普通告全球,现在的美国要带领全世界完成“去中国化”

特朗普通告全球,现在的美国要带领全世界完成“去中国化”

果妈聊娱乐
2026-04-25 09:22:11
四川饲料大王首富变“首负”:欠了近千亿,一年光利息就要18亿

四川饲料大王首富变“首负”:欠了近千亿,一年光利息就要18亿

梦回千年aa
2026-04-12 05:53:20
1912年,曹锟娶20岁陈寒蕊,新婚夜他酣睡,新娘见其苍老悲泣不止

1912年,曹锟娶20岁陈寒蕊,新婚夜他酣睡,新娘见其苍老悲泣不止

唠叨说历史
2026-03-24 18:52:24
美专家:美军一旦向北京、上海扔下核弹,中国并不会对等报复

美专家:美军一旦向北京、上海扔下核弹,中国并不会对等报复

小非喜欢解说
2026-04-25 23:08:06
越南联赛收官!4位中国留洋队员仅2人晋级,不是不拼是球队带不动

越南联赛收官!4位中国留洋队员仅2人晋级,不是不拼是球队带不动

金毛爱女排
2026-04-26 00:00:04
沈阳一大学女教授上课被拍,视频曝光后,网友:简直不敢相信!

沈阳一大学女教授上课被拍,视频曝光后,网友:简直不敢相信!

侃故事的阿庆
2026-04-25 12:32:09
ASML心凉了,中国大陆市场禁售,台积电不要,2nm光刻机卖给谁?

ASML心凉了,中国大陆市场禁售,台积电不要,2nm光刻机卖给谁?

天天热点见闻
2026-04-25 06:29:38
我退休金1.35万,给女儿5000,女婿:每月给我们1.5万,剩下的您留着

我退休金1.35万,给女儿5000,女婿:每月给我们1.5万,剩下的您留着

热心市民小黄
2026-04-25 12:48:03
2026-04-26 05:19:00
机器之心Pro incentive-icons
机器之心Pro
专业的人工智能媒体
12852文章数 142636关注度
往期回顾 全部

科技要闻

DeepSeek V4发布!黄仁勋预言的"灾难"降临

头条要闻

媒体:美军在中东罕见高密度集结 伊朗开始调整战术

头条要闻

媒体:美军在中东罕见高密度集结 伊朗开始调整战术

体育要闻

那一刻开始,两支球队的命运悄然改变了

娱乐要闻

《我们的爸爸2》第一季完美爸爸翻车了

财经要闻

90%订单消失,中东旺季没了

汽车要闻

2026款乐道L90亮相北京车展 乐道L80正式官宣

态度原创

游戏
教育
本地
公开课
军事航空

金发美少女魔王和我是邻居!新游首曝美女角色太吸睛

教育要闻

高校重磅改革:40%课程将AI化

本地新闻

云游中国|逛世界风筝都 留学生探秘中国传统文化

公开课

李玫瑾:为什么性格比能力更重要?

军事要闻

美防长:战事不会“没完没了”

无障碍浏览 进入关怀版