网易首页 > 网易号 > 正文 申请入驻

北京大学等发布首篇《视觉语言模型持续学习》万字综述!

0
分享至

摘要:当强大的视觉语言模型(VLM)如CLIP、BLIP遇到源源不断的新知识时,它们也会像人一样“学了就忘”吗?答案是肯定的,甚至更糟,这就是所谓的“灾难性遗忘”。为了解决这一难题,来自北京大学、南开大学、巴塞罗那计算视觉中心(CVC)的研究团队联合发布了首篇针对视觉语言模型持续学习(VLM-CL)的系统性综述,深入剖析了VLM在持续学习中面临的三大独有挑战,并首次提出一个由挑战驱动的解决方案分类法,为该领域的研究者提供了“诊断式”的全面参考。

第一时间获取资源:

·论文:https://arxiv.org/abs/2508.04227

·开源资源库 (Awesome List):

https://github.com/YuyangSunshine/Awesome-Continual-learning-of-Vision-Language-Models

引言:VLM为何需要“终身学习”?

视觉语言模型(VLM)通过在海量图文数据上进行预训练,获得了惊人的跨模态理解和零样本泛化能力 。然而,现实世界的数据是动态、非平稳的。无论是智能机器人、自动驾驶汽车还是个性化AI助手,都需要不断从新的数据流中学习。

当我们试图让VLM学习新知识时,一个棘手的问题浮出水面——灾难性遗忘(Catastrophic Forgetting) 。模型在学习新任务后,会严重遗忘旧任务的知识,导致多模态推理能力下降,零样本泛化能力被侵蚀 。

与传统的单模态持续学习不同,VLM的持续学习面临着更为独特的困境。这篇综述正是为了系统性地梳理这些挑战并指明未来的研究方向。

VLM持续学习的三大“拦路虎”

本文一针见血地指出了VLM在持续学习中面临的三大核心失败模式,并通过图示生动地展示了其原理。

VLM-CL中的三大核心挑战示意图

1.跨模态特征漂移 (Cross-Modal Feature Drift)

o 问题描述: VLM的核心在于其视觉和文本特征在语义空间中的精准对齐 。在持续学习过程中,这种对齐关系非常脆弱,很容易因模型更新而“漂移”,导致图文不再“心有灵犀” 。

o 后果: 模型的跨模态检索等任务性能会急剧下降 。

2.共享模块干扰 (Shared Module Interference)

o问题描述: 许多VLM依赖于共享的融合模块(如Cross-Attention)来整合多模态信息 。在学习新任务时,对共享模块的梯度更新可能会覆盖掉对旧任务至关重要的权重,造成“过河拆桥”式的遗忘 。

o后果: 融合能力被破坏,导致模型在新旧任务上都表现不佳 。

3.零样本能力侵蚀 (Zero-Shot Capability Erosion)

o问题描述: VLM强大的泛化能力来源于其丰富的预训练语义空间 。然而,持续的微调会使模型对新任务“过拟合”,导致整个语义空间发生扭曲 。

o后果: 原本清晰可辨的零样本概念(如“猫”和“狗”)变得模糊甚至重叠,模型的泛化能力严重“缩水” 。

破局之道:一个由挑战驱动的解决方案分类法

基于上述三大挑战,本文创新性地提出了一个“对症下药”的解决方案分类法,将现有方法归纳为三大范式。

VLM-CL策略分类法

1.多模态回放策略 (Multi-Modal Replay)

o 核心思想: 温故而知新。通过“复习”少量旧任务数据来对抗遗忘 。

o具体方法:

§ 显式回放 (Explicit Replay): 直接存储并重放一小部分过去的真实数据 。

§ 隐式回放 (Implicit Replay): 利用生成模型或伪样本来模拟过去的数据分布,以节省存储和保护隐私 。

2.跨模态正则化策略 (Cross-Modal Regularization)

o 核心思想: 给模型更新戴上“紧箍咒”。通过在损失函数中增加约束项,直接保护跨模态对齐关系 。

o 具体方法: 知识蒸馏、对齐关系维护、引导式正则化等,从模型层面抑制特征漂移,保护零样本能力 。

3.参数高效型适应策略 (Parameter-Efficient Adaptation)

o 核心思想: 冻结“主干”,“小修小补”。在持续学习中,冻结大部分预训练参数,只更新一小部分新增的、高效的模块(如Adapter、LoRA、Prompt) 。

o 优势: 从结构上隔离了不同任务的参数更新,有效缓解了共享模块干扰和零样本能力侵蚀的问题 。

全景式回顾与未来展望

除了提出核心分类法,这篇综述还提供了:

· 全面的基准回顾: 系统梳理了当前VLM-CL领域的评测数据集、核心指标和评估协议,并指出了现有标准的局限性 。

VLM-CL核心指标

·深入的性能分析: 在图像分类、多模态检索、视觉问答(VQA)等关键任务上,对现有SOTA方法的性能进行了分析和比较 。

指明未来:综述勾勒的四大前沿研究方向

除了对现有工作的梳理,本综述更具价值的部分在于为VLM持续学习的未来版图指明了方向。作者们认为,该领域正从简单地套用单模态技术,演变为一个拥有自身核心问题的独立领域,并提出了四大值得探索的前沿方向 :

1. 建立统一且更“懂”VLM的评测基准 (Unified and Holistic Benchmarking) 目前该领域的评测是“碎片化”的 。未来需要新一代的基准,它不仅要评估准确率,更要能精准“诊断”VLM的特有问题:

  • 组合式零样本评测: 通过测试已知概念的新组合,来量化模型的“零样本能力侵蚀”(ZSD)程度 。

  • 模态解耦指标: 比如,通过在单模态任务上汇报视觉和文本编码器的独立分数,来量化“跨模态特征漂移” 。

  • 时序性、网络规模的数据流: 模拟真实世界中持续不断的数据流,以真正评估模型的“持续预训练”(CPT)能力 。

2. 迈向终极目标:持续预训练 (Advancing Continual Pre-training, CPT) 当前绝大多数工作都集中在“持续微调”(CFT)上,但这只是权宜之计 。要让VLM不过时,最终需要实现“持续预训练”,即在大规模数据流上不断更新模型的核心知识。这需要研究“可扩展的遗忘缓解”技术 ,例如:

  • 开发适用于数十亿参数模型的高效重要性加权算法 。

  • 让模型学会从内部知识中自生成“伪样本”来进行复习,从而避免存储真实数据带来的隐私和成本问题 。

3. 拓展新场景:生成式与交互式任务 (Generative and Interactive Tasks) 目前的研究大多聚焦于分类、检索等判别式任务 。下一个前沿阵地在于赋予生成式和交互式模型持续学习的能力 。想象一下这些场景:多模态聊天机器人如何在与用户的对话中持续学习,而不会忘记之前的互动? 家用机器人如何在不断变化的环境中学习遵循新的指令?

这背后涉及从反馈中学习、长期记忆管理、以及持续对齐与安全等一系列复杂挑战 。

4. 夯实理论基础:从“经验”到“科学” (Towards a Theoretical Understanding) 当前VLM-CL领域很大程度上是经验驱动的 。未来需要更坚实的理论基础来指导算法设计 。一些根本性的问题亟待回答:

  • 我们能否从数学上建模跨模态特征漂移的过程?

  • 一个参数高效模块(如LoRA)在干扰预训练知识之前,其学习新知识的理论上限是多少?

  • “模态鸿沟(Modality Gap)”这一VLM的内在属性,在持续学习中扮演了怎样的角色?

总结

这篇综述不仅是VLM持续学习领域的第一篇系统性总结,更重要的是,它从问题的根源出发,为研究者们提供了一个清晰的、诊断式的分析框架。它将帮助读者更深刻地理解VLM在“终身学习”道路上遇到的独特障碍,并为开发下一代能够与时俱进的多模态AI系统提供了宝贵的指导和灵感。

我们强烈推荐所有从事多模态学习、持续学习、大模型适应等领域的研究者和工程师阅读此文。

再次附上链接,欢迎阅读、引用和分享!

·论文: https://arxiv.org/abs/2508.04227

·开源资源库 (Awesome List):

https://github.com/YuyangSunshine/Awesome-Continual-learning-of-Vision-Language-Models

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
英媒:伊朗消息人士称伊朗拒绝“临时停火”

英媒:伊朗消息人士称伊朗拒绝“临时停火”

新京报
2026-04-07 20:06:21
年满70~80岁的老人有福了!除养老金外,还能获得这几项补贴待遇

年满70~80岁的老人有福了!除养老金外,还能获得这几项补贴待遇

社保小达人
2026-03-01 11:35:07
健美选手睾丸萎缩成“蚕豆”大小:疯狂的肌肉与不可逆的代价

健美选手睾丸萎缩成“蚕豆”大小:疯狂的肌肉与不可逆的代价

听心堂
2026-01-24 13:11:09
长江策|金陵长乐坊闭店休整:大热过后如何真正“入戏”?

长江策|金陵长乐坊闭店休整:大热过后如何真正“入戏”?

现代快报
2026-04-08 23:26:16
性生活质量决定晚年健康?一周几次好?别害羞,听医生怎么说

性生活质量决定晚年健康?一周几次好?别害羞,听医生怎么说

医学原创故事会
2026-02-24 22:18:07
香港演员施明去世,终年74岁,曾出演《倚天屠龙记》紫衫龙王,精通武术曾做史泰龙保镖

香港演员施明去世,终年74岁,曾出演《倚天屠龙记》紫衫龙王,精通武术曾做史泰龙保镖

大象新闻
2026-03-31 14:49:05
立案调查!7000万股跌停封单,想逃都逃不掉,太折磨了

立案调查!7000万股跌停封单,想逃都逃不掉,太折磨了

慧眼看世界哈哈
2026-04-08 14:06:12
抢在高市访越前,北京先致贺电,中越共商大计,高市算盘终将落空

抢在高市访越前,北京先致贺电,中越共商大计,高市算盘终将落空

近史博览
2026-04-09 02:49:25
张雪峰原配、张姩菡亲妈李丽婧发文:余生只求陪女儿安安静静生活

张雪峰原配、张姩菡亲妈李丽婧发文:余生只求陪女儿安安静静生活

露珠聊影视
2026-04-08 13:59:29
快讯!为什么又要土葬,原因来了!

快讯!为什么又要土葬,原因来了!

达文西看世界
2026-04-08 13:54:59
这种饮料正在摧毁你的胰岛细胞!很多糖尿病,都和这种饮料有关!

这种饮料正在摧毁你的胰岛细胞!很多糖尿病,都和这种饮料有关!

蜉蝣说
2026-01-29 14:46:50
伊朗外长:若美方有诚意 彻底结束战争“完全可能”

伊朗外长:若美方有诚意 彻底结束战争“完全可能”

新华社
2026-04-09 01:23:03
从三聚氰胺到优思益:十七年过去,我们还在原地打转

从三聚氰胺到优思益:十七年过去,我们还在原地打转

凤眼论
2026-04-02 15:35:27
毛主席83岁时写下的13个铅笔字,网友争议其美丑!

毛主席83岁时写下的13个铅笔字,网友争议其美丑!

书画相约
2026-04-05 07:55:25
清明后这3菜要多吃,一养肝,二健脾,三排毒,简单一炒太香了

清明后这3菜要多吃,一养肝,二健脾,三排毒,简单一炒太香了

江江食研社
2026-04-07 09:41:08
大批美军或准备抗命,专家发现特朗普已失去理智,可能下令扔核弹

大批美军或准备抗命,专家发现特朗普已失去理智,可能下令扔核弹

史行途
2026-04-09 01:19:23
女性一周几次性生活比较好?夫妻生活中4个小细节,建议都要了解

女性一周几次性生活比较好?夫妻生活中4个小细节,建议都要了解

王二哥老搞笑
2026-04-06 06:28:39
狂轰滥炸!鹈鹕单节轰50分、全场砍156分 均创队史纪录

狂轰滥炸!鹈鹕单节轰50分、全场砍156分 均创队史纪录

北青网-北京青年报
2026-04-08 20:02:04
李小璐母亲:我这辈子最后悔的决定,就是心软让女儿嫁给了贾乃亮

李小璐母亲:我这辈子最后悔的决定,就是心软让女儿嫁给了贾乃亮

她时尚丫
2026-03-22 21:32:14
伊朗最高领袖:将继续利用封锁霍尔木兹海峡这一战略杠杆

伊朗最高领袖:将继续利用封锁霍尔木兹海峡这一战略杠杆

国际在线
2026-04-06 06:53:08
2026-04-09 03:47:00
算法与数学之美 incentive-icons
算法与数学之美
分享知识,交流思想
5463文章数 64622关注度
往期回顾 全部

科技要闻

造出地表最强AI,却死活不给你用!

头条要闻

伊朗武装部队:伊朗对美以绝不信任

头条要闻

伊朗武装部队:伊朗对美以绝不信任

体育要闻

40岁,但实力倒退12年

娱乐要闻

侯佩岑全家悉尼度假,一家四口幸福满溢

财经要闻

天津海河乳业回应直播间涉黄

汽车要闻

20万级满配华为全家桶 华境S是懂家庭的大六座

态度原创

本地
手机
时尚
教育
公开课

本地新闻

跟着歌声游安徽,听古村回响

手机要闻

三星据传拿下苹果折叠屏面板三年独家供应 今年出货预期300万台

50岁,我妈在恋综抢男人

教育要闻

高考地理|什么是"下击暴流"?

公开课

李玫瑾:为什么性格比能力更重要?

无障碍浏览 进入关怀版