网易首页 > 网易号 > 正文 申请入驻

北京大学等发布首篇《视觉语言模型持续学习》万字综述!

0
分享至

摘要:当强大的视觉语言模型(VLM)如CLIP、BLIP遇到源源不断的新知识时,它们也会像人一样“学了就忘”吗?答案是肯定的,甚至更糟,这就是所谓的“灾难性遗忘”。为了解决这一难题,来自北京大学、南开大学、巴塞罗那计算视觉中心(CVC)的研究团队联合发布了首篇针对视觉语言模型持续学习(VLM-CL)的系统性综述,深入剖析了VLM在持续学习中面临的三大独有挑战,并首次提出一个由挑战驱动的解决方案分类法,为该领域的研究者提供了“诊断式”的全面参考。

第一时间获取资源:

·论文:https://arxiv.org/abs/2508.04227

·开源资源库 (Awesome List):

https://github.com/YuyangSunshine/Awesome-Continual-learning-of-Vision-Language-Models

引言:VLM为何需要“终身学习”?

视觉语言模型(VLM)通过在海量图文数据上进行预训练,获得了惊人的跨模态理解和零样本泛化能力 。然而,现实世界的数据是动态、非平稳的。无论是智能机器人、自动驾驶汽车还是个性化AI助手,都需要不断从新的数据流中学习。

当我们试图让VLM学习新知识时,一个棘手的问题浮出水面——灾难性遗忘(Catastrophic Forgetting) 。模型在学习新任务后,会严重遗忘旧任务的知识,导致多模态推理能力下降,零样本泛化能力被侵蚀 。

与传统的单模态持续学习不同,VLM的持续学习面临着更为独特的困境。这篇综述正是为了系统性地梳理这些挑战并指明未来的研究方向。

VLM持续学习的三大“拦路虎”

本文一针见血地指出了VLM在持续学习中面临的三大核心失败模式,并通过图示生动地展示了其原理。

VLM-CL中的三大核心挑战示意图

1.跨模态特征漂移 (Cross-Modal Feature Drift)

o 问题描述: VLM的核心在于其视觉和文本特征在语义空间中的精准对齐 。在持续学习过程中,这种对齐关系非常脆弱,很容易因模型更新而“漂移”,导致图文不再“心有灵犀” 。

o 后果: 模型的跨模态检索等任务性能会急剧下降 。

2.共享模块干扰 (Shared Module Interference)

o问题描述: 许多VLM依赖于共享的融合模块(如Cross-Attention)来整合多模态信息 。在学习新任务时,对共享模块的梯度更新可能会覆盖掉对旧任务至关重要的权重,造成“过河拆桥”式的遗忘 。

o后果: 融合能力被破坏,导致模型在新旧任务上都表现不佳 。

3.零样本能力侵蚀 (Zero-Shot Capability Erosion)

o问题描述: VLM强大的泛化能力来源于其丰富的预训练语义空间 。然而,持续的微调会使模型对新任务“过拟合”,导致整个语义空间发生扭曲 。

o后果: 原本清晰可辨的零样本概念(如“猫”和“狗”)变得模糊甚至重叠,模型的泛化能力严重“缩水” 。

破局之道:一个由挑战驱动的解决方案分类法

基于上述三大挑战,本文创新性地提出了一个“对症下药”的解决方案分类法,将现有方法归纳为三大范式。

VLM-CL策略分类法

1.多模态回放策略 (Multi-Modal Replay)

o 核心思想: 温故而知新。通过“复习”少量旧任务数据来对抗遗忘 。

o具体方法:

§ 显式回放 (Explicit Replay): 直接存储并重放一小部分过去的真实数据 。

§ 隐式回放 (Implicit Replay): 利用生成模型或伪样本来模拟过去的数据分布,以节省存储和保护隐私 。

2.跨模态正则化策略 (Cross-Modal Regularization)

o 核心思想: 给模型更新戴上“紧箍咒”。通过在损失函数中增加约束项,直接保护跨模态对齐关系 。

o 具体方法: 知识蒸馏、对齐关系维护、引导式正则化等,从模型层面抑制特征漂移,保护零样本能力 。

3.参数高效型适应策略 (Parameter-Efficient Adaptation)

o 核心思想: 冻结“主干”,“小修小补”。在持续学习中,冻结大部分预训练参数,只更新一小部分新增的、高效的模块(如Adapter、LoRA、Prompt) 。

o 优势: 从结构上隔离了不同任务的参数更新,有效缓解了共享模块干扰和零样本能力侵蚀的问题 。

全景式回顾与未来展望

除了提出核心分类法,这篇综述还提供了:

· 全面的基准回顾: 系统梳理了当前VLM-CL领域的评测数据集、核心指标和评估协议,并指出了现有标准的局限性 。

VLM-CL核心指标

·深入的性能分析: 在图像分类、多模态检索、视觉问答(VQA)等关键任务上,对现有SOTA方法的性能进行了分析和比较 。

指明未来:综述勾勒的四大前沿研究方向

除了对现有工作的梳理,本综述更具价值的部分在于为VLM持续学习的未来版图指明了方向。作者们认为,该领域正从简单地套用单模态技术,演变为一个拥有自身核心问题的独立领域,并提出了四大值得探索的前沿方向 :

1. 建立统一且更“懂”VLM的评测基准 (Unified and Holistic Benchmarking) 目前该领域的评测是“碎片化”的 。未来需要新一代的基准,它不仅要评估准确率,更要能精准“诊断”VLM的特有问题:

  • 组合式零样本评测: 通过测试已知概念的新组合,来量化模型的“零样本能力侵蚀”(ZSD)程度 。

  • 模态解耦指标: 比如,通过在单模态任务上汇报视觉和文本编码器的独立分数,来量化“跨模态特征漂移” 。

  • 时序性、网络规模的数据流: 模拟真实世界中持续不断的数据流,以真正评估模型的“持续预训练”(CPT)能力 。

2. 迈向终极目标:持续预训练 (Advancing Continual Pre-training, CPT) 当前绝大多数工作都集中在“持续微调”(CFT)上,但这只是权宜之计 。要让VLM不过时,最终需要实现“持续预训练”,即在大规模数据流上不断更新模型的核心知识。这需要研究“可扩展的遗忘缓解”技术 ,例如:

  • 开发适用于数十亿参数模型的高效重要性加权算法 。

  • 让模型学会从内部知识中自生成“伪样本”来进行复习,从而避免存储真实数据带来的隐私和成本问题 。

3. 拓展新场景:生成式与交互式任务 (Generative and Interactive Tasks) 目前的研究大多聚焦于分类、检索等判别式任务 。下一个前沿阵地在于赋予生成式和交互式模型持续学习的能力 。想象一下这些场景:多模态聊天机器人如何在与用户的对话中持续学习,而不会忘记之前的互动? 家用机器人如何在不断变化的环境中学习遵循新的指令?

这背后涉及从反馈中学习、长期记忆管理、以及持续对齐与安全等一系列复杂挑战 。

4. 夯实理论基础:从“经验”到“科学” (Towards a Theoretical Understanding) 当前VLM-CL领域很大程度上是经验驱动的 。未来需要更坚实的理论基础来指导算法设计 。一些根本性的问题亟待回答:

  • 我们能否从数学上建模跨模态特征漂移的过程?

  • 一个参数高效模块(如LoRA)在干扰预训练知识之前,其学习新知识的理论上限是多少?

  • “模态鸿沟(Modality Gap)”这一VLM的内在属性,在持续学习中扮演了怎样的角色?

总结

这篇综述不仅是VLM持续学习领域的第一篇系统性总结,更重要的是,它从问题的根源出发,为研究者们提供了一个清晰的、诊断式的分析框架。它将帮助读者更深刻地理解VLM在“终身学习”道路上遇到的独特障碍,并为开发下一代能够与时俱进的多模态AI系统提供了宝贵的指导和灵感。

我们强烈推荐所有从事多模态学习、持续学习、大模型适应等领域的研究者和工程师阅读此文。

再次附上链接,欢迎阅读、引用和分享!

·论文: https://arxiv.org/abs/2508.04227

·开源资源库 (Awesome List):

https://github.com/YuyangSunshine/Awesome-Continual-learning-of-Vision-Language-Models

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
女子独游罗马,惨遭5人囚禁、轮奸3天

女子独游罗马,惨遭5人囚禁、轮奸3天

侠客栈
2026-06-01 13:33:10
退休后,千万不要着急去提取住房公积金!一定要等公积金“封存”

退休后,千万不要着急去提取住房公积金!一定要等公积金“封存”

石辰搞笑日常
2026-05-31 10:55:04
美若天仙王楚然:肤白貌美,婀娜多姿。倾国倾城,美不胜收!

美若天仙王楚然:肤白貌美,婀娜多姿。倾国倾城,美不胜收!

十为先生
2026-05-09 15:19:03
为了本菲卡,皇马主席和穆里尼奥口径达成一致,说明两人关系亲密

为了本菲卡,皇马主席和穆里尼奥口径达成一致,说明两人关系亲密

福酱的小时光
2026-06-01 12:01:26
AI应用大爆发,半导体领跌!600403,封涨停

AI应用大爆发,半导体领跌!600403,封涨停

中国基金报
2026-06-01 13:19:38
张嘉益也带不动戏混子!只会瞪眼,哭戏套路化,再好资源也难出圈

张嘉益也带不动戏混子!只会瞪眼,哭戏套路化,再好资源也难出圈

娱说瑜悦
2026-06-01 13:31:50
首批英伟达RTX Spark笔记本名单公布,微软、联想、华硕等在列

首批英伟达RTX Spark笔记本名单公布,微软、联想、华硕等在列

IT之家
2026-06-01 13:52:05
尚帕涅:科内特的封盖是比赛最关键一球 没见过他跑那么快

尚帕涅:科内特的封盖是比赛最关键一球 没见过他跑那么快

北青网-北京青年报
2026-05-31 19:26:35
35岁剩女的哀叹:当我玩够了想嫁人时才发现,老实人也会谈条件

35岁剩女的哀叹:当我玩够了想嫁人时才发现,老实人也会谈条件

千秋文化
2026-05-26 19:43:34
2-0晋级!中国女网18岁1米81新星崛起:郑钦文王欣瑜后继有人

2-0晋级!中国女网18岁1米81新星崛起:郑钦文王欣瑜后继有人

李喜林篮球绝杀
2026-05-31 21:00:21
还没当总统梅朗雄就亮对华政策:反对外部插手台海,绝不挑衅中国

还没当总统梅朗雄就亮对华政策:反对外部插手台海,绝不挑衅中国

乡土舒四
2026-06-01 08:56:33
油价调整:注意,预计下调570元/吨,油价要跌!

油价调整:注意,预计下调570元/吨,油价要跌!

金投网
2026-06-01 11:13:38
俄罗斯让中国心凉?真正恐怖的并非西方围堵,而是我们低估了自己

俄罗斯让中国心凉?真正恐怖的并非西方围堵,而是我们低估了自己

混沌录
2026-04-09 16:27:09
新闻联播都快"看不懂"了,近年出现了越来越多专业的新词汇

新闻联播都快"看不懂"了,近年出现了越来越多专业的新词汇

飘逸的云朵
2026-05-30 03:39:47
比开塞露还管用!这3种“推屎”食物,每天吃一点,清空宿便

比开塞露还管用!这3种“推屎”食物,每天吃一点,清空宿便

白宸侃片
2026-05-19 11:56:50
就说辣不辣

就说辣不辣

草莓解说体育
2026-05-31 01:17:13
一口气看完,民国21位国家元首,最终结局都如何

一口气看完,民国21位国家元首,最终结局都如何

幽州校尉
2026-05-31 07:31:56
儿媳带亲家住进我买的全款房,还要求过户房产,我直接收回全款房

儿媳带亲家住进我买的全款房,还要求过户房产,我直接收回全款房

施工员小天哥
2026-05-31 12:05:35
你的公积金是什么段位?

你的公积金是什么段位?

职场资深秘书
2026-05-26 16:25:54
最敬业代言!王力宏演唱会上被夸是法拉利 马上摆手否认:我现在是比亚迪

最敬业代言!王力宏演唱会上被夸是法拉利 马上摆手否认:我现在是比亚迪

快科技
2026-05-31 16:49:12
2026-06-01 14:15:00
算法与数学之美 incentive-icons
算法与数学之美
分享知识,交流思想
5577文章数 64623关注度
往期回顾 全部

科技要闻

关停三年后,天涯社区今起开放访问

头条要闻

普京将乌无人机残骸交于美方 被指发表"极其危险言论"

头条要闻

普京将乌无人机残骸交于美方 被指发表"极其危险言论"

体育要闻

哭过之后,文班亚马想给波波维奇打电话

娱乐要闻

张凌赫活动商场玻璃被挤爆5人受伤

财经要闻

网红驱蚊产品,标注化妆品竟含农药成分

汽车要闻

上市三周交付3603台!华境S跻身旗舰大六座第一梯队

态度原创

手机
时尚
游戏
公开课
军事航空

手机要闻

小米17系列即将突破500万销量,国产安卓第一人有意见吗?

女人不管多大年纪,夏天都要准备一条白色阔腿裤,百搭又清爽

“并非bug”!《GTA6》悬浮路灯竟是佛罗里达真实实景

公开课

李玫瑾:为什么性格比能力更重要?

军事要闻

韩国最大军工企业爆炸 已造成5人死亡

无障碍浏览 进入关怀版