网易首页 > 网易号 > 正文 申请入驻

单向VLM变双向!人大斯坦福等提出MoCa框架:双向多模态编码器

0
分享至

新智元报道

编辑:LRST

【新智元导读】MoCa框架把单向视觉语言模型转化为双向多模态嵌入模型,通过持续预训练和异构对比微调,提升模型性能和泛化能力,在多模态基准测试中表现优异,尤其小规模模型性能突出。

预训练的视觉语言模型(VLM)因其强大的图文联合建模能力,在多种任务上展现出巨大潜力,也成为了许多目前广泛使用的多模态嵌入模型的基础。

然而,这些使用因果注意力机制的多模态嵌入模型在多模态嵌入任务中存在三个关键限制:

  • 表示能力弱:因果注意力机制单向预测的特性,限制了模型充分捕获双向跨模态的深层语义。

  • 泛化性差:传统模型多依赖于简单的图文对训练数据,缺乏更广泛、更丰富的数据源,难以在新任务或新领域快速泛化。

  • 扩展性低:现有模型的对比学习方法严重依赖于高质量的标注数据,导致成本高昂,难以有效地利用大规模无标注数据。

如何高效地将预训练因果VLM转变为强大的双向多模态编码器,已成为多模态理解领域的重要挑战。

为了克服这些挑战,亟需开发出一种新型框架,能够高效利用大规模非标注数据,提升多模态嵌入模型的双向理解和泛化能力。

中国人民大学、微软亚洲研究院、斯坦福大学、普林斯顿大学等机构的研究者提出了MoCa框架,采用双阶段方法,将基于单向注意力预训练的视觉语言模型(VLM)转化为有效的双向多模态编码模型。

论文链接:https://arxiv.org/abs/2506.23115

项目主页:https://haon-chen.github.io/MoCa/

MoCa通过针对不同模态的持续预训练和异构对比微调,有效解决了传统模型表示能力弱、泛化性差、扩展性低的问题,取得了显著的性能提升。

MoCa:从单向到双向

MoCa框架包括两个核心阶段:

  1. 针对不同模态的持续预训练(Modality-aware Continual Pre-training)

    利用随机遮蔽的文本与图像块进行联合重建(MLM+MAE),增强模型的双向跨模态理解能力;有效捕获了更丰富的跨模态语义信息。

  2. 异构对比微调(Heterogeneous Contrastive Fine-tuning)

    利用多样化的训练数据(如长文档、专业领域图文、纯文本等)和任务批次采样策略,进一步提高模型的鲁棒性和泛化性能。

通过上述方法,MoCa有效提升了多模态嵌入模型的双向表示能力和泛化性能,并显著降低了对高质量标注数据的依赖。

实验结果表明,MoCa在多个标准多模态基准测试中表现出色,尤其是在小规模模型条件下即可超越更大模型的性能,为多模态嵌入模型的进一步发展奠定了坚实基础。

MoCa框架包含两个关键的技术组件

  1. 针对不同模态的持续预训练(Modality-aware Continual Pre-training)

    跨模态双向注意力有效捕获图文之间的深层语义交互,改善因果模型单向推理的不足。

    联合mask重建(MLM+MAE)随机遮蔽文本词汇与图像块,让模型双向预测并恢复缺失信息;充分挖掘无标注数据的潜力,增强模型的跨模态表示能力。

  2. 异构对比微调 (Heterogeneous Contrastive Fine-tuning)

    任务批次采样策略动态采样不同任务批次,确保模型能够高效地适应多任务、多领域的应用需求。

    多样化数据源采用长文档、多领域图文、纯文本等丰富数据类型,提升模型的泛化能力。

通过这两个组件的紧密协作,MoCa实现了预训练到微调的高效流程,充分利用无监督数据,在性能和泛化性上取得突破。

与传统多模态嵌入框架的对比

MoCa框架相比传统的多模态嵌入模型有着明显优势。

· 传统框架(如mmE5、VLM2Vec)

单纯依赖高质量标注图文对,扩展性低;

以单向因果注意力为主,跨模态表示能力受限;

对新领域、新任务泛化性差。

· MoCa框架

充分利用大规模无标注数据,通过持续预训练显著降低成本;

双向模态交互机制,能更深层次地捕捉图文语义;

丰富的数据类型和任务采样策略,大幅提升泛化性能和扩展性。

因此,MoCa的提出为多模态嵌入领域提供了一条更加高效、更具泛化性的研究路径。

实验效果:以小博大,效果显著提升

研究人员在主流多模态嵌入基准MMEB和ViDoRe-v2上进行了全面评估。

在MMEB基准上

3B的MoCa模型即可达到现有7B规模baseline模型的性能水平。

7B的MoCa模型实现当前最佳性能(SOTA),显著超越现有模型。

在ViDoRe-v2任务中

MoCa在跨语言、跨领域的复杂任务中表现突出,整体性能超过现有先进方法。

特别在多语言和专业领域数据泛化能力上表现出明显优势。

实验结果充分验证了MoCa框架在低资源条件下实现高性能的能力,以及卓越的泛化性能。

消融实验

实验验证了MoCa各核心组件的有效性,结果显示,去除针对不同模态的持续预训练或异构对比微调中的任一环节,模型性能均明显下降,进一步证明了MoCa框架每个组件的必要性和重要性。

持续预训练的数据规模效应

为了探究持续预训练数据规模对模型性能的影响,研究人员进行了针对性实验。

实验表明,随着用于持续预训练的数据规模增加,模型的多模态理解性能持续提升,但存在一定的性能饱和效应。

结果显示,在实际应用中应合理权衡数据规模与计算成本,以实现最优性能。

未来展望

MoCa框架的成功验证了针对不同模态的持续预训练和异构对比微调策略的巨大潜力。这一方法不仅提升了小规模模型的表现,也为更广泛的数据利用和泛化能力奠定了基础。

未来,研究人员计划进一步探索以下几个方面:

  • 扩展到多模态多语言领域,探索更广泛的跨语言泛化能力。

  • 集成更多模态信息,如视频和音频,推动模型在更复杂场景下的应用。

  • 优化持续预训练策略,探索更高效的训练技术,进一步降低计算成本。

通过持续的努力,MoCa框架一定能够在多模态嵌入领域发挥更广泛、更深远的影响。

参考资料:

https://arxiv.org/abs/2506.23115

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
FDA撤回多项证实新冠疫苗、带状疱疹疫苗安全性的研究

FDA撤回多项证实新冠疫苗、带状疱疹疫苗安全性的研究

新浪财经
2026-05-06 22:27:08
《低智商犯罪》被观众要求下架!理由:主演招人烦、演技尴尬

《低智商犯罪》被观众要求下架!理由:主演招人烦、演技尴尬

林轻吟
2026-05-06 19:40:05
心血管科主任:动脉硬化最危险信号,不是腿凉,是频繁出现2异常

心血管科主任:动脉硬化最危险信号,不是腿凉,是频繁出现2异常

垚垚分享健康
2026-05-03 17:20:10
让人心疼 32岁凯恩快哭了:13场14球仍带不动拜仁 此生无缘欧冠?

让人心疼 32岁凯恩快哭了:13场14球仍带不动拜仁 此生无缘欧冠?

风过乡
2026-05-07 06:13:35
狠话,76人队恩比德在G4大战战胜凯尔特人队后对安东尼说了什么

狠话,76人队恩比德在G4大战战胜凯尔特人队后对安东尼说了什么

好火子
2026-05-07 05:49:25
佛说:当你看懂这段文字,你的人生真的会越来越顺

佛说:当你看懂这段文字,你的人生真的会越来越顺

金沛的国学笔记
2026-05-05 12:29:12
追觅科技创始人兼CEO俞浩自曝不买任何股票:建议年轻人别炒股,45岁以后才应“钱生钱”

追觅科技创始人兼CEO俞浩自曝不买任何股票:建议年轻人别炒股,45岁以后才应“钱生钱”

大象新闻
2026-05-06 16:46:07
广东一女儿将母亲器官活活剜出,母亲临死前哀求:妈妈错了

广东一女儿将母亲器官活活剜出,母亲临死前哀求:妈妈错了

纸鸢奇谭
2024-10-13 19:29:37
一脸憔悴、表情硬挤,却硬要在古装剧中演权臣,网友:男主成败笔

一脸憔悴、表情硬挤,却硬要在古装剧中演权臣,网友:男主成败笔

一娱三分地
2026-05-04 15:35:47
白人女性与黑人女性的体味差异,网友真实分享引发热议

白人女性与黑人女性的体味差异,网友真实分享引发热议

特约前排观众
2025-12-22 00:20:06
伊朗常驻联合国代表团提出解决霍尔木兹海峡问题的可行方案:永久结束战争,解除海上封锁,恢复正常通行

伊朗常驻联合国代表团提出解决霍尔木兹海峡问题的可行方案:永久结束战争,解除海上封锁,恢复正常通行

财联社
2026-05-07 01:10:29
太强了,高盛重仓股又有13个涨停,集中在4个行业方向

太强了,高盛重仓股又有13个涨停,集中在4个行业方向

风风顺
2026-05-07 00:00:08
大批“宇航员”排队打卡内蒙乌兰哈达火山,景区:内部环境似火星地表,牧民提供“宇航服”出租服务,休眠火山很安全

大批“宇航员”排队打卡内蒙乌兰哈达火山,景区:内部环境似火星地表,牧民提供“宇航服”出租服务,休眠火山很安全

极目新闻
2026-05-04 16:07:52
赖清德返回台岛,走下非洲专机前,蓝白投票封杀,表决结果50比61

赖清德返回台岛,走下非洲专机前,蓝白投票封杀,表决结果50比61

牛锅巴小钒
2026-05-07 05:29:35
1-2出局 35岁悲情巨星遗憾挥别!闯荡17年 欧冠0冠 西甲0冠

1-2出局 35岁悲情巨星遗憾挥别!闯荡17年 欧冠0冠 西甲0冠

叶青足球世界
2026-05-06 07:54:58
女子川东第一高瀑体验荡秋千坠亡,跌落前惊呼四遍“绳子没拴紧”,律师称家属可获赔约100万,责任人最高可判7年

女子川东第一高瀑体验荡秋千坠亡,跌落前惊呼四遍“绳子没拴紧”,律师称家属可获赔约100万,责任人最高可判7年

大风新闻
2026-05-06 20:18:12
Ella晒全家福庆象牙婚,9岁劲宝豁牙明显,五官似马来西亚爸爸

Ella晒全家福庆象牙婚,9岁劲宝豁牙明显,五官似马来西亚爸爸

娱珈歪歪鱼
2026-05-06 18:11:02
一代饮品传奇跌落神坛,巅峰营收50亿,如今身背21亿债务黯然退市

一代饮品传奇跌落神坛,巅峰营收50亿,如今身背21亿债务黯然退市

小兰聊历史
2026-04-26 06:09:36
欧冠太残酷了:随着大巴黎6-5晋级,2大劲旅止步四强,无缘争冠

欧冠太残酷了:随着大巴黎6-5晋级,2大劲旅止步四强,无缘争冠

侧身凌空斩
2026-05-07 05:06:43
她的肉感,像刚出锅的馒头,裹着衬衫都不臃肿!

她的肉感,像刚出锅的馒头,裹着衬衫都不臃肿!

飛娱日记
2026-04-27 07:37:12
2026-05-07 06:52:49
新智元 incentive-icons
新智元
AI产业主平台领航智能+时代
15145文章数 66839关注度
往期回顾 全部

科技要闻

“马斯克不懂AI”:OpenAI当庭戳老底

头条要闻

伊朗:美动用所有军事手段也无法开通霍尔木兹海峡

头条要闻

伊朗:美动用所有军事手段也无法开通霍尔木兹海峡

体育要闻

活塞1比0骑士:坎宁安不再是一个人了

娱乐要闻

谢娜演唱会暗藏惊喜 何炅瞒天过海现身

财经要闻

估值450亿美元 大基金被曝将投资DeepSeek

汽车要闻

领克10/领克10+ 无论能源形式 领克都要快乐

态度原创

游戏
本地
健康
公开课
军事航空

LPL第二赛段:滔搏排名迅速滑落!JDG三局战胜TES

本地新闻

用青花瓷的方式,打开西溪湿地

干细胞治烧烫伤面临这些“瓶颈”

公开课

李玫瑾:为什么性格比能力更重要?

军事要闻

实施不到48小时 特朗普紧急喊停"霍尔木兹自由计划"

无障碍浏览 进入关怀版