网易首页 > 网易号 > 正文 申请入驻

单向VLM变双向!人大斯坦福等提出MoCa框架:双向多模态编码器

0
分享至

新智元报道

编辑:LRST

【新智元导读】MoCa框架把单向视觉语言模型转化为双向多模态嵌入模型,通过持续预训练和异构对比微调,提升模型性能和泛化能力,在多模态基准测试中表现优异,尤其小规模模型性能突出。

预训练的视觉语言模型(VLM)因其强大的图文联合建模能力,在多种任务上展现出巨大潜力,也成为了许多目前广泛使用的多模态嵌入模型的基础。

然而,这些使用因果注意力机制的多模态嵌入模型在多模态嵌入任务中存在三个关键限制:

  • 表示能力弱:因果注意力机制单向预测的特性,限制了模型充分捕获双向跨模态的深层语义。

  • 泛化性差:传统模型多依赖于简单的图文对训练数据,缺乏更广泛、更丰富的数据源,难以在新任务或新领域快速泛化。

  • 扩展性低:现有模型的对比学习方法严重依赖于高质量的标注数据,导致成本高昂,难以有效地利用大规模无标注数据。

如何高效地将预训练因果VLM转变为强大的双向多模态编码器,已成为多模态理解领域的重要挑战。

为了克服这些挑战,亟需开发出一种新型框架,能够高效利用大规模非标注数据,提升多模态嵌入模型的双向理解和泛化能力。

中国人民大学、微软亚洲研究院、斯坦福大学、普林斯顿大学等机构的研究者提出了MoCa框架,采用双阶段方法,将基于单向注意力预训练的视觉语言模型(VLM)转化为有效的双向多模态编码模型。

论文链接:https://arxiv.org/abs/2506.23115

项目主页:https://haon-chen.github.io/MoCa/

MoCa通过针对不同模态的持续预训练和异构对比微调,有效解决了传统模型表示能力弱、泛化性差、扩展性低的问题,取得了显著的性能提升。

MoCa:从单向到双向

MoCa框架包括两个核心阶段:

  1. 针对不同模态的持续预训练(Modality-aware Continual Pre-training)

    利用随机遮蔽的文本与图像块进行联合重建(MLM+MAE),增强模型的双向跨模态理解能力;有效捕获了更丰富的跨模态语义信息。

  2. 异构对比微调(Heterogeneous Contrastive Fine-tuning)

    利用多样化的训练数据(如长文档、专业领域图文、纯文本等)和任务批次采样策略,进一步提高模型的鲁棒性和泛化性能。

通过上述方法,MoCa有效提升了多模态嵌入模型的双向表示能力和泛化性能,并显著降低了对高质量标注数据的依赖。

实验结果表明,MoCa在多个标准多模态基准测试中表现出色,尤其是在小规模模型条件下即可超越更大模型的性能,为多模态嵌入模型的进一步发展奠定了坚实基础。

MoCa框架包含两个关键的技术组件

  1. 针对不同模态的持续预训练(Modality-aware Continual Pre-training)

    跨模态双向注意力有效捕获图文之间的深层语义交互,改善因果模型单向推理的不足。

    联合mask重建(MLM+MAE)随机遮蔽文本词汇与图像块,让模型双向预测并恢复缺失信息;充分挖掘无标注数据的潜力,增强模型的跨模态表示能力。

  2. 异构对比微调 (Heterogeneous Contrastive Fine-tuning)

    任务批次采样策略动态采样不同任务批次,确保模型能够高效地适应多任务、多领域的应用需求。

    多样化数据源采用长文档、多领域图文、纯文本等丰富数据类型,提升模型的泛化能力。

通过这两个组件的紧密协作,MoCa实现了预训练到微调的高效流程,充分利用无监督数据,在性能和泛化性上取得突破。

与传统多模态嵌入框架的对比

MoCa框架相比传统的多模态嵌入模型有着明显优势。

· 传统框架(如mmE5、VLM2Vec)

单纯依赖高质量标注图文对,扩展性低;

以单向因果注意力为主,跨模态表示能力受限;

对新领域、新任务泛化性差。

· MoCa框架

充分利用大规模无标注数据,通过持续预训练显著降低成本;

双向模态交互机制,能更深层次地捕捉图文语义;

丰富的数据类型和任务采样策略,大幅提升泛化性能和扩展性。

因此,MoCa的提出为多模态嵌入领域提供了一条更加高效、更具泛化性的研究路径。

实验效果:以小博大,效果显著提升

研究人员在主流多模态嵌入基准MMEB和ViDoRe-v2上进行了全面评估。

在MMEB基准上

3B的MoCa模型即可达到现有7B规模baseline模型的性能水平。

7B的MoCa模型实现当前最佳性能(SOTA),显著超越现有模型。

在ViDoRe-v2任务中

MoCa在跨语言、跨领域的复杂任务中表现突出,整体性能超过现有先进方法。

特别在多语言和专业领域数据泛化能力上表现出明显优势。

实验结果充分验证了MoCa框架在低资源条件下实现高性能的能力,以及卓越的泛化性能。

消融实验

实验验证了MoCa各核心组件的有效性,结果显示,去除针对不同模态的持续预训练或异构对比微调中的任一环节,模型性能均明显下降,进一步证明了MoCa框架每个组件的必要性和重要性。

持续预训练的数据规模效应

为了探究持续预训练数据规模对模型性能的影响,研究人员进行了针对性实验。

实验表明,随着用于持续预训练的数据规模增加,模型的多模态理解性能持续提升,但存在一定的性能饱和效应。

结果显示,在实际应用中应合理权衡数据规模与计算成本,以实现最优性能。

未来展望

MoCa框架的成功验证了针对不同模态的持续预训练和异构对比微调策略的巨大潜力。这一方法不仅提升了小规模模型的表现,也为更广泛的数据利用和泛化能力奠定了基础。

未来,研究人员计划进一步探索以下几个方面:

  • 扩展到多模态多语言领域,探索更广泛的跨语言泛化能力。

  • 集成更多模态信息,如视频和音频,推动模型在更复杂场景下的应用。

  • 优化持续预训练策略,探索更高效的训练技术,进一步降低计算成本。

通过持续的努力,MoCa框架一定能够在多模态嵌入领域发挥更广泛、更深远的影响。

参考资料:

https://arxiv.org/abs/2506.23115

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
中国警告日本政府,一旦战争爆发,日本将会有4个方面的下场

中国警告日本政府,一旦战争爆发,日本将会有4个方面的下场

兴史兴谈
2026-01-13 01:18:53
二百多名军官被枪毙、撤职、处分,长津湖战役中失职的志愿军88师

二百多名军官被枪毙、撤职、处分,长津湖战役中失职的志愿军88师

丞丞故事汇
2025-12-28 00:13:54
利物浦球员穿上了新赞助商的服装,球迷调侃萨拉赫像火车司机

利物浦球员穿上了新赞助商的服装,球迷调侃萨拉赫像火车司机

懂球帝
2026-02-01 12:37:35
三大运营商宣布调整电信服务增值税税率,由6%调至9%

三大运营商宣布调整电信服务增值税税率,由6%调至9%

IT之家
2026-02-01 17:56:09
不是危言耸听!假如中美开战,中国输了,全世界都得回到石器时代

不是危言耸听!假如中美开战,中国输了,全世界都得回到石器时代

我心纵横天地间
2026-02-01 13:13:56
田华:一路好走,一家四口都是癌症,却拒绝200万广告代言

田华:一路好走,一家四口都是癌症,却拒绝200万广告代言

潘蠸旅行浪子
2026-01-14 03:43:09
山东明确了!2026年继续提高城乡居民基础养老金,能涨多少?

山东明确了!2026年继续提高城乡居民基础养老金,能涨多少?

财话连篇
2026-02-01 20:04:10
起风了,军权刚到手,委代总统就收命令,立即驱逐中方外交官?

起风了,军权刚到手,委代总统就收命令,立即驱逐中方外交官?

吴欣纯Deborah
2026-01-31 18:15:06
轮胎成为压垮电车车主的稻草,加上超高的保险费,省钱已成为笑话

轮胎成为压垮电车车主的稻草,加上超高的保险费,省钱已成为笑话

柏铭锐谈
2026-01-26 23:50:34
具俊跪在大S墓前哭泣,葛斯齐爆他放弃遗产,是因为交不起遗产税

具俊跪在大S墓前哭泣,葛斯齐爆他放弃遗产,是因为交不起遗产税

无人倾听无人倾听
2026-02-01 03:33:39
个人每次挣钱低于1000元不用交增值税

个人每次挣钱低于1000元不用交增值税

每日经济新闻
2026-02-01 12:25:05
国投白银LOF:本基金将于2月2日开市起至当日10:30停牌 价格涨跌幅限制比例为10%

国投白银LOF:本基金将于2月2日开市起至当日10:30停牌 价格涨跌幅限制比例为10%

每日经济新闻
2026-02-01 19:36:53
又翻车!媒体称赞39岁无腿外卖员很励志,却被网友一边倒怒批!

又翻车!媒体称赞39岁无腿外卖员很励志,却被网友一边倒怒批!

麦杰逊
2025-12-16 14:29:46
被上海街拍惊艳了!满大街都是“大衣裹围巾”,却个个时髦又高级

被上海街拍惊艳了!满大街都是“大衣裹围巾”,却个个时髦又高级

时尚穿搭生活馆
2026-01-27 21:21:35
数名院士呼吁糖尿病患者停止食用,比白糖还粘血管,趁早撤下餐桌

数名院士呼吁糖尿病患者停止食用,比白糖还粘血管,趁早撤下餐桌

王晓爱体彩
2026-01-31 07:20:06
山东大学顺利举办“马杜罗思想体系研讨会”

山东大学顺利举办“马杜罗思想体系研讨会”

必记本
2026-02-01 13:12:33
"反对一刀切!连中成药他们都要搞,简直了!最终受伤的还不是我们!"

"反对一刀切!连中成药他们都要搞,简直了!最终受伤的还不是我们!"

思如哲思
2026-01-31 08:13:53
无需额外硬件?星链配合iPhone18Pro全球联网,国行不能使用!

无需额外硬件?星链配合iPhone18Pro全球联网,国行不能使用!

眼光很亮
2026-01-31 14:00:26
1936年,孙科为讨新欢蓝妮开心,狠心抛弃怀孕的秘书严蔼娟

1936年,孙科为讨新欢蓝妮开心,狠心抛弃怀孕的秘书严蔼娟

古书记史
2026-01-27 00:38:02
可怕不是张本美和夺4冠王!而是赛后发言:要击败王曼昱,夺冠,冲世排第一

可怕不是张本美和夺4冠王!而是赛后发言:要击败王曼昱,夺冠,冲世排第一

好乒乓
2026-02-01 12:57:43
2026-02-02 05:27:00
新智元 incentive-icons
新智元
AI产业主平台领航智能+时代
14457文章数 66560关注度
往期回顾 全部

科技要闻

10亿元宝红包突袭 复刻微信支付还是微视?

头条要闻

爱泼斯坦追逐女孩、安德鲁跪爬女子身上画面全公布

头条要闻

爱泼斯坦追逐女孩、安德鲁跪爬女子身上画面全公布

体育要闻

德约大度祝贺阿卡 幽默互动逗笑纳达尔

娱乐要闻

春晚第三次联排阵容曝光:全是实力派

财经要闻

黄仁勋台北"夜宴":汇聚近40位台企高管

汽车要闻

岚图汽车1月交付10515辆 同比增长31%

态度原创

手机
游戏
本地
艺术
军事航空

手机要闻

消息称一加16长焦镜头将升级至2亿像素,有望支持长焦微距功能

末期癌症玩家圆梦《毁灭战士》!id公开致敬

本地新闻

云游中国|拨开云雾,巫山每帧都是航拍大片

艺术要闻

上海“高技派”地标:华润中心竣工,LV总部入驻!

军事要闻

伊朗民众:伊朗不会屈服于美国霸权

无障碍浏览 进入关怀版