网易首页 > 网易号 > 正文 申请入驻

OpenVision 2:大道至简的生成式预训练视觉编码器

0
分享至

本文来自加州大学圣克鲁兹分校(UCSC)、苹果公司(Apple)与加州大学伯克利分校(UCB)的合作研究。第一作者刘彦青,本科毕业于浙江大学,现为UCSC博士生,研究方向包括多模态理解、视觉-语言预训练与视觉基础模型。其余作者包括李先航(UCSC)、张乐天(USCS)、王子瑞(Apple)、郑泽宇(UCB)、周郁音(UCSC)。通讯作者为UCSC的谢慈航教授。

在多模态大模型快速演进的浪潮中,视觉模块一直是支撑整个体系的关键基石。长期以来,CLIP 式的图文对比学习几乎成为视觉预训练的默认思路。从 OpenAI 的 CLIP 到 Google 的 SigLIP,再到一系列开源复现,业界普遍认为:想要获得强大的视觉编码器,就必须依赖对比学习。

近日,来自加州大学圣克鲁兹分校、苹果公司、加州大学伯克利的研究者提出了 OpenVision 2,一种极简的生成式视觉预训练新方向。这项工作在保持最优性能的同时,大幅提升了训练效率,并在生成式框架下实现了 10 亿参数规模的可扩展训练。

✍️论文标题:OpenVision 2: A Family of Generative Pretrained Visual Encoders for Multimodal Learning

论文地址:arXiv:2509.01644

项目主页

https://ucsc-vlaa.github.io/OpenVision2

代码与模型:GitHub · UCSC-VLAA/OpenVision

Hugging Face 模型库:OpenVision 2 on HuggingFace

从 OpenVision 到 OpenVision 2

今年早些时候,研究团队在 ICCV 发布了OpenVision,这是一个完全基于公开数据和开源代码训练的视觉编码器家族,旨在为社区提供真正开放、透明、可复现的视觉骨干。

该项目一次性开源了超过 25 个预训练模型,参数量从590 万到 6 亿+,覆盖多种 patch size 与分辨率设置,成为学术界和产业界构建多模态模型时的重要替代方案。

实验显示,OpenVision 在多个多模态基准任务上已经可以媲美甚至超越 OpenAI 的 CLIP 以及 Google 的 SigLIP,为社区提供了可靠的开源替代。

然而,OpenVision 的训练管线仍然偏复杂。为了充分利用高质量的合成描述,它在 CLIP 的基础上引入了两方面额外设计:

  • 双重对比目标:每张图像既要和 web caption 对齐,又要和部分合成 caption 对齐,导致文本编码器的计算量几乎翻倍,训练成本也随之显著增加。

  • 生成式 caption 预测:模型还需要在图像和原始 alt-text 的条件下,生成完整的合成描述,这进一步增加了解码器的计算开销。

这些设计确实提升了表征质量,但也让训练过程变得更重,计算成本更高,扩展到更大规模时受到明显限制。

极简思路:生成式的 OpenVision 2

在 OpenVision 2 中,研究者们做出了大胆简化:直接移除文本编码器与对比学习,只保留「图像 → 描述」的生成目标。由此形成的框架仅包含两个模块:图像编码器 + 文本解码器。

  • 没有对比学习的双塔结构
  • 没有额外的文本塔开销
  • 依赖高质量合成描述作为唯一监督信号

除此之外,OpenVision 2 还引入了一个关键技巧:在预训练阶段随机丢弃约 2/3 的视觉 token,仅用剩下的 1/3 token 来生成完整描述。

  • 一方面,这大幅减少了文本解码器的计算负担,显著提升了训练效率;
  • 另一方面,这种「稀疏提示」迫使模型在有限条件下仍要还原出完整的 caption,从而提升了表征的抽象能力。

这种「以少胜多」的思路,使得 OpenVision 2 在保持性能的同时实现了更高的效率,也印证了「少即是多」的理念。

实验表明,这一简化设计不仅没有削弱模型能力,反而在效率与扩展性上表现突出:

  • 性能:在 TextVQA、ChartQA、OCR、MME 等主流多模态基准上,OpenVision 2 与 OpenVision 几乎持平,甚至在部分细粒度任务上表现更佳。同时,相较于 OpenAI-CLIP、LAION-CLIP、MetaCLIP 等主流对比学习模型,OpenVision 系列在同等规模下整体表现更强,特别是在 OCR 与文本相关任务上优势明显。

  • 效率:训练时间缩短1.5——2 倍,显存占用减少近一半,单卡批大小从 2k 扩展到 8k;例如,在 ViT-L/14 上从约 83 小时缩短到 57 小时,在 SoViT-400M 上从约 241 小时缩短到 121 小时。这些改进使得模型在生成式框架下成功扩展到10 亿参数规模,并保持高效训练,也为进一步探索更大规模的生成式视觉预训练奠定了基础。

为什么有效?

研究者总结了 OpenVision 2 作为生成式视觉编码器能够成功的三点关键原因:

  • 生成式监督更贴近下游:生成任务与多模态大模型(如 LLaVA)的推理方式一致,减少了预训练与下游任务间的「目标错位」。

  • 高质量合成描述:在 Recap-DataComp-1B v2 中,caption 的生成同时结合了图像和原始文本,使得描述更细致、更贴合语义,为预训练提供了更可靠的监督信号。

  • 视觉 token 随机掩码(少即是多):仅保留部分视觉 token 进行生成,既降低算力开销,又让模型在「信息不完整」的条件下学会抽取核心特征,从而提升泛化与鲁棒性。

对社区的意义

OpenVision 2 展示了一个重要事实:对比学习并非不可或缺。通过生成式的简洁框架,同样能够训练出强大的视觉编码器,并在效率和可扩展性上具备显著优势。

这项研究不仅挑战了长期以来的对比学习主导范式,也为未来多模态基础模型的发展提供了新的方向。正如作者们所强调的,「大道至简」的设计理念,展示了生成式视觉预训练在未来发展的潜力。

从 OpenVision 到 OpenVision 2,研究团队已经开源了超过 25 个不同规模和配置的模型,并完整公开了训练代码与数据管线,为学术界和产业界提供了可复现、可扩展的资源基础,加速社区在生成式视觉预训练方向上的探索。研究团队长期欢迎学界和业界的同学和朋友联系、交流、合作。

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
二百多名军官被枪毙、撤职、处分,长津湖战役中失职的志愿军88师

二百多名军官被枪毙、撤职、处分,长津湖战役中失职的志愿军88师

云霄纪史观
2026-03-25 12:16:14
沙特实战封神!中国“天盾”21发全中,15亿美制系统竟惨遭反杀

沙特实战封神!中国“天盾”21发全中,15亿美制系统竟惨遭反杀

素衣读史
2026-03-25 21:26:46
王毅判断没错,短短三天中方见识了:比利时的虚伪、西班牙的真诚

王毅判断没错,短短三天中方见识了:比利时的虚伪、西班牙的真诚

快看张同学
2026-03-26 10:19:39
巴蒂:马拉多纳离世时身边没有人,最后走得像条狗一样

巴蒂:马拉多纳离世时身边没有人,最后走得像条狗一样

懂球帝
2026-03-26 06:43:02
调查发现:若50岁前没患这4种疾病,以后患癌的几率或微乎其微?

调查发现:若50岁前没患这4种疾病,以后患癌的几率或微乎其微?

医学科普汇
2026-03-26 20:55:03
以色列收到1.28万份战火损失赔偿申请

以色列收到1.28万份战火损失赔偿申请

财联社
2026-03-26 23:22:07
卡尔森:坏了!原来小丑不是特朗普,而是我自己

卡尔森:坏了!原来小丑不是特朗普,而是我自己

朝廷心腹
2026-03-26 09:07:14
“大概有几十万”,重庆一小区有人高空撒钱,物业称捡回几大桶,撒钱者正配合调查

“大概有几十万”,重庆一小区有人高空撒钱,物业称捡回几大桶,撒钱者正配合调查

新京报
2026-03-26 20:41:35
我在小城市,一个人做电商,半年挣300万

我在小城市,一个人做电商,半年挣300万

南风窗
2026-03-26 10:07:51
特朗普称伊朗送上“价值连城大礼”:允许8艘油轮通过海峡

特朗普称伊朗送上“价值连城大礼”:允许8艘油轮通过海峡

Nee看
2026-03-27 00:39:12
这才叫杀疯了!烂番茄100%动作神片,这不直接碾压《镖人》?

这才叫杀疯了!烂番茄100%动作神片,这不直接碾压《镖人》?

动物奇奇怪怪
2026-03-26 17:48:01
森林狼逆火箭:申京努力了,然而杜兰特啊

森林狼逆火箭:申京努力了,然而杜兰特啊

张佳玮写字的地方
2026-03-26 13:03:18
怼得漂亮!伊朗外长:既然我们连领导层都没有了,还有什么好谈的

怼得漂亮!伊朗外长:既然我们连领导层都没有了,还有什么好谈的

南风不及你温柔
2026-03-26 14:07:38
曝张雪峰倒下30分钟后才被发现,饮食习惯糟糕,一口气吃8根雪糕

曝张雪峰倒下30分钟后才被发现,饮食习惯糟糕,一口气吃8根雪糕

古希腊掌管松饼的神
2026-03-25 11:08:46
日本公布中国游客免税店2月份消费数据,真的是打脸了!

日本公布中国游客免税店2月份消费数据,真的是打脸了!

消失的电波
2026-03-26 15:20:44
你在无意中发现别人什么秘密?网友爆料,电视剧都不敢这样演

你在无意中发现别人什么秘密?网友爆料,电视剧都不敢这样演

夜深爱杂谈
2026-03-16 22:21:03
“我用房子贷的款却进了他们口袋”,佛山一男子称遭遇套路贷;警方立案侦查,3人被批捕后取保候审

“我用房子贷的款却进了他们口袋”,佛山一男子称遭遇套路贷;警方立案侦查,3人被批捕后取保候审

大风新闻
2026-03-26 16:56:40
张晋血管堵80%差点闭眼,张雪峰却再没醒过来:有些努力真会要命

张晋血管堵80%差点闭眼,张雪峰却再没醒过来:有些努力真会要命

阿天爱旅行
2026-03-26 22:54:07
男子干活时摔成高位截瘫,妻子一看男子不能赚钱养家了,丢下男子和6岁的女儿跑了

男子干活时摔成高位截瘫,妻子一看男子不能赚钱养家了,丢下男子和6岁的女儿跑了

张晓磊
2026-03-26 11:22:06
曝张雪峰在苏州举办葬礼,生前最后一次直播,趴桌子上身体已不适

曝张雪峰在苏州举办葬礼,生前最后一次直播,趴桌子上身体已不适

180视角
2026-03-25 16:58:57
2026-03-27 01:19:00
机器之心Pro incentive-icons
机器之心Pro
专业的人工智能媒体
12608文章数 142594关注度
往期回顾 全部

科技要闻

美团发布外卖大战后成绩单:亏损超200亿

头条要闻

张雪峰留巨额遗产:二婚妻子或拿50% 剩下的女儿占1/3

头条要闻

张雪峰留巨额遗产:二婚妻子或拿50% 剩下的女儿占1/3

体育要闻

申京努力了,然而杜兰特啊

娱乐要闻

刘晓庆妹妹发声!称姐姐受身边人挑拨

财经要闻

油价"驯服"特朗普?一到100美元就TACO

汽车要闻

一汽奥迪A6L e-tron开启预售 CLTC最大续航815km

态度原创

数码
本地
亲子
家居
军事航空

数码要闻

英特尔发Q1.26版Arc Pro专业显卡驱动,支持B70 / B65显卡

本地新闻

救命,这只酱板鸭已经在我手机复仇了一万遍

亲子要闻

看看把孩子吓得哈哈哈

家居要闻

傍海而居 静观蝴蝶海

军事要闻

担心特朗普突然停战 以总理下令48小时尽力摧毁伊设施

无障碍浏览 进入关怀版