网易首页 > 网易号 > 正文 申请入驻

CLIP被淘汰了?LeCun谢赛宁新作,多模态训练无需语言监督更强!

0
分享至

新智元报道

编辑:犀牛

【新智元导读】LeCun谢赛宁等研究人员通过新模型Web-SSL验证了SSL在多模态任务中的潜力,证明其在扩展模型和数据规模后,能媲美甚至超越CLIP。这项研究为无语言监督的视觉预训练开辟新方向,并计划开源模型以推动社区探索。

最近AI圈最火的模型非GPT-4o莫属,各种风格图片持续火爆全网。

如此强悍的图片生成能力,得益于GPT-4o本身是一个原生多模态模型。

从最新发布的LLM来看,多模态已经成为绝对的主流。

在多模态领域,视觉表征学习正沿着两条采用不同训练方法的路径发展。

其中语言监督方法,如对比语言-图像预训练(CLIP),利用成对的图像-文本数据来学习富含语言语义的表示。

自监督学习(SSL)方法则仅从图像中学习,不依赖语言。

在刚刚发布的一项研究中,杨立昆、谢赛宁等研究人员探讨了一个基本问题:语言监督对于多模态建模的视觉表征预训练是否必须?

论文地址:https://arxiv.org/pdf/2504.01017

研究团队表示,他们并非试图取代语言监督方法,而是希望理解视觉自监督方法在多模态应用上的内在能力和局限性。

尽管SSL模型在传统视觉任务(如分类和分割)上表现优于语言监督模型,但在最近的多模态大语言模型(MLLMs)中,它们的应用却较少。

部分原因是这两种方法在视觉问答(VQA)任务中的性能差距(图1),特别是在光学字符识别(OCR)和图表解读任务中。

除了方法上的差异,两者在数据规模和分布上也存在不同(图1)。

CLIP模型通常在网络上收集的数十亿级图像-文本对上进行训练,而SSL方法则使用百万级数据集,如ImageNet,或具有类似ImageNet分布的数亿规模数据。

图1结果表明,通过适当扩展模型和数据规模,视觉SSL能够在所有评估领域(甚至包括OCR和图表任务)中匹配语言监督模型的性能

作为本文共同一作的David Fan兴奋的表示,他们的研究表明,即便在OCR/Chart VQA上,视觉SSL也能具有竞争力!

正如他们新推出的完全在网页图像上训练、没有任何语言监督的Web-SSL模型系列(1B-7B参数)所展示的。

为了进行公平比较,研究团队在数十亿级规模网络数据上训练SSL模型,与最先进的CLIP模型相同。

在评估方面,主要使用VQA作为框架,采用了Cambrian-1提出的评估套件,该套件评估了16个任务,涵盖4个不同的VQA类别:通用、知识、OCR和图表、以及Vision-Centric。

研究团队使用上述设置训练了一系列参数从1B到7B的视觉SSL模型Web-SSL,以便在相同设置下与CLIP进行直接且受控的比较。

通过实证研究,研究团队得出了以下几点见解:

  • 视觉SSL在广泛的VQA任务中能够达到甚至超越语言监督方法进行视觉预训练,甚至在与语言相关的任务(如OCR和图表理解)上也是如此(图3)。

  • 视觉SSL在模型容量(图3)和数据规模(图4)上的扩展性良好,表明SSL具有巨大的开发潜力。

  • 视觉SSL在提升VQA性能的同时,仍能保持在分类和分割等传统视觉任务上的竞争力。

  • 在包含更多文本的图像上进行训练尤其能有效提升OCR和图表任务的性能。探索数据构成是一个有前景的方向。

研究人员计划开源Web-SSL视觉模型,希望激励更广泛的社区在多模态时代充分释放视觉SSL的潜力。

视觉SSL 1.0到2.0

研究人员介绍了本文的实验设置。相比之前的研究,他们做了以下扩展:

(1) 把数据集规模扩展到十亿级别;

(2) 把模型参数规模扩展到超过1B;

(3) 除了用经典的视觉基准测试(比如ImageNet-1k和ADE20k)来评估模型外,还加入了开放式的VQA任务。

这些变化能在大规模上研究视觉SSL,观察到之前小规模实验看不到的规模效应趋势

扩展视觉SSL

研究团队探讨了视觉SSL模型在模型规模和数据规模上的扩展表现,这些模型只用MC-2B的图片数据来训练。

  • 扩展模型规模:研究团队把模型规模从10亿参数增加到70亿参数,同时保持训练数据固定为20亿张MC-2B图片。他们用现成的训练代码和方法配方,不因模型大小不同而调整配方,以控制其他变量的影响。

  • 扩展看到的数据量:研究团队把焦点转向固定模型规模下增加总数据量,分析训练时看到的图片数量从10亿增加到80亿时,性能如何变化。

扩展模型规模

扩展模型规模的目的有两个:一是找出在这种新数据模式下视觉SSL的性能上限,二是看看大模型会不会表现出一些独特的行为。

为此,研究团队用20亿张无标签的MC-2B图片(224×224分辨率)预训练了DINOv2 ViT模型,参数从10亿到70亿不等。没有用高分辨率适配,以便能和CLIP公平比较。

研究团队把这些模型称为Web-DINO。为了对比,他们还用同样数据训练了相同规模的CLIP模型。

他们用VQA评估每个模型,结果展示在图3中。

研究团队表示,据他们所知,这是首次仅用视觉自监督训练的视觉编码器,在VQA上达到与语言监督编码器相当的性能——甚至在传统上高度依赖文字的OCR & 图表类别上也是如此。

Web-DINO在平均VQA、OCR & 图表、以及Vision-Centric VQA上的表现,随着模型规模增加几乎呈对数线性提升,但在通用和知识类VQA的提升幅度较小。

相比之下,CLIP在所有VQA类别的表现到30亿参数后基本饱和。

这说明,小规模CLIP模型可能更擅长利用数据,但这种优势在大规模CLIP模型上基本消失。

Web-DINO随着模型规模增加持续提升,也表明视觉SSL能从更大的模型规模中获益,超过70亿参数的扩展是个有前景的方向。

在具体类别上,随着模型规模增加,DINO在Vision-Centric VQA上越来越超过CLIP,在OCR & 图表和平均VQA上也基本追平差距(图3)。

到了50亿参数及以上,DINO的平均VQA表现甚至超过CLIP,尽管它只用图片训练,没有语言监督。

这表明,仅用视觉训练的模型在CLIP分布的图片上也能发展出强大的视觉特征,媲美语言监督的视觉编码器。

Web-DINO模型在所有类别上都展现出新的「扩展行为」,尤其在OCR & 图表和Vision-Centric领域,CLIP模型的扩展收益有限,性能在中等规模时就饱和了

扩展所见数据量

研究团队研究了增加看到的数据量会怎样影响性能,在MC-2B的10亿到80亿张图片上训练Web-DINO ViT-7B模型。

如图4所示,通用和知识类VQA性能随着看到的数据量增加逐步提升,分别在40亿和20亿张时饱和。

Vision-Centric VQA 性能从10亿到20亿张时提升明显,超过20亿张后饱和。

相比之下,OCR & 图表是唯一随着数据量增加持续提升的类别。

这说明,模型看到更多数据后,学到的表征越来越适合文字相关任务,同时其他能力也没明显下降。

另外,和同规模的CLIP模型(ViT-7B)相比,Web-DINO在相同数据量下的平均VQA表现始终更强(图 4)。

尤其在看到80亿张样本后,Web-DINO在OCR & 图表VQA任务上追平了CLIP的表现差距。

这进一步证明,视觉SSL模型可能比语言监督模型有更好的扩展潜力。

随着训练数据从10亿增至80亿张图片,Web-DINO-7B在OCR和图表任务中持续提升,而通用和视觉任务在20亿张后收益递减。总体上,Web-DINO在平均性能上稳步提高,并始终优于同规模的CLIP模型

Web-SSL系列模型

研究团队在表3里展示了他们的视觉编码器跟经典视觉编码器对比所取得的最佳结果,涉及VQA和经典视觉任务。

Web-DINO在VQA和经典视觉任务上都能超越现成的MetaCLIP。

即便数据量比SigLIP和SigLIP2少5倍,也没语言监督,Web-DINO在VQA上的表现还是能跟它们打平手。

总体来看,Web-DINO在传统视觉基准测试中碾压了所有现成的语言监督CLIP模型。

虽然研究人员最好的Web-DINO模型有70亿参数,但结果表明,CLIP模型在中等规模的模型和数据量后就饱和了,而视觉SSL的性能随着模型和数据规模的增加会逐步提升。

Web-DINO在所有VQA类别中也超过了现成的视觉SSL方法,包括DINOv2,在传统视觉基准上也很有竞争力。

Web-DINO ViT-7B在没有语言监督的情况下,在VQA任务上与CLIP模型表现相当,在传统视觉任务上超过了它们

研究人员还额外对Web-DINO微调了2万步,分别测试了378和518分辨率,以便跟更高分辨率的现成SigLIP和DINO版本对比。

从224到378再到518分辨率,Web-DINO在平均VQA表现上稳步提升,尤其在OCR和图表任务上有明显进步。

经典视觉任务的表现随着分辨率提高略有提升。在384分辨率下,Web-DINO稍微落后于SigLIP;到了518分辨率,差距基本被抹平。

结果表明,Web-DINO可能还能从进一步的高分辨率适配中获益。

作者介绍

David Fan

David Fan是Meta FAIR的高级研究工程师,研究方向是自监督学习和视频表征。

曾在亚马逊Prime Video担任应用科学家,从事视频理解和多模态表征学习的研究,重点关注自监督方法。

此前,他在普林斯顿大学以优异成绩(Magna Cum Laude)获得计算机科学理学工程学士学位,导师是Jia Deng教授。

Shengbang Tong

Peter Tong(Shengbang Tong,童晟邦)是NYU Courant CS的一名博士生,导师是Yann LeCun教授和谢赛宁教授。研究兴趣是世界模型、无监督/自监督学习、生成模型和多模态模型。

此前,他在加州大学伯克利分校主修计算机科学、应用数学(荣誉)和统计学(荣誉)。并曾是伯克利人工智能实验室(BAIR)的研究员,导师是马毅教授和Jacob Steinhardt教授。

参考资料:

https://x.com/DavidJFan/status/1907448092204380630

https://arxiv.org/abs/2504.01017

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
六年前,LV也告过日本商家侵权!被日网民群嘲“快去碰瓷唐玄宗”

六年前,LV也告过日本商家侵权!被日网民群嘲“快去碰瓷唐玄宗”

这里是东京
2026-07-05 21:47:46
重磅!杜锋下课,卸任广东宏远主教练,焦泊乔或留队,徐昕迎转机

重磅!杜锋下课,卸任广东宏远主教练,焦泊乔或留队,徐昕迎转机

烨侃体育
2026-07-05 16:46:52
一趟火车1500人,为什么连30份盒饭都卖不完?终于有人说实话了!

一趟火车1500人,为什么连30份盒饭都卖不完?终于有人说实话了!

猫叔东山再起
2026-07-04 13:20:04
河南男子7年前为救3岁孩子成植物人,妻子咬丈夫脚趾恢复神经将其唤醒,坚守7年终等来那句“我爱你”

河南男子7年前为救3岁孩子成植物人,妻子咬丈夫脚趾恢复神经将其唤醒,坚守7年终等来那句“我爱你”

大象新闻
2026-07-05 20:50:15
世界杯|拳击、蹬踏、搞破坏……巴拉圭队各种小动作,依然难挡法国队晋级八强

世界杯|拳击、蹬踏、搞破坏……巴拉圭队各种小动作,依然难挡法国队晋级八强

上观新闻
2026-07-05 08:04:36
穆帅眼光封神!1.5 亿水货世界杯现形,皇马放弃直接避开大坑

穆帅眼光封神!1.5 亿水货世界杯现形,皇马放弃直接避开大坑

奶盖熊本熊
2026-07-05 03:12:46
哇塞!超赞!恭喜哈登

哇塞!超赞!恭喜哈登

体育新角度
2026-07-05 22:32:16
小鹏疑似更换代言人,唇上一颗痣引发网友热议

小鹏疑似更换代言人,唇上一颗痣引发网友热议

东方不败然多多
2026-07-04 14:02:14
真实的豪门太太生活,跟大家想的很不一样

真实的豪门太太生活,跟大家想的很不一样

微微热评
2026-07-05 12:17:57
张本美和爆冷登顶!危机扑面而来,会成为国乒十年最大隐患吗

张本美和爆冷登顶!危机扑面而来,会成为国乒十年最大隐患吗

八卦阿弥
2026-07-05 10:34:09
万人空巷的震撼 佛得角载誉回国 机场地勤下跪膜拜 球迷夹道欢迎

万人空巷的震撼 佛得角载誉回国 机场地勤下跪膜拜 球迷夹道欢迎

我爱英超
2026-07-05 22:41:06
别硬扛高温!1.5匹空调开24小时,电费真相让你大跌眼镜

别硬扛高温!1.5匹空调开24小时,电费真相让你大跌眼镜

小兔子发现大事情
2026-07-04 16:22:21
中央安全考核巡查组专家现场质问:你们管理人员上去过吗?

中央安全考核巡查组专家现场质问:你们管理人员上去过吗?

上观新闻
2026-07-05 14:22:38
1死3伤!母亲遭11名高利贷催收人员“脱裤”羞辱,男子挥刀讨公道

1死3伤!母亲遭11名高利贷催收人员“脱裤”羞辱,男子挥刀讨公道

易玄
2026-07-04 10:55:57
一家三口新疆自驾游母子遇山洪失联后续,目击者发声,本地人提醒

一家三口新疆自驾游母子遇山洪失联后续,目击者发声,本地人提醒

叹为观止易
2026-07-05 11:39:01
“爸妈连5千块都拿不出!”北京实习女孩崩溃:我不要回老家

“爸妈连5千块都拿不出!”北京实习女孩崩溃:我不要回老家

普陀动物世界
2026-07-05 21:57:22
别被保质期骗了!这10种食物过期1年也能吃,第一名比黄金珍贵

别被保质期骗了!这10种食物过期1年也能吃,第一名比黄金珍贵

阿天爱旅行
2026-07-04 13:31:00
小糯米五官长开后,完全复刻了年少时期杨幂的模样,灵动眉眼

小糯米五官长开后,完全复刻了年少时期杨幂的模样,灵动眉眼

小椰的奶奶
2026-07-04 16:10:15
83版《射雕英雄传》四大著名龙套,未来的三帝一后

83版《射雕英雄传》四大著名龙套,未来的三帝一后

小李大侠
2026-07-05 11:34:12
台军所谓"黄金72小时"没了? 赖清德当局慌了!

台军所谓"黄金72小时"没了? 赖清德当局慌了!

看看新闻Knews
2026-07-05 12:54:14
2026-07-06 00:20:49
新智元 incentive-icons
新智元
AI产业主平台领航智能+时代
15614文章数 66949关注度
往期回顾 全部

科技要闻

华为:逻辑折叠将大幅提升麒麟CPU核心频率

头条要闻

医院给老人一次拔12颗牙种10颗 官方:将顶格行政处罚

头条要闻

医院给老人一次拔12颗牙种10颗 官方:将顶格行政处罚

体育要闻

姆巴佩点走巴拉圭:巴黎三代左锋传承

娱乐要闻

霉霉婚礼照片泄露 有四人违规

财经要闻

揭秘跨境“对敲”换汇黑产

汽车要闻

方程豹钛9内饰曝光 用上了长联屏设计/下半年上市

态度原创

教育
时尚
游戏
房产
手机

教育要闻

河南男孩693分放弃清华强基:这笔账,985算不过农村孩子

3年赚46亿,杨幂喊出一个安徽富豪

Xbox想要下一代主机“价格亲民” 但同时还要盈利

房产要闻

总裁空缺17个月、现金缺口超1000亿:金融局“局外人”入局万科

手机要闻

消息称HMD Skyline 2手机仍将发布

无障碍浏览 进入关怀版