网易首页 > 网易号 > 正文 申请入驻

谢赛宁团队打破“多语言诅咒”!多语言MetaCLIP 2英语不降反升

0
分享至

谢赛宁团队新作正在引起热议!

一直以来,作为文生图基石的CLIP模型主要基于英文数据训练,但实际上,全球互联网仍有超过50%的非英文数据。

为了将CLIP模型进一步扩展,研究人员需要搞定两大“拦路虎”:

  • 缺乏处理非英语数据的筛选方法;
  • 现有多语言CLIP的英语性能比纯英语版本差(即所谓的“多语言诅咒”)

而谢赛宁团队正是在这两方面取得突破。他们提出了首个基于全球数据从头训练的CLIP——MetaCLIP 2,通过扩展元数据、优化筛选和提升模型容量,斩获了以下成果:

  1. 搭建了能处理300多种语言的CLIP数据整理流程。
  2. 打破了“多语言诅咒”,不仅没有影响英语务的表现,而且反倒还提升了。

论文一作Yung-Sung Chuang(MIT博士生、现Meta实习生)激动表示:

  • 是时候告别语言过滤器了!

刚被小扎从OpenAI挖走的Lucas Beyer也出来对这一观点表示认同,顺带还感谢了论文中的引用:

  • 很高兴看到我们提出并始终倡导的“NoFilter”理念能在MetaCLIP 2中得到应用。
  • 这就是正确的道路!

这也引来了谢赛宁本人的回应:

  • 早在MetaCLIP中,团队的目标也是NoFilter(与其搞复杂过滤,不如相信原始数据的价值)
  • 我也认为NoFilter才是正道。

下面详细来看MetaCLIP 2所采用的方法。

基于MetaCLIP,进一步优化结构和流程

概括而言,为了让CLIP模型能从全球数据中学习,MetaCLIP 2采用了三大关键创新:

  • 构建全球元数据
  • 实施全球筛选算法
  • 构建全球模型的训练框架

开始之前,论文先回顾了原始MetaCLIP所采用的思路。

简单说,其筛选逻辑主要分三步:

  1. 从英语WordNet、维基百科提取50万个 “视觉概念”,组成元数据列表M;
  2. 用这些概念匹配图像-文本对的描述文字(逐个检查文本里的内容,看能否匹配到M里的词条)
  3. 设定一个阈值t,通过 “平衡机制”(控制头部/尾部概念的比例)筛选数据,确保“猫”“狗”这类常见概念和“深海生物”“小众建筑”这类少见概念分布合理。

顺便一提,OpenAI CLIP将t设置为20k,而MetaCLIP为了适配十亿级英语数据,把t调高到170k ,让平衡策略更适合大规模数据。

而MetaCLIP 2,正是在英文MetaCLIP的基础上,进一步优化了架构和流程。

这第一步非常简单,无非是将之前的元数据扩展到300多种语言

具体而言,它现在包含了多语言的WordNet和各国维基百科的词汇,有点像给每种语言都编了一套 “视觉概念词典”。

然后用算法给每种语言“量身筛数据”。

先是识别文字是哪种语言,再用对应语言的“字典”去匹配图像-文字对。

同时给每种语言设立单独的筛选标准(比如控制“常见概念”和“少见概念”的比例),确保每种语言的数据分布合理,不会出现某类内容过多的情况。

下图为MetaCLIP 2筛选全球多语言图像-文本对的伪代码(用Python/NumPy风格编写)

最后再调整训练策略,避免“顾此失彼”。

一方面,鉴于全球数据变多了,所以团队按比例增加了训练时“见过的样本量”(比如扩大2.3倍),保证英语样本量不减少。

另一方面,团队发现模型大小很关键——小一点的模型(如ViT-L/14)还会受“多语言诅咒”,但大一点的ViT-H/14能打破诅咒,让英语和非英语能力一起提升。

p.s. 大语言模型中的“多语言诅咒”是指,当模型在多语言数据上进行训练时,出现某些特定语言(尤其是原本表现较好的语言,如英语 )性能下降的现象。

采用以上数据筛选方法,MetaCLIP 2与NoFilter理念形成了深度协同——筛选逻辑的本质从“语言过滤”(如直接排除非英语数据)转向“概念平衡”,从“排除数据”(如用单一标准排除数据)转向“优化分布”。

多语言任务创下新SOTA,还打破了“多语言诅咒”

为了验证方法的有效性,团队基于全网公开数据(英语占44%,非英语占56%)进行了实验。

训练配置上,团队基本沿用OpenAI CLIP/MetaCLIP的参数,仅调整样本量(如ViT-H/14用290亿样本)和模型容量。

实验结果显示,MetaCLIP 2在多项测试中表现亮眼

首先,它打破了大语言模型领域存在的“多语言诅咒”,证明学了非英语数据后,英语能力不仅没有下降,甚至反而变强了。

例如,它在ImageNet识别日常物品上准确率达到81.3%,超过纯英语CLIP的80.5%

其次,它在多语言测试中(如用280种语言给图片分类、跨36种语言搜图),成绩远超之前的mSigLIP、SigLIP 2等模型。

还是上面这张图,它在Babel-ImageNet多语言图像分类任务里,取得了50.2%的准确率;在XM3600图像到文本检索任务中,检索匹配的准确率达到64.3%。

更有意思的是,MetaCLIP 2不仅更懂“文化多样性”,而且嵌入质量也更优。

一方面,它在文化多样性任务(如地理定位)上表现更优,如在Dollar Street、GLDv2等数据集上,全球数据训练的模型准确率显著高于纯英语或纯非英语模型。

另一方面,它在对齐性(图像-文本相关性)和均匀性(视觉嵌入分布)上的得分同样更优。

划重点,目前相关数据和代码均已开源了~

论文:
https://arxiv.org/abs/2507.22062
代码地址:
https://github.com/facebookresearch/MetaCLIP

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
警方通报河北一火锅店发生刑案:罗某某(男,36岁)因琐事与杨某某(女,46岁)发生争执后,持刀将其杀害,已被刑事拘留

警方通报河北一火锅店发生刑案:罗某某(男,36岁)因琐事与杨某某(女,46岁)发生争执后,持刀将其杀害,已被刑事拘留

极目新闻
2026-05-14 13:19:54
京东找到了AI时代的乘数

京东找到了AI时代的乘数

AIX财经
2026-05-13 20:40:32
大连女子带狗撸串事件再升级!正脸全曝光竟是惯犯,店铺惨遭停业

大连女子带狗撸串事件再升级!正脸全曝光竟是惯犯,店铺惨遭停业

奇思妙想草叶君
2026-05-13 21:13:03
安心、贴心、省心筑基,技术创新为核,车展上BU改革下的“新”传祺

安心、贴心、省心筑基,技术创新为核,车展上BU改革下的“新”传祺

汽车通讯社
2026-04-30 22:31:18
AI时代,腾讯音乐为何更重视IP?

AI时代,腾讯音乐为何更重视IP?

定焦One
2026-05-12 19:24:10
痛心!17岁少年求职接连碰壁,遭父亲恶语指责,身无分文失联7天

痛心!17岁少年求职接连碰壁,遭父亲恶语指责,身无分文失联7天

魔都姐姐杂谈
2026-05-14 07:50:36
特朗普访华,美国驻华大使馆的评论区亮了

特朗普访华,美国驻华大使馆的评论区亮了

历史总在押韵
2026-05-13 18:29:26
重庆一栋百年古建筑以399万元挂拍,仅限中国人竞买,不得转让抵押给外国人

重庆一栋百年古建筑以399万元挂拍,仅限中国人竞买,不得转让抵押给外国人

极目新闻
2026-05-14 13:19:54
形势有多严峻?坐标上海:80末90初程序员都开始失业,评论区炸了

形势有多严峻?坐标上海:80末90初程序员都开始失业,评论区炸了

慧翔百科
2026-05-14 09:00:11
四川武警营门推哨兵后续:大家都搞错了罪名,她面临的不是袭警罪

四川武警营门推哨兵后续:大家都搞错了罪名,她面临的不是袭警罪

奇思妙想草叶君
2026-05-13 18:25:17
特朗普抵京第一天就签了400亿大单,但真正让白宫失眠的是这件事

特朗普抵京第一天就签了400亿大单,但真正让白宫失眠的是这件事

浪子的烟火人间
2026-05-14 08:44:32
18年了!汶川地震丢下学生逃跑的“范跑跑”,如今竟过成了这样?

18年了!汶川地震丢下学生逃跑的“范跑跑”,如今竟过成了这样?

一盅情怀
2026-05-14 09:05:26
14号收评:沪指失守4200点,所有人都注意了,大盘后市开始这样看

14号收评:沪指失守4200点,所有人都注意了,大盘后市开始这样看

春江财富
2026-05-14 15:27:52
广州越秀“电鸡”被拖至百公里外的从化,约三四成车主弃车,代拉、拼单、回收生意火爆

广州越秀“电鸡”被拖至百公里外的从化,约三四成车主弃车,代拉、拼单、回收生意火爆

极目新闻
2026-05-14 12:20:34
白宫记者随专机抵京,被解放军军姿震撼拍爆外网,登上头条!

白宫记者随专机抵京,被解放军军姿震撼拍爆外网,登上头条!

大稻网络科技
2026-05-14 09:11:51
MiniMax 推出了 Mavis,活脱脱的 Agent「三省六部」

MiniMax 推出了 Mavis,活脱脱的 Agent「三省六部」

爱范儿
2026-05-13 21:23:20
80后家长发明“防早恋”发型,女儿面如死灰,网友都看不下去了

80后家长发明“防早恋”发型,女儿面如死灰,网友都看不下去了

世界圈
2026-05-14 11:11:20
“那家伙在空军1号前居然一动不动”!美媒注意到一名中国仪仗兵

“那家伙在空军1号前居然一动不动”!美媒注意到一名中国仪仗兵

阿龙聊军事
2026-05-14 11:02:15
在北京,“一打亿万富翁变游客”:马斯克转圈拍视频,库克比耶,黄仁勋赞:棒极了

在北京,“一打亿万富翁变游客”:马斯克转圈拍视频,库克比耶,黄仁勋赞:棒极了

红星新闻
2026-05-14 16:45:13
特朗普来华,外交学院专家脸被打肿了

特朗普来华,外交学院专家脸被打肿了

吃瓜体
2026-05-14 13:37:12
2026-05-14 18:19:00
量子位 incentive-icons
量子位
追踪人工智能动态
12623文章数 176462关注度
往期回顾 全部

科技要闻

马斯克说会谈很顺利 黄仁勋点赞 库克比耶

头条要闻

媒体:中美元首会谈超2小时15分钟 两国关系有新定位

头条要闻

媒体:中美元首会谈超2小时15分钟 两国关系有新定位

体育要闻

争议抽象天王山,和季后赛最稳定中锋

娱乐要闻

何九华官宣当爸!全程不提孩子妈

财经要闻

习近平同美国总统特朗普会谈

汽车要闻

新时代传统豪华是什么样? 上汽奥迪E7X给出了自己的答案

态度原创

亲子
游戏
艺术
本地
数码

亲子要闻

恒河猴实验给出答案:没人回应的孩子,生存底线到底是什么?

索尼紧急撤回!PS5重大功能惨遭下架 原因成谜

艺术要闻

这才是草书源头法帖!揭露古人不外传的笔法,王羲之也要叫“祖师爷”

本地新闻

用苏绣的方式,打开江西婺源

数码要闻

酷冷至尊预热冰神B360 TV一体式水冷散热器:6"长方形大屏

无障碍浏览 进入关怀版