网易首页 > 网易号 > 正文 申请入驻

谷歌发布史上千亿级视觉语言数据集,Scaling Law潜力或远未见顶

0
分享至

2009 年,ImageNet 数据集的发布让深度学习在计算机视觉领域迎来了转折点。这个包含 1,400 万张图像的数据集,不仅推动了卷积神经网络的发展,更开创了用大规模数据训练视觉模型的先河。随后,JFT-300M(3 亿图像)和 JFT-3B(30 亿图像)的相继问世,进一步验证了“数据规模决定模型上限”这一理念。

近年来,随着视觉语言模型(VLM,Visual Language Model)的兴起,研究人员开始关注图像-文本对数据集的构建。从最初的 COCO Captions(包含约 12 万张图像),到微软的 Conceptual Captions(约 330 万对数据),再到 LAION-5B(50 亿对)和谷歌的 WebLI(100 亿对),数据规模在持续突破。而现在,谷歌 DeepMind 团队再次刷新了这一记录。

2 月 11 日,谷歌 DeepMind 在arXiv上发布了题为《将视觉语言模型的预训练扩展至千亿级数据》(Scaling Pre-training to One Hundred Billion Data for Vision Language Models)的论文。他们推出了规模空前的视觉语言数据集 WebLI-100B,包含 1,000 亿对图像-文本数据。这个数据集在 WebLI 的基础上构建,不仅保持了原有的高质量抓取策略,还将规模扩大了 10 倍。

那么,将数据规模扩大 10 倍究竟能带来什么样的提升?研究结果发现,在传统的西方中心化任务上,从 100 亿扩展到 1,000 亿的边际效益较小。具体来说:

在 ImageNet 零样本分类任务上,ViT-L/16 模型在 100 亿数据训练时的错误率为 29.7%,扩展到 1000 亿后仅降低到 28.5%。同样的趋势也出现在 CIFAR-100 等其他分类任务上。在 COCO 图像检索任务中,性能提升也相对有限。这些结果通过 Wilcoxon 符号秩检验得到了统计学支持(p 值为 0.9),表明在这些传统任务上的性能差异并不显著。

然而,在文化多样性相关任务上,大规模数据展现出了意外的价值。研究团队使用 Dollar Street 数据集(一个包含来自 63 个国家的 38,000 张图像的数据集)来评估模型对不同文化场景的理解能力。结果表明:

在 10-shot 分类任务中,ViT-L/16 模型在 1,000 亿数据上单轮训练就达到了 41.7% 的准确率,而同样架构的模型在 100 亿数据上训练 10 个 epoch 只能达到 35.9%。更大的 ViT-H 模型获得了类似幅度的提升。这 5-6 个百分点的绝对性能提升远超传统任务上不到 1% 的增益。Wilcoxon 检验的 p 值为 0.002,表明这种提升具有统计学显著性。

在多语言能力方面,研究者们发现了一个更加引人注目的现象:低资源语言从大规模数据中获得的收益明显高于高资源语言。研究团队使用 Crossmodal-3600 数据集(包含 36 种语言的图像-文本检索任务)进行评估,发现:

以 Telugu 语言为例,尽管它在整个数据集中仅占 0.036% 的比例,但模型性能仍然获得了显著提升。这种“长尾效应”在其他低资源语言(如孟加拉语、菲律宾语、印地语、希伯来语、毛利语和斯瓦希里语)中也普遍存在。

并且,这种差异在模型规模越大时越发明显。项目负责人之一的翟晓华在社交媒体上以 Telugu 语言为例,认为“这突出展示了大规模数据集在改善长尾概念理解方面的力量。即使在数据集中占比极小的语言,也能从中受益。”

研究团队还深入探索了数据质量与多样性之间的权衡。他们发现,使用 CLIP 模型进行质量过滤虽然能提升 ImageNet 等传统任务的性能,但会降低 Dollar Street 等文化多样性指标的表现。这个发现促使研究者们提出了一个简单但有效的策略:将低资源语言的采样比例提升到 1%。实验表明,这种重平衡策略虽然会轻微影响英语任务的性能,但能显著改善模型在低资源语言上的表现,最终实现了更平衡的性能分布。

在模型注意力可视化方面,研究发现数据规模的扩大确实帮助模型形成了更细致的理解。例如,在识别“Igorot Dance”(菲律宾伊戈洛特族传统舞蹈)的图像时,在 1,000 亿数据上训练的模型能够更准确地关注传统服饰的细节特征;在识别“Igloo”(因纽特人冰屋)时,模型也能更好地捕捉其独特的穹顶结构特征。

此外,研究还探索了大规模数据对迁移学习的影响。团队使用 PaLI-Gemma 模型评估了视觉特征的迁移效果,涵盖了图像描述、视觉问答、分割等多个下游任务。在这些任务上,模型性能并未随数据规模的增加而显著提升。这提示我们,提升迁移学习效果可能需要探索新的模型架构或训练策略。

值得一提的是,该研究还公布了详细的数据扩展策略和实验结果,这将有助于学术界更好地理解大规模数据对视觉语言模型的影响。不过遗憾的是,由于数据集体量巨大且涉及版权等问题,WebLI-100B 目前还未对外开放。

这项研究再次证明,Scaling Law 的潜力或许远未触及天花板。在很多难以发出声音、难以看到的地方,还有许多有价值的数据等待被挖掘。

参考资料:

1.https://arxiv.org/abs/2502.07617

2.https://x.com/XiaohuaZhai/status/1889775999648248024

运营/排版:何晨龙

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
越扒越有!曝杨梅协会会长:是当地最大批发商,亲戚全在协会任职

越扒越有!曝杨梅协会会长:是当地最大批发商,亲戚全在协会任职

天天热点见闻
2026-05-30 06:44:22
铁了心要灭掉中国?一股可怕力量来了!

铁了心要灭掉中国?一股可怕力量来了!

回京历史梦
2026-05-29 18:33:48
已证实谢辉全不幸身亡,他的遗体在自家房屋下面几百米的地方被找到

已证实谢辉全不幸身亡,他的遗体在自家房屋下面几百米的地方被找到

小鹿姐姐情感说
2026-05-31 04:02:07
15万!蔚来"神车"官宣:5月29日 ,正式发布亮相

15万!蔚来"神车"官宣:5月29日 ,正式发布亮相

科技堡垒
2026-05-29 11:14:19
王菲低调现身谢霆锋鸟巢演唱会,好友俞飞鸿陪同观演,当天演出系谢霆锋时隔23年重返北京举办大型个唱

王菲低调现身谢霆锋鸟巢演唱会,好友俞飞鸿陪同观演,当天演出系谢霆锋时隔23年重返北京举办大型个唱

大象新闻
2026-05-30 23:47:03
恭喜!中国29岁1米82奥运冠军大婚,嫁给王牌教练,再战2028奥运

恭喜!中国29岁1米82奥运冠军大婚,嫁给王牌教练,再战2028奥运

李喜林篮球绝杀
2026-05-30 15:08:25
明星无滤镜后,周涛一脸凶相,李冰冰像小老太,金晨脸大如饼

明星无滤镜后,周涛一脸凶相,李冰冰像小老太,金晨脸大如饼

笑饮孤鸿非
2026-05-30 20:58:06
勇士格林谈马刺与雷霆抢七:教练不用调整,文班亚马对决亚历山大

勇士格林谈马刺与雷霆抢七:教练不用调整,文班亚马对决亚历山大

好火子
2026-05-31 05:25:37
一念万劫!加布里埃尔最后一罚踢飞,伤心落泪,队友纷纷送上安慰

一念万劫!加布里埃尔最后一罚踢飞,伤心落泪,队友纷纷送上安慰

侧身凌空斩
2026-05-31 03:27:55
稻城亚丁景区致歉,停收观光车交通服务费!珠峰、纳木错、泸沽湖等均被曝拦路

稻城亚丁景区致歉,停收观光车交通服务费!珠峰、纳木错、泸沽湖等均被曝拦路

上观新闻
2026-05-29 14:54:19
给阿嬷的情书,新加坡官媒连批三天,最后承认:这东西,真挡不住

给阿嬷的情书,新加坡官媒连批三天,最后承认:这东西,真挡不住

娱说瑜悦
2026-05-30 17:03:54
一豪华游轮在土耳其沿海沉没,148人跳海逃生无人伤亡

一豪华游轮在土耳其沿海沉没,148人跳海逃生无人伤亡

现代快报
2026-05-30 17:57:06
男子花550万买天津洋楼,阳台月季突然盛开,房东劝:退房!

男子花550万买天津洋楼,阳台月季突然盛开,房东劝:退房!

徐侠客有话说
2025-07-24 14:32:26
被中方代表现场发言“驱逐”,难怪日本防长在香会脸色不太不好!

被中方代表现场发言“驱逐”,难怪日本防长在香会脸色不太不好!

阿龙聊军事
2026-05-31 02:07:10
信号失联、烧成火球!神舟二十二号返回遭黑障区,有多惊心动魄?

信号失联、烧成火球!神舟二十二号返回遭黑障区,有多惊心动魄?

有范又有料
2026-05-30 10:57:05
一张8人“全家福”4人遇难,亲历者讲述永川特大暴雨:亲眼看着亲人的房子被泥石流冲垮

一张8人“全家福”4人遇难,亲历者讲述永川特大暴雨:亲眼看着亲人的房子被泥石流冲垮

大风新闻
2026-05-30 14:32:08
耿同学抖音账号,已被永久限流!中南大学湘雅医学院回应论文造假:已要求课题组提交原始数据

耿同学抖音账号,已被永久限流!中南大学湘雅医学院回应论文造假:已要求课题组提交原始数据

TOP大学来了
2026-05-30 19:02:11
是不是太过了?神舟飞船落地,地面上居然安排有专门的开舱手岗位

是不是太过了?神舟飞船落地,地面上居然安排有专门的开舱手岗位

阿龙聊军事
2026-05-30 07:47:52
古巴8个鲜为人知的事实:曾迫使数万华人流亡,从富裕国家滑落至极度困难

古巴8个鲜为人知的事实:曾迫使数万华人流亡,从富裕国家滑落至极度困难

三言四拍
2026-05-30 13:05:06
连14站大满贯进16强!世界第一萨巴伦卡送蛋横扫 将战大坂直美

连14站大满贯进16强!世界第一萨巴伦卡送蛋横扫 将战大坂直美

醉卧浮生
2026-05-30 21:50:50
2026-05-31 05:55:00
DeepTech深科技 incentive-icons
DeepTech深科技
麻省理工科技评论独家合作
16770文章数 514989关注度
往期回顾 全部

科技要闻

车圈大佬发声:价格战远去,但竞争仍残酷

头条要闻

两名9岁女孩被困电梯近2小时 求救几十次物业无动于衷

头条要闻

两名9岁女孩被困电梯近2小时 求救几十次物业无动于衷

体育要闻

巴黎再度捧起欧冠奖杯 枪手众将黯然神伤

娱乐要闻

张碧晨《歌手》 “活人微死” 自嘲

财经要闻

双汇管不住一头猪

汽车要闻

900V+3.2秒破百 领克10+&领克10上市16.99万元起

态度原创

教育
数码
时尚
手机
公开课

教育要闻

一“苹”心态 二“苹”实力 三“苹”运气

数码要闻

vivo S60系列发布:2899元起 推出4K原生感Live

美回巅峰的她们,带火的这些爆款真的好用吗

手机要闻

苹果iOS27长这样?界面图细节抢先看

公开课

李玫瑾:为什么性格比能力更重要?

无障碍浏览 进入关怀版