品玩2月14日讯,据 marktechpost 报道,谷歌 DeepMind 推出了一款千亿级的视觉语言数据集WebLI-100B。
该数据集捕捉了罕见的文化概念,提高了模型在低资源语言和多样化表征等较少探索领域的性能。与之前的数据集不同,WebLI-100B 注重数据的缩放,而不是依赖严重的过滤,因为过滤往往会去除重要的文化细节。该框架包括在 WebLI-100B 数据集的不同子集(1B、10B 和 100B)上对模型进行预训练,以分析数据扩展的影响。即使使用相同的计算资源,在完整数据集上训练的模型在文化和多语言任务中的表现也优于在较小数据集上训练的模型。
该数据集没有进行激进的过滤,而是保持了语言和文化元素的广泛代表性,使其更具包容性。
特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.