ImageInWords(IIW)数据集,由Google Research与Google DeepMind联合构建,旨在为视觉语言模型的训练提供超详细且无幻觉的图像描述。该数据集包含9018张图片,每张图片均配有详尽的描述,平均每个描述包含9.8个句子、52.5个名词、28个形容词、5个副词和19.1个动词。在创建过程中,IIW采用了迭代式的标注方法,首先通过对象检测器识别图像中的个体对象实例,然后由视觉语言模型生成每个检测到的对象的细粒度标题,作为人工注解过程的起点。随后,通过多轮人工注解和模型微调,逐步丰富和完善描述内容,直至形成一个高质量的数据集。IIW数据集有助于提高文本到图像生成任务的性能,并在视觉-语言组合推理任务中展现了更高的准确性。
详情请参见五号雷达:https://www.5radar.com/result?key=ImageInWords
特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.