Square-10M是一个由字节跳动、华东师范大学和华中科技大学联合创建的千万级文本中心视觉问答(VQA)指令微调数据集。该数据集包含约3800万个丰富文本元素的图像,涵盖了自然场景、图表、表格、收据、书籍、幻灯片、PDF文档、产品和网络图片等多样化场景。该数据集的构建过程被称为Square,包括自我提问(Self-Questioning)、回答(Answering)、推理(Reasoning)和评估(Evaluation)四个步骤。基于Square流程,研究人员从这些图像中生成了2000万个问答对,并通过一系列评估和筛选步骤,最终提炼出910万个高质量的问答对及其推理上下文。该数据集的创建是为了弥补现有开源模型与领先闭源模型之间的性能差距,为提升文本中心视觉问答任务的性能提供了重要的资源。
详情请参见五号雷达:https://www.5radar.com/result?key=Square-10M
特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.