COIG-CQIA全称为Chinese Open Instruction Generalist - Quality is All You Need,是一个开源的高质量指令微调数据集,由零一万物、中科院深圳先进技术研究院和M-A-P等机构构建。该数据集包含48,375个实例,源自22个不同的数据源,覆盖了从通用知识到STEM领域,再到人文学科的广泛领域。COIG-CQIA以中文互联网获取到的问答及文章作为原始数据,经过深度清洗、重构及人工审核构建而成。该数据集受LIMA: Less Is More for Alignment等研究启发,使用少量高质量的数据即可让大语言模型学习到人类交互行为,因此在数据构建中十分注重数据的来源、质量与多样性。该数据集旨在为中文NLP社区提供高质量且符合人类交互行为的指令微调数据。
详情请参见五号雷达:https://www.5radar.com/result?key=COIG-CQIA
特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.