WebInstruct数据集由卡内基梅隆大学和滑铁卢大学联合构建,旨在通过从网络预训练语料库中提取指令数据,以增强大语言模型的推理能力。该数据集包含1000万个高质量的指令-响应对,覆盖数学、科学、工程等多个领域。WebInstruct的创建过程包含3个步骤,首先,通过爬取多个测验网站创建多样化的种子数据集,利用fastText模型从Common Crawl召回相关文档;其次,使用开源大模型如Mixtral提取候选的Q-A对;最后,通过Mixtral-8×7B和Qwen-72B对提取的Q-A对进行精细化处理,以确保数据的质量。该数据集的独特之处在于,它完全从网络挖掘而来,无需人工众包或GPT-4蒸馏,为构建更优质的指令微调数据集提供了新的范式。
详情请参见五号雷达:https://www.5radar.com/result?key=WebInstruct
特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.