通信世界网消息(CWW)数据集质量是大模型性能提升的 关键,目前国内大模型训练主要依赖国 际开源数据集。由于数据开放共享不 足、版权数据使用受限、数据集建设成本高且缺乏统一规范,中文数据集在规模、质量上仍有很大提升空间。为此,本文建议通过建立统一的数据共享平台、完善数据供给激励机制、制定数据 全周期标准体系、优化“政产学研金服 用”协同创新体系,加快高质量中文数据集建设进程,助力国内大模型高质量发展。
点此阅读杂志全文
特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.