金融界2025年4月19日消息,国家知识产权局信息显示,戴尔产品有限公司申请一项名为“5616.用于构建训练数据的方法、电子设备和计算机程序产品”的专利,公开号CN119848249A,申请日期为2023年10月。
专利摘要显示,本公开的实施例涉及用于构建训练数据的方法、电子设备和计算机程序产品。该方法包括通过对训练数据集内的提示词进行聚类,来确定多个聚类。基于多个聚类的多个内聚程度,确定与多个聚类相对应的多个采样概率,其中内聚程度指示聚类内的簇内距离。该方法还包括根据多个采样概率,确定用于采样的目标聚类。该方法还包括通过从目标聚类中采样目标提示词,来构建目标训练数据。根据本公开的实施例,在对语言模型进行微调时,可以根据提示词的聚类结果对提示词进行筛选,使得确定的提示词更有标注价值,从而保证训练得到的语言模型的输出结果全面化多样化。
本文源自:金融界
作者:情报员
特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.