国家知识产权局信息显示,新华三技术有限公司申请一项名为“一种用于训练对话模型的强化学习方法及装置”的专利,公开号CN121413702A,申请日期为2025年10月。
专利摘要显示,本申请提供一种用于训练对话模型的强化学习方法及装置,所述方法包括:获取经思维链微调后的对话模型针对输入问题生成的回复序列;采用GRPO算法,基于预设奖励函数对所述回复序列进行量化评估,得到所述回复序列对应的奖励值,其中,所述预设奖励函数被配置为对回复序列的内容重复度和格式规范性进行量化评估;基于所述回复序列对应的奖励值,通过GRPO算法更新所述对话模型的策略参数。该方法针对经思维链微调的对话模型存在输出内容不可靠和格式不规范的问题,设计了预设奖励函数,从而引导GRPO算法更加高效的优化对话模型,使其在保证语义准确性的同时,输出更加可靠、规范,最终提升对话模型在复杂对话任务中的性能表现。
天眼查资料显示,新华三技术有限公司,成立于2003年,位于杭州市,是一家以从事计算机、通信和其他电子设备制造业为主的企业。企业注册资本66198万人民币。通过天眼查大数据分析,新华三技术有限公司共对外投资了11家企业,参与招投标项目5000次,财产线索方面有商标信息879条,专利信息5000条,此外企业还拥有行政许可137个。
声明:市场有风险,投资需谨慎。本文为AI基于第三方数据生成,仅供参考,不构成个人投资建议。
本文源自:市场资讯
作者:情报员
特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.