国家知识产权局信息显示,北京汐智信息技术有限公司申请一项名为“大模型的强化训练方法和装置”的专利,公开号CN122198031A,申请日期为2026年4月。
专利摘要显示,本发明公开了一种大模型的强化训练方法和装置,涉及计算机技术领域。该方法的一具体实施方式包括:获取当前训练批次中策略网络输出的平均信息熵;根据平均信息熵与预设的目标熵阈值的比较结果,动态调整负向样本强化权重,其中,当平均信息熵小于目标熵阈值时,增大负向样本强化权重;获取模型生成错误样本的预测概率,并根据预测概率计算错误样本的负向优势值,其中,负向优势值与预测概率正相关;基于动态调整后的负向样本强化权重以及计算得到的负向优势值,构建强化学习损失函数以训练大模型。该实施方式在显著提升大模型复杂推理任务准确率的同时,最大化地保留模型的生成多样性和探索潜力。
天眼查资料显示,北京汐智信息技术有限公司,成立于2026年,位于北京市,是一家以从事研究和试验发展为主的企业。企业注册资本1000万人民币。通过天眼查大数据分析,北京汐智信息技术有限公司专利信息5条,此外企业还拥有行政许可1个。
声明:市场有风险,投资需谨慎。本文为AI基于第三方数据生成,仅供参考,不构成个人投资建议。
本文源自:市场资讯
作者:情报员
特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.