国家知识产权局信息显示,思乾(南京)科技有限公司申请一项名为“一种基于强化学习的大语言模型对抗性微调增强系统”的专利,公开号CN121457631A,申请日期为2025年11月。
专利摘要显示,本发明涉及强化学习领域,具体为一种基于强化学习的大语言模型对抗性微调增强系统。包括状态预测模块:获取系统状态数据和机器人动作数据;基于机器人动作数据,通过神经网络预测模型生成预测状态向量,与系统状态数据进行比对,得到残差向量;动作解码模块:将残差向量输入前馈神经网络,进行编码生成自然语言状态报告,并通过大语言模型进行自回归解码,得到损失值;策略优化模块:通过非线性函数将惩罚函数值转化为强化学习奖励信号,PPO算法根据强化学习奖励信号计算出总损失;基于总损失,计算并优化更新大语言模型中低秩自适应参数的梯度。本发明通过前馈神经网络和PPO算法,捕捉微小动态偏差,提升了系统的预见性和安全性。
天眼查资料显示,思乾(南京)科技有限公司,成立于2020年,位于南京市,是一家以从事科技推广和应用服务业为主的企业。企业注册资本1000万人民币。通过天眼查大数据分析,思乾(南京)科技有限公司财产线索方面有商标信息2条,专利信息2条,此外企业还拥有行政许可8个。
声明:市场有风险,投资需谨慎。本文为AI基于第三方数据生成,仅供参考,不构成个人投资建议。
本文源自:市场资讯
作者:情报员
特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.