金融界2025年8月23日消息,国家知识产权局信息显示,深锶科技(北京)有限公司申请一项名为“基于GAN优化的高质量音画同步说话人生成方法”的专利,公开号CN120526046A,申请日期为2025年05月。
专利摘要显示,本发明公开了基于GAN优化的高质量音画同步说话人生成方法,属于说话人生成领域,包括以下步骤:S1、分别从音频文件和视频文件中提取音频特征和图像特征,并进行预处理;S2、基于StyleGAN2构架建立图像生成模型,并训练;S3、将提取的音频特征和图像特征输入训练完毕的最优对话模型,生成驱动图像序列;S4、利用图像融合算法将生成的驱动图像序列与原始图像进行融合,并重建完整帧图像;S5、按照时间顺序将所有帧图像编码为输出视频。采用上述基于GAN优化的高质量音画同步说话人生成方法,通过优化数据预处理、创新模型架构以及损失函数设计,实现了高质量、时间稳定且音画同步准确的说话人视频生成。
天眼查资料显示,深锶科技(北京)有限公司,成立于2020年,位于北京市,是一家以从事科技推广和应用服务业为主的企业。企业注册资本140.3744万人民币。通过天眼查大数据分析,深锶科技(北京)有限公司参与招投标项目3次,财产线索方面有商标信息18条,专利信息7条,此外企业还拥有行政许可2个。
本文源自:金融界
作者:情报员
特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.