达佳互联申请音频生成模型训练方法专利，提高了音频与视频的匹配度|模态|样本|编码器|正式版模型|技术有限公司

达佳互联申请音频生成模型训练方法专利，提高了音频与视频的匹配度

2026-02-06 19:45:19　来源: 金融界

北京举报

分享至

国家知识产权局信息显示，北京达佳互联信息技术有限公司申请一项名为“音频生成模型的训练方法、音频生成方法、装置及设备”的专利，公开号CN121459820A，申请日期为2025年11月。

专利摘要显示，本公开提供了一种音频生成模型的训练方法、音频生成方法、装置及设备，属于计算机技术领域。该方法包括：通过音频生成模型中的多种编码器，分别对多模态样本数据进行编码，得到多个模态的样本特征；通过音频生成模型中的多个多模态变换器层，对多个模态的样本特征进行特征融合，得到多模态融合特征；通过音频生成模型中的音频模态变换器层，基于多模态融合特征进行特征融合，得到预测音频流；基于预测音频流和目标音频，训练音频生成模型。上述方案，由于生成的预测音频来自于样本视频或者样本文本，使得训练得到的音频生成模型能够输出与样本视频的内容相匹配的音频，提高了音频与视频的匹配度，从而提高了视频的质量，进而提高了视频生成效率。

天眼查资料显示，北京达佳互联信息技术有限公司，成立于2014年，位于北京市，是一家以从事科技推广和应用服务业为主的企业。企业注册资本600000万美元。通过天眼查大数据分析，北京达佳互联信息技术有限公司共对外投资了21家企业，参与招投标项目21次，财产线索方面有商标信息5000条，专利信息5000条，此外企业还拥有行政许可31个。

声明：市场有风险，投资需谨慎。本文为AI基于第三方数据生成，仅供参考，不构成个人投资建议。

本文源自：市场资讯

作者：情报员

特别声明：以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布，本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.