金融界2025年6月3日消息,国家知识产权局信息显示,北京远鉴信息技术有限公司申请一项名为“融合视觉信息的语音合成方法、装置、电子设备及介质”的专利,公开号CN120089122A,申请日期为2025年05月。
专利摘要显示,本申请提供了融合视觉信息的语音合成方法、装置、电子设备及介质,包括:基于文本编码器提取出目标文本信息的文本特征;对目标视频信息进行特征提取处理、向量量化编码处理以及交叉注意力处理,确定出目标视频信息中的视频特征;对文本特征以及视频特征进行交叉注意力处理,确定出联合特征;将联合特征输入至预先训练好的语音生成模型,对联合特征进行建模处理生成视频文本特征,再对视频文本特征进行随机韵律预测处理、特征扩充处理以及解码处理,生成目标文本信息所对应的合成语音。通过融合视频中的信息,生成更加富有表现力的语音。这种方法不仅解决了现有技术在情感控制方面的不足,还能够利用少量样本数据实现高质量的语音合成。
本文源自:金融界
作者:情报员
特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.