金融界 2024 年 9 月 17 日消息,天眼查知识产权信息显示,恒玄科技(上海)股份有限公司申请一项名为“声场景分类模型生成方法、声场景分类方法、装置、存储介质及电子设备“,公开号 CN202410848719.4,申请日期为 2024 年 6 月。
专利摘要显示,本申请公开了一种声场景分类模型生成方法、声场景分类方法、装置、存储介质及电子设备,其中,该声场景分类模型生成方法包括从声场景分类数据集中随机选取源音频和目标音频;根据源语音和目标语音生成源梅尔频谱图和目标梅尔频谱图;根据目标梅尔频谱图生成随机掩码图,并获取随机掩码图的倒转随机掩码图;基于随机掩码图、倒转随机掩码、源梅尔频谱图和目标梅尔频谱图生成增强频谱图和标签;基于增强频谱图和标签对预设神经网络进行训练,生成声场景分类模型。
本文源自:金融界
作者:情报员
特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.