近日,全球语音、声学顶级会议ICASSP 2022公布了论文入选名单,网易互娱AI Lab共3篇学术论文被接收,并受邀于会议上面向学术和工业界进行研究报告。ICASSP(International Conference onAcoustics, Speech and Signal Processing)即国际声学、语音与信号处理会议,是IEEE主办的全世界最大的,也是最全面的信号处理及其应用方面的顶级会议,在国际上享有盛誉并具有广泛的学术影响力。
此次论文入选是网易互娱AI Lab继INTERSPEECH 2020国际声纹识别冠军、第六届OLR东方识别国际竞赛双赛道冠军和被INTERSPEECH 2020&2021收录3篇论文后,在语音信号处理领域又一新的里程碑。
在三篇论文中,网易互娱AI Lab分别基于BERT预训练模型对多音字数据进行增强的方法,避免多音字的干扰,提升语音合成中发音的正确性;结合预训练的说话人识别模型(Pre-trained ASV Model), 语音风格建模中的GSTs (Global Style Tokens)和说话人分类器,提升零资源音色转换的说话人相似度,无需训练模型就能逼真地把一个人的音色转换成另一个人的音色;还提出了使用多模态,多任务学习提升在少量数据的场景下音色克隆的效果。
实验数据也证明了效果,比如在解决多音字的问题上,最终的算法方案相比基础模型有12%以上的提升。在音色转化相似度方面,对比常用的方法,论文中的解决方法相似度有5%的提升,在跨性别音色转换的场景下提升达到12%。
在取得理论研究突破的同时,网易互娱AI Lab研发的语音合成、语音识别、语音控制以及语音变声&转换等相关技术,已成功在《梦幻西游》、《哈利波特:魔法觉醒》、《阴阳师》、《天下3》、《狼人杀》等多个游戏项目中落地。论文中提及的高质量的语音合成技术,能实现将文本转化成拟人化的声音,丰富游戏玩法,提升游戏体验。例如可以将玩家的语音转换为更具特点和辨识度的音色,从而达到提升玩家的参与度,增加游戏的趣味性。
更值得注意的是,随着大众对个人信息安全及隐私保护意识的提升,语音转换技术也可为游戏玩家在虚拟世界提供更进一步的安全保障。
特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.