品玩2月3日讯,据 9to5Mac 消息,苹果公司与特拉维夫大学的研究团队联合公布了语音生成新技术“原则性粗粒度”(PCG)。该技术显著提升AI文本转语音的生成效率,宣称能在完全保持原有音频质量的同时,将生成速度提高约40%。
PCG技术预先建立“声学相似组”,只要模型生成的预测结果落在正确的相似组范围内,即可被采纳。该技术结合了“投机解码”策略,采用一大一小双模型协作。小模型快速提出候选语音单元,再由大模型判断其是否属于正确的声学组。这种分工协作在保证质量的前提下大幅提升了效率。
实验数据显示,应用该技术后,语音自然度评分仍保持在4.09分的高水平。此外,PCG属于推理阶段的优化方案,无需对现有模型进行重新训练即可应用,且额外内存占用极小,具有很高的实用价值。
![]()
特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.