每天分享科技热点!
![]()
今日,根据外媒9to5Mac报道,苹果与特拉维夫大学联合发布了一项名为「原则性粗粒度」(PCG)的语音生成技术,旨在突破AI文本转语音(TTS)领域长期存在的速度瓶颈。
传统TTS依赖自回归模型逐个预测声学token,需严格匹配预设内容,导致生成效率受限,即使预测结果与预设差异微小且听觉无感,也会因「精确匹配」要求被系统拒绝。
为解决这一问题,研究团队提出将声学token按听觉效果相似性分组,形成「声学相似组」。系统不再要求单点精确匹配,转而允许预测结果落入正确相似组范围内即可通过验证,将验证机制从「单点校验」升级为「范围校验」,显著提升容错率。
![]()
实际应用中,PCG采用「投机解码」双模型架构:轻量级小模型快速生成候选token,大模型审核其是否属于正确相似组。这种分工既保留了小模型的速度优势,又通过大模型保障了输出质量。
实验表明,该技术使语音生成速度提升约40%,自然度评分达4.09(满分5分)。
![]()
极限测试中,91.4%的token被替换为同组其他token时,词错率仅增0.007,说话人相似度下降0.027,人耳几乎无法察觉差异。
![]()
PCG属于推理阶段优化,无需重新训练现有模型,仅需额外37MB内存存储相似组信息,具有高实用性和低部署成本。

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.