网易首页 > 网易号 > 正文 申请入驻

香港中文深圳分校:革命性语音压缩技术,让AI说话更自然更高效

0
分享至


这项由中国香港中文大学深圳分校王远程、陈德昆、张雪瑶、张俊安、李佳琦、吴志政等学者组成的研究团队完成的突破性研究,发表于2025年8月的学术论文预印本平台。有兴趣深入了解技术细节的读者可以通过https://tadicodec.github.io/访问演示页面,或在https://github.com/HeCheng0625/Diffusion-Speech-Tokenizer获取完整的代码和模型。

当今世界,AI语音助手已经成为我们日常生活的重要组成部分。从手机里的Siri到智能音箱的小爱同学,这些AI系统需要将人类的语音转换成计算机能理解的数字信号,然后再将生成的语音转换回我们能听懂的声音。然而,这个过程一直面临着一个核心难题:如何在保证语音质量的同时,尽可能地压缩语音数据。

传统的语音压缩技术就像是用巨大的行李箱装几件衣服——虽然能装下所有东西,但效率极低,占用了大量的存储空间和传输带宽。研究团队形象地将这个问题比作"如何用最小的背包装下旅行必需品,既要轻便又要确保什么都不缺"。

现有的语音编码器大多采用多层量化结构,需要很高的帧率才能保证质量,就像需要用多个背包才能装下所有行李一样。更糟糕的是,许多系统还依赖额外的预训练模型来提取语义信息,这就好比旅行时还要带上一个专门的助手来帮忙整理行李,增加了系统的复杂性。

为了解决这些问题,研究团队开发了一种名为"文本感知扩散变换器语音编解码器"(TaDiCodec)的创新技术。这个技术的核心创新在于将文本信息融入到语音重建过程中,就像给压缩算法配备了一个聪明的翻译官,能够理解语音的实际含义,从而实现更精准的压缩。

TaDiCodec最令人印象深刻的成就是将语音压缩率推到了极限——仅需6.25赫兹的极低帧率和0.0875千比特每秒的比特率,就能处理24千赫兹的高质量语音。为了让读者更好地理解这个成就的意义,我们可以这样类比:如果传统方法需要用一整个书架来存放一本书的所有信息,TaDiCodec只需要一个小抽屉就能完成同样的任务。

一、技术架构的巧妙设计

TaDiCodec的技术架构采用了端到端的扩散自编码器设计,这种设计就像是一个高效的翻译系统。当语音信号进入系统时,编码器首先将连续的语音波形转换成离散的标记序列,就像将流动的河水装进一个个标准的水桶。

在这个过程中,系统采用了二进制球面量化技术,这是一种不需要明确学习码本的量化方法。传统的量化技术就像是预先准备好一本字典,每个词汇都有固定的编码,而二进制球面量化则更像是一个聪明的即兴翻译官,能够根据当前的语境动态地创建最合适的编码。

具体来说,系统首先将编码器输出的特征投影到单位球面上,然后对每个维度独立地进行二进制量化。这个过程可以想象成将一个复杂的三维物体的影子投射到一个标准的圆形屏幕上,然后用黑白两色来描述这个影子的每个部分。通过这种方法,系统可以用14维的潜在空间生成16384个不同的标记,相当于用14个开关的不同组合来表示16384种不同的状态。

解码器采用了基于流匹配的扩散模型,这种技术的工作原理就像是一个优秀的画家复原古画。画家从一张充满噪声的画布开始,通过多个步骤逐步去除噪声,最终复原出清晰的原画。在训练过程中,系统学习如何预测从噪声状态到目标语音的"速度场",就像学习每一笔画应该朝哪个方向画,画多快。

二、文本感知机制的创新突破

TaDiCodec最核心的创新在于引入了文本感知的解码机制。在大多数语音生成场景中,目标文本信息实际上是可用的。比如在文本转语音系统中,目标文本本身就是已知的;在端到端的语音对话系统中,文本和语音标记通常是联合生成的。

研究团队敏锐地意识到了这个机会,将文本信息作为额外的指导信号引入到扩散解码器中。这就像给一个正在拼图的人提供了完整的参考图片,拼图者不仅能看到每个碎片的形状和颜色,还能知道这个碎片在整幅图中应该处于什么位置,表达什么内容。

为了进一步提升在极低压缩率设置下的重建质量,系统还引入了提示机制。在训练过程中,系统随机选择输入语音的一个前缀作为提示,这个前缀保持原始状态不添加噪声,而损失函数只在噪声部分计算。这种设计就像给画家提供了画作的一个角落作为参考,让画家能够更准确地把握整幅画的风格和特征。

实验结果表明,这种提示机制带来了显著的性能提升。当研究团队尝试移除文本条件时,他们观察到在极低标记率和比特率设置下的性能出现了显著下降。例如,在12.5赫兹的帧率下,词错误率超过了10%,这清楚地证明了文本感知机制的重要性。

三、训练策略的精心优化

与传统的两阶段训练方法不同,TaDiCodec采用了端到端的联合优化策略。传统方法通常需要先训练一个向量量化模型,然后再训练一个单独的扩散模型用于去标记化,这种方法就像是先学会骑自行车,再学会平衡,两个过程相互独立。

TaDiCodec的训练过程则更像是学习游泳——所有的技能都在同一个环境中同时学习和优化。系统同时学习如何进行特征量化和如何进行重建,整个过程由单一的扩散损失函数驱动。这种设计不仅简化了训练流程,还避免了多阶段训练可能带来的次优解问题。

训练目标函数的设计相当巧妙。系统需要学习预测从噪声状态到目标语音的速度场,这个过程可以理解为学习如何从一团模糊的声音云雾中雕刻出清晰的语音信号。在数学上,这个速度场定义为噪声插值路径的时间导数,即原始语音减去添加的噪声。

研究团队还发现,在主要训练完成后,继续训练解码器同时冻结编码器和量化模块,能够进一步提升性能。这种策略就像是一个乐团在基本排练完成后,让各个声部的首席演奏者进行精细的调音,以达到更完美的和谐效果。

四、实验验证的全面评估

研究团队在多个维度对TaDiCodec进行了全面的实验验证。他们使用了包含46.8千小时英语、49.9千小时中文以及其他多种语言的大规模多语言数据集Emilia进行训练。这个数据集的规模相当于一个人连续听音频内容超过11年的时间,为模型提供了极其丰富的语音样本。

在重建质量评估中,TaDiCodec在多个关键指标上都表现出色。词错误率方面,TaDiCodec在英语测试集上达到了2.73%,在中文测试集上达到了0.94%,这个成绩意味着系统重建的语音中每100个词只有不到3个会被识别错误。

说话人相似度方面,TaDiCodec达到了0.69的高分,这意味着重建后的语音能够很好地保持原说话人的声音特征。语音质量评分方面,系统获得了3.73分的高分,接近自然语音的质量水平。

更令人印象深刻的是,TaDiCodec在多语言环境下同样表现优秀。在法语、德语、日语和韩语的测试中,系统都展现了稳定的性能,证明了其技术架构的通用性和鲁棒性。

五、零样本语音合成的卓越表现

为了验证TaDiCodec在实际应用中的效果,研究团队构建了基于该技术的零样本文本转语音系统。零样本意味着系统可以模仿它从未见过的说话人的声音,就像一个天才的模仿者能够仅仅听几秒钟的录音就完美复制某个人的说话方式。

研究团队采用了两种不同的语言建模方法:自回归建模和掩码生成建模。自回归方法就像是一个人在逐词朗读,每个词的发音都基于前面已经说出的内容。掩码生成建模则更像是填字游戏,系统需要根据上下文推测出被遮住的词汇应该如何发音。

实验结果显示,基于TaDiCodec的系统在多个具有挑战性的测试集上都取得了优异成绩。在常规的英语和中文测试中,自回归模型分别达到了2.28%和1.19%的词错误率。更令人印象深刻的是,在一些特别困难的测试场景中,比如绕口令、代码切换和跨语言合成,TaDiCodec都展现出了显著优于现有系统的性能。

在绕口令测试中,系统需要处理大量相似音素的快速切换,这对语音合成系统来说是一个极大的挑战。TaDiCodec在英语绕口令测试中达到了8.23%的词错误率,而在中文绕口令测试中更是达到了8.74%的优异成绩。

代码切换测试要求系统在同一句话中处理多种语言的混合使用,这种情况在现实生活中越来越常见。TaDiCodec在英语-中文代码切换测试中分别达到了9.16%和16.09%的词错误率,远超现有的最佳系统。

六、效率优化的技术突破

TaDiCodec不仅在质量上表现出色,在效率方面也有着显著的优势。由于采用了极低的标记率,系统在训练和推理过程中都需要处理更少的数据,这直接转化为更快的处理速度和更低的计算资源需求。

在模型规模扩展实验中,研究团队训练了从0.2B到4.0B参数不等的不同规模模型。实验结果显示,即使是0.5B参数的模型就已经能够达到或超越许多现有的先进系统,而4.0B参数的大模型在所有测试场景中都表现出了卓越的性能。

推理效率方面,TaDiCodec展现出了令人印象深刻的实时性能。即使是4.0B参数的大模型,在没有任何部署优化的情况下也能达到0.29的实时因子,意味着生成1秒的语音只需要0.29秒的计算时间。当使用vLLM等优化工具时,这个数字进一步降低到0.13,实现了真正的实时语音合成。

更小的模型在效率方面表现更加突出。0.6B参数的掩码生成模型达到了0.12的实时因子,而0.5B参数的自回归模型也只需要0.22的计算时间。这种高效性使得TaDiCodec能够部署在各种计算资源受限的环境中,包括移动设备和边缘计算场景。

七、重建生成差距的显著改善

传统语音编解码器面临的一个重要问题是重建-生成差距,即系统在重建训练数据时表现良好,但在实际生成新语音时性能下降。这种现象就像一个学生在做练习题时得心应手,但在面对全新的考试题目时却表现不佳。

TaDiCodec在这方面取得了显著的改进。实验结果显示,TaDiCodec在英语测试中展现出了-16.5%的词错误率差距,这意味着生成的语音质量实际上比直接重建还要更好。在中文测试中,系统达到了+26.5%的词错误率差距和0%的说话人相似度差距,展现出了极高的一致性。

相比之下,现有的系统通常存在较大的重建-生成差距。例如,某些系统在英语测试中存在-104.5%的词错误率差距,在中文测试中更是达到了-265.9%的差距。这种巨大的差距表明这些系统在实际应用中难以保持重建时的高质量表现。

TaDiCodec能够实现如此小的重建-生成差距,主要得益于其端到端的训练策略和文本感知的设计。由于系统在训练过程中就考虑了文本信息的引导,它能够更好地学习语音和语义之间的对应关系,从而在生成过程中保持更高的一致性和质量。

八、消融实验的深入分析

为了更好地理解TaDiCodec各个组件的贡献,研究团队进行了详尽的消融实验。这些实验就像是拆解一台精密机器,逐个检验每个零件的作用,以确保整体设计的最优性。

在量化方案的比较中,二进制球面量化相比传统的向量量化方法展现出了一致的性能优势。当研究团队用相同大小的传统码本替换二进制球面量化时,所有评估指标都出现了下降,这证明了二进制球面量化在保持语音质量和智能度方面的有效性。

模型规模的影响分析显示了明显的扩展规律。当解码器规模从320M参数减少到160M参数时,性能出现了显著下降,特别是在英语词错误率方面。相反,将解码器规模增加到480M参数时,所有指标都获得了边际改进。这些结果表明TaDiCodec存在明确的模型扩展规律,为未来的进一步优化指明了方向。

提示机制的重要性通过对比实验得到了充分验证。当移除提示机制时,所有三个评估指标都出现了大幅下降。研究团队推测,提示机制之所以有效,是因为它为系统提供了全局条件信号,比如说话人身份等信息,从而减轻了量化器编码这类全局信息的负担。

推理步数的影响分析展现了质量和效率之间的权衡关系。增加推理步数到50步带来了边际的性能提升,而减少到10步只导致了轻微的性能下降。然而,进一步减少到5步时,性能出现了明显的下降。考虑到效率和质量之间的平衡,10到32步的推理步数范围被认为是合理的操作区间。

九、技术影响与未来展望

TaDiCodec的技术突破对整个语音处理领域产生了深远的影响。首先,极低的压缩率使得大规模语音数据的存储和传输成本大大降低,这对于构建更大规模的语音数据集和支持更多用户的语音服务具有重要意义。

在应用层面,TaDiCodec的高效率使得实时语音合成在资源受限的环境中成为可能。这意味着高质量的语音合成技术可以部署到手机、智能手表甚至物联网设备中,为用户提供更自然、更流畅的人机交互体验。

文本感知机制的引入也为语音处理技术的发展开辟了新的方向。通过将文本信息作为额外的指导信号,系统能够更好地理解和生成语音内容,这种多模态融合的方法为未来的语音AI系统设计提供了重要启示。

研究团队也坦诚地指出了当前技术的一些限制。由于采用了扩散自编码器进行标记化和去标记化,系统在推理过程中需要多个步骤,相比基于生成对抗网络的标记器会有更高的解码延迟。未来的工作可能会探索蒸馏技术或更强大的生成模型,以实现单步推理而不损失性能。

另一个限制是TaDiCodec目前需要文本输入才能进行解码。虽然在大多数应用场景中文本是可获得的,但探索能够同时进行转录、标记化和重建的统一模型将是一个有价值的研究方向,这将使单一模型能够实现联合的理解、压缩和重建功能。

总的来说,TaDiCodec代表了语音编解码技术的一个重要里程碑。它不仅在技术性能上取得了显著突破,更重要的是为整个领域提供了新的思路和方法。通过端到端的扩散自编码器设计、文本感知的解码机制以及精心优化的训练策略,TaDiCodec展现了在保持极高压缩率的同时实现优异语音质量的可能性。随着技术的进一步发展和完善,我们有理由相信TaDiCodec及其衍生技术将在未来的语音AI应用中发挥越来越重要的作用,为用户带来更加自然、高效和智能的语音交互体验。

Q&A

Q1:TaDiCodec相比传统语音编码器有什么优势?

A:TaDiCodec最大的优势是压缩效率极高,只需要6.25赫兹的帧率和0.0875千比特每秒的比特率就能处理高质量语音,相比传统方法压缩率提升了10倍以上。同时它采用端到端训练,不需要复杂的多阶段训练和额外的预训练模型,大大简化了系统架构。

Q2:TaDiCodec的文本感知机制是如何工作的?

A:文本感知机制将对应的文本信息作为额外指导信号引入到语音重建过程中,就像给拼图者提供完整的参考图片。系统不仅能看到语音片段的声学特征,还能理解这些片段应该表达什么内容,从而实现更精准的语音重建和生成。

Q3:TaDiCodec在实际应用中的性能如何?

A:TaDiCodec在零样本语音合成中表现出色,英语和中文的词错误率分别达到2.28%和1.19%,说话人相似度达到0.69。更重要的是,4.0B参数模型的实时因子只有0.29,使用优化工具后可降至0.13,完全满足实时语音合成的需求。

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
日本又要选首相了

日本又要选首相了

中国新闻周刊
2026-01-21 07:41:18
前途无量,中国19岁小将3-1胜淘汰林诗栋的达科,连续两站进决赛

前途无量,中国19岁小将3-1胜淘汰林诗栋的达科,连续两站进决赛

真理是我亲戚
2026-01-23 22:48:03
国台办果然没看错,郑丽文真面目被彻底揭露!小算盘到此为止了

国台办果然没看错,郑丽文真面目被彻底揭露!小算盘到此为止了

比利
2026-01-23 12:41:53
iPhone 天气App预报被批离谱 95%从业者盼它消失

iPhone 天气App预报被批离谱 95%从业者盼它消失

3DM游戏
2026-01-23 11:28:49
来了,AC米兰!4000万“桥头堡”正式同意加盟!8000万主力遭出售

来了,AC米兰!4000万“桥头堡”正式同意加盟!8000万主力遭出售

头狼追球
2026-01-24 15:48:09
2月古装剧对打!四部新剧上线,探案、权谋、穿书、武侠一次看够

2月古装剧对打!四部新剧上线,探案、权谋、穿书、武侠一次看够

影视快通车
2026-01-24 09:48:56
朱拉尼恐怖色彩的“大一统”:库尔德“娘子军”被排队爆头画面

朱拉尼恐怖色彩的“大一统”:库尔德“娘子军”被排队爆头画面

瞩望云霄
2026-01-23 10:17:27
新加坡首次打破50年惯例,将要为中国统一扫清一大障碍

新加坡首次打破50年惯例,将要为中国统一扫清一大障碍

云上乌托邦
2026-01-23 15:07:21
植物人妻子怀孕生下孩子,一声妈妈我爱你,喊醒昏迷多年的妻子

植物人妻子怀孕生下孩子,一声妈妈我爱你,喊醒昏迷多年的妻子

有书
2026-01-23 20:40:19
美国最强激光问世!峰值功率2拍瓦,超全球电力总输出100多倍!

美国最强激光问世!峰值功率2拍瓦,超全球电力总输出100多倍!

心中的麦田
2026-01-23 20:30:45
太阳连遭噩耗!布克脚踝扭伤需拄拐+格林腿筋再伤 狄龙近5战55铁

太阳连遭噩耗!布克脚踝扭伤需拄拐+格林腿筋再伤 狄龙近5战55铁

颜小白的篮球梦
2026-01-24 12:20:35
日本半导体专家:7nm不是中国的终点,而是他们的极限,离开我们的供应,就会立即崩盘

日本半导体专家:7nm不是中国的终点,而是他们的极限,离开我们的供应,就会立即崩盘

芯火相承
2026-01-24 16:48:43
WTT挑战赛国乒首冠,林诗栋累后收获与黄友政摘金

WTT挑战赛国乒首冠,林诗栋累后收获与黄友政摘金

李帕在北漂
2026-01-24 18:50:26
中国动“真格”中方霸气警告:90天不给358亿赔偿,18艘军舰不给

中国动“真格”中方霸气警告:90天不给358亿赔偿,18艘军舰不给

瞳哥视界
2025-12-29 20:55:09
载有美国对台首批军售武器货轮于1月13日从美国正驶往台湾方向

载有美国对台首批军售武器货轮于1月13日从美国正驶往台湾方向

南权先生
2026-01-23 15:42:38
最高优惠2500元!上市仅三个月iPhone Air开启苹果史上最大促销

最高优惠2500元!上市仅三个月iPhone Air开启苹果史上最大促销

澎湃新闻
2026-01-24 13:57:05
重磅官宣!人民日报预热+足协聘任,国足主帅坦言与日本差距悬殊

重磅官宣!人民日报预热+足协聘任,国足主帅坦言与日本差距悬殊

十点街球体育
2026-01-23 22:15:01
郭士强不用徐杰最大原因找到!徐杰有1大短板,杜锋都没法解决

郭士强不用徐杰最大原因找到!徐杰有1大短板,杜锋都没法解决

体育哲人
2026-01-24 18:28:40
台军女飞行员郭文静:只要长官敢下令,我会毫不犹豫的击落歼20!

台军女飞行员郭文静:只要长官敢下令,我会毫不犹豫的击落歼20!

顾史
2026-01-21 21:04:39
李亚鹏直播再谈嫣然医院关停风波:我那么多地方做得不成功一定有它的道理,没想到迎来转机;当晚直播间销售总额或超7500万

李亚鹏直播再谈嫣然医院关停风波:我那么多地方做得不成功一定有它的道理,没想到迎来转机;当晚直播间销售总额或超7500万

大象新闻
2026-01-24 13:45:08
2026-01-24 19:27:00
科技行者 incentive-icons
科技行者
科技正在如何变革商业世界
6978文章数 546关注度
往期回顾 全部

科技要闻

特斯拉Cybercrab即将落地 每公里不到1块钱

头条要闻

胖东来金饰每克便宜200元被抢爆 有人拖着行李箱去买

头条要闻

胖东来金饰每克便宜200元被抢爆 有人拖着行李箱去买

体育要闻

当家球星打替补,他们在故意摆烂?

娱乐要闻

李微漪更新:狼王格林去世,3字泪目

财经要闻

“百年老字号”张小泉遭60亿债务压顶

汽车要闻

有增程和纯电版可选 日产NX8或于3-4月间上市

态度原创

艺术
时尚
本地
游戏
健康

艺术要闻

400亿!恒大“东方威尼斯”,10万人疯抢到无人问津!彻底凉了?

不一定能掀桌男主,但一定是个好演员!

本地新闻

云游中国|格尔木的四季朋友圈,张张值得你点赞

《小镇惊魂:复刻版合集》更新 修复BUG优化界面

耳石脱落为何让人天旋地转+恶心?

无障碍浏览 进入关怀版