网易首页 > 网易号 > 正文 申请入驻

清华&巨人网络首创MoE多方言TTS框架,数据代码方法全开源

0
分享至

无论是中文的粤语、闽南话、吴语,还是欧洲的荷兰比尔茨语方言、法国奥克语,亦或是非洲和南美的地方语言,方言都承载着独特的音系与文化记忆,是人类语言多样性的重要组成部分。然而,许多方言正在快速消失,语音技术如果不能覆盖这些语言,势必加剧数字鸿沟与文化失声。

在当今大模型引领的语音合成时代,通用 TTS 系统已展现出令人惊叹的能力,但方言 TTS 依然是相关从业者难以触及的「灰色地带」。现有的工业级模型往往依赖巨量专有数据,这让方言 TTS 从业者和研究者几乎无从下手:缺乏统一的语料构建方法,更缺乏一个可实现多语言的端到端开源框架。

为此,来自巨人网络 AI Lab 与清华大学电子工程系 SATLab 的研究团队联合首创了DiaMoe-TTS—— 一个在一定程度上媲美工业级方言 TTS 模型的开源全套解决方案。他们基于语言学家的专业经验,构建了一个统一的 IPA 表达体系,并且在仅依赖开源方言 ASR 数据的前提下提出这一方案。

在推出中文方言版本之前,研究团队已在英语、法语、德语、荷兰比尔茨语等多语种场景中进行过验证,确保该方法具备全球范围内多语言的可扩展性与稳健性。

最重要的是,DiaMoE-TTS 不仅仅是一个单点模型,而是一个面向学术界与开源社区的全链路贡献

  • 全开源的数据预处理流程:让研究者能够从原始方言语音数据构建 TTS-ready 方言语音语料;
  • 统一的 IPA 标注与对齐方法:解决跨方言建模的一致性问题;
  • 完整的训练与推理代码:降低复现与扩展的门槛;
  • 方言感知 MoE 架构与低资源适配策略:为研究者提供稳定、灵活且可拓展的建模方法。

巨人网络 AI Lab 与清华大学电子工程系 SATLab 希望借此推动方言语音合成的公平与普惠:让任何研究者、开发者乃至语言文化保护工作者都能自由使用、改进与扩展这一框架;让小众语言与方言的声音不再被淹没在通用大模型的洪流中,而能通过开源的力量被更广泛地听见与传承。

  • 论文题目:DiaMoE-TTS: A Unified IPA-Based Dialect TTS Framework with Mixture-of-Experts and Parameter-Efficient Zero-Shot Adaptation
  • Arxiv 地址: https://www.arxiv.org/abs/2509.22727

代码与训练推理脚本全面开源

  • GitHub: https://github.com/GiantAILab/DiaMoE-TTS

数据构建方法开源:包含多方言 IPA 对齐语料生成流程,支持可复现的开放式研究。

  • Checkpoint Huggingface: https://huggingface.co/RICHARD12369/DiaMoE_TTS
  • Dataset Huggingface: https://huggingface.co/datasets/RICHARD12369/DiaMoE-TTS_IPA_Trainingset

生成 demo

成都话:祝福大家前程似锦,顺水顺风。

郑州话:祝你前途大好,成就非凡!

石家庄话:好的开始,等于成功的一半儿。

西安话:祝愿大家前程似锦,梦想成真。

粤语:我系钟意广州嘅春天。

模型设计

统一 IPA 前端

在多方言语音合成中,使用拼音或字符输入常常带来严重的歧义与不一致问题,例如相同字符在不同方言中可能对应完全不同的发音。

DiaMoE-TTS 在前端设计中引入了国际音标(IPA)作为统一的输入体系,将所有方言的语音映射到同一音素空间。这种方式消除了跨方言间的差异性,使得模型能够在统一的表征体系下进行训练,保证了建模的一致性与泛化能力。

方言感知 Mixture-of-Experts (MoE) 架构

在声学建模部分,DiaMoE-TTS 设计了方言感知的 Mixture-of-Experts (MoE) 架构。传统的单一建模网络在多方言任务下容易出现「风格平均化」,导致各地方言的特色被弱化。MoE 结构通过引入多个专家网络,让不同的专家专注于学习不同方言的特征;同时,动态门控机制会根据输入 IPA 自动选择最合适的专家路由,从而保证了每种方言的音色和韵律特点得以保留。

为了增强门控的区分能力,我们还加入了方言分类辅助损失,使专家网络在训练时能够更有针对性地建模方言特征。

低资源方言适配 (PEFT)

许多方言面临极端的数据稀缺问题,甚至仅有数小时的录音语料。DiaMoE-TTS 提出了参数高效迁移 (PEFT)策略,分别在 text embedding 层和 DiT 的注意力层中融入了Conditioning AdapterLoRA,仅需微调少量参数即可完成方言扩展,主干与 MoE 模块保持冻结,从而避免对已有知识的遗忘。

此外,研究团队还采用了音高扰动与语速扰动等数据增强手段,即便在超低资源条件下,模型也能合成自然、流畅且风格鲜明的方言语音。

多阶段训练方法

DiaMoE-TTS 的训练过程分为多个阶段,以逐步提升模型性能并适应方言多样性:

  • IPA 迁移初始化

在 F5-TTS 原始 checkpoint 的基础上,引入经过 IPA 音素转换的 Emilia 部分数据,对模型进行预热训练,从而实现输入形式从拼音字符到 IPA 的平滑迁移。

  • 多方言联合训练

在统一 IPA 表达下,利用多个开源方言数据(CommonVoice 和 KeSpeech)进行联合建模,同时激活 MoE 结构,使模型能够学习共享特征并区分不同方言的发音模式。

  • 方言专家强化

通过动态门控机制与方言分类辅助损失,进一步优化 MoE 的分流效果,让各专家更好地捕捉不同方言的独特特征。

  • 低资源快速适配

针对仅有数小时语料的新方言,采用 PEFT 策略(LoRA + Conditioning Adapter),结合音高 / 语速扰动等数据增强,实现高效迁移并保持已有知识不被遗忘。

这种多阶段、渐进式训练的方法,使 DiaMoE-TTS 能够在保证稳定性的同时,兼顾跨方言泛化与低资源适配能力。

研究结果

通过图表可以看到,在训练数据量较为充足(百小时)的粤语上,DiaMoE-TTS 在WER、MOS 和 UTMOS三个指标上均取得了接近工业界语音大模型的表现。而在上海话、成都话、西安话、郑州话、天津话等其他方言(几小时到几十小时不等)的对比实验中,受限于开源方言 ASR 数据在「质量」与「规模」上的不足,模型整体表现略逊于部分工业级大模型。

但值得强调的是,DiaMoE-TTS 支持的方言范围更广,甚至可以扩展到介于语音合成(TTS)与歌声合成之间的特殊类型,如京剧韵白,并能在仅有极少量数据的情况下实现快速建模,这为方言保护与文化传承提供了新的可能性。

在消融实验中,研究团队选择了成都话、西安话、郑州话、石家庄话四种方言,对比了三种不同配置:仅使用 IPA 的版本(w/o MoE)、仅使用 MoE 且输入为拼音的版本(w/o IPA)、以及完整的 IPA + MoE 方法(Ours)。

实验结果表明,IPA 统一前端是性能提升的关键,将输入由拼音替换为 IPA 后,WER 从 90% 以上显著下降到 30%~40% 区间,MOS 评分也提升了 1~2 分。同时,Dialect-aware MoE 架构能够进一步增强方言风格,以西安话为例,WER 从 41.09% 降至 33.00%,MOS 从 2.33 提升到 3.15,表现出明显的改进。

最终,完整方案(MoE + IPA)在所有方言上都取得了最佳效果,不仅显著降低了错误率,也大幅提升了语音的自然度。这充分证明了 IPA 前端在解决跨方言发音歧义方面的有效性,以及 MoE 在强化方言建模上的重要作用,两者结合成为 DiaMoE-TTS 的核心优势。

一句话总结

DiaMoE-TTS = IPA 前端统一化 + MoE 方言建模 + PEFT 低资源适配

在开放数据驱动下,实现低成本、低门槛、可扩展的多方言语音合成方案。

通俗易懂版本:不用海量数据,也不用复杂流程,DiaMoE-TTS 就能让更多方言在数字世界开口说话。

未来展望

DiaMoE-TTS 的全面开源只是一个起点。未来,研究团队将持续扩展更多方言与小语种的语料,完善 IPA 对齐与数据预处理流程,并探索更高效的低资源建模方法,让方言语音合成的研究与应用更加低门槛、更易复现。

同时,研究团队希望这一框架能够让全球的研究者与开发者更便捷地参与到方言与小语种的语音技术研究中,让它们不仅停留在实验室里被探索,更能在教育、文化保护、虚拟人、数字文旅与跨境交流等实际场景中发挥价值。他们相信,方言不应在数字时代被遗忘,每一种语言都值得在数字世界被听见

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
性能巅峰 小米全新双门轿跑谍照曝光

性能巅峰 小米全新双门轿跑谍照曝光

车质网
2026-07-03 09:27:08
暴涨暴跌,将是26年录取数据的主要特征!

暴涨暴跌,将是26年录取数据的主要特征!

勋哥教你填志愿
2026-07-02 22:50:01
俄国防部公布乌克兰被击中目标清单,含生产“火烈鸟”导弹的企业

俄国防部公布乌克兰被击中目标清单,含生产“火烈鸟”导弹的企业

相思赋予谁a
2026-07-03 11:32:20
世界杯4场造5球!曼联看上被逆转出局的塞内加尔尖刀

世界杯4场造5球!曼联看上被逆转出局的塞内加尔尖刀

热血体育社
2026-07-03 01:13:13
“叫不醒”的李纯,比谁都清醒

“叫不醒”的李纯,比谁都清醒

星宿影视鸭
2026-07-02 19:39:59
浅蓝同色系瑜伽套装,贴身面料完整勾勒熟女人妻饱满丰腴曲线

浅蓝同色系瑜伽套装,贴身面料完整勾勒熟女人妻饱满丰腴曲线

只要高兴就好
2026-06-28 20:26:38
穆杰塔巴万万没想到,老哈梅灵车还没到圣城,以军又准备斩首行动

穆杰塔巴万万没想到,老哈梅灵车还没到圣城,以军又准备斩首行动

面包夹知识
2026-07-02 17:35:23
37岁女子吃左氧氟沙星治尿路感染,2个月后走了,医生:2个忠告

37岁女子吃左氧氟沙星治尿路感染,2个月后走了,医生:2个忠告

健康之光
2026-07-01 09:02:18
何维将出席伊朗已故最高领袖哈梅内伊葬礼

何维将出席伊朗已故最高领袖哈梅内伊葬礼

观察者网
2026-07-02 15:39:02
世行决定5年停贷中国,美高调庆祝45年合作终结

世行决定5年停贷中国,美高调庆祝45年合作终结

让生活充满温暖
2026-07-02 15:21:18
斯科尔斯:图赫尔绝不会派梅努上场了,让他临危受命也不公平

斯科尔斯:图赫尔绝不会派梅努上场了,让他临危受命也不公平

懂球帝
2026-07-03 10:28:21
被男友妈妈发长文劝分,女生的回应亮了:只筛选,不教育

被男友妈妈发长文劝分,女生的回应亮了:只筛选,不教育

许三岁
2026-06-29 11:33:18
委内瑞拉代总统宣布:全国哀悼七天

委内瑞拉代总统宣布:全国哀悼七天

参考消息
2026-07-02 11:26:12
163的王祖蓝和175的老婆换裤子穿,一个成人行拖把,一个成7分裤

163的王祖蓝和175的老婆换裤子穿,一个成人行拖把,一个成7分裤

木子爱娱乐大号
2026-06-22 10:21:23
蔚来李斌北大演讲热搜!不灌鸡汤讲失败,“向内求索,别骗自己”

蔚来李斌北大演讲热搜!不灌鸡汤讲失败,“向内求索,别骗自己”

智能车参考
2026-07-03 12:00:29
成品油价或现年内最大降幅 加满一箱将少花33.5元

成品油价或现年内最大降幅 加满一箱将少花33.5元

中新经纬
2026-07-03 00:12:29
1965年,毛主席对官二代留下2大预言,20年后,竟一一应验

1965年,毛主席对官二代留下2大预言,20年后,竟一一应验

墨策史
2026-07-03 00:07:52
钱再多有啥用?42岁贾乃亮如今的现状,给所有中年男人提了一个醒

钱再多有啥用?42岁贾乃亮如今的现状,给所有中年男人提了一个醒

悄悄史话
2026-06-21 14:06:30
苹果iPhone 18 Pro Max电池首曝:5187mAh容量,欣旺达生产

苹果iPhone 18 Pro Max电池首曝:5187mAh容量,欣旺达生产

IT之家
2026-07-03 10:49:14
3-1连赢名将!中国女乒19岁新星大闪耀:孙颖莎成她蜕变幕后功臣

3-1连赢名将!中国女乒19岁新星大闪耀:孙颖莎成她蜕变幕后功臣

李喜林篮球绝杀
2026-07-02 12:35:42
2026-07-03 12:31:00
机器之心Pro incentive-icons
机器之心Pro
专业的人工智能媒体
13421文章数 142686关注度
往期回顾 全部

科技要闻

特斯拉交付超预期7.4万辆,股价却大跌7.5%

头条要闻

牛弹琴:印度哥哥迎来日本小妹妹 这场外交好戏不简单

头条要闻

牛弹琴:印度哥哥迎来日本小妹妹 这场外交好戏不简单

体育要闻

韩国人,为什么恨透了洪明甫?

娱乐要闻

黄晓明深夜约会美女,分手原因曝光

财经要闻

AI“鬼故事”不断,市场开始重估?

汽车要闻

极氪9X五座版官宣,如图!

态度原创

时尚
游戏
房产
手机
数码

这个夏天,你一定吃过她们的瓜

《AC黑旗RE》解锁时间公布!中文配音 主机比PC先玩

房产要闻

独家猛料!融创海南大变天,项目重启,大量招人!

手机要闻

曝三星Galaxy S27 Ultra手机前摄升级1600万、方形传感器

数码要闻

AMD奇怪显卡现身!标称RX 7900 XTX实则规格对标GRE

无障碍浏览 进入关怀版