网易首页 > 网易号 > 正文 申请入驻

清华&巨人网络首创MoE多方言TTS框架,数据代码方法全开源

0
分享至



无论是中文的粤语、闽南话、吴语,还是欧洲的荷兰比尔茨语方言、法国奥克语,亦或是非洲和南美的地方语言,方言都承载着独特的音系与文化记忆,是人类语言多样性的重要组成部分。然而,许多方言正在快速消失,语音技术如果不能覆盖这些语言,势必加剧数字鸿沟与文化失声。

在当今大模型引领的语音合成时代,通用 TTS 系统已展现出令人惊叹的能力,但方言 TTS 依然是相关从业者难以触及的「灰色地带」。现有的工业级模型往往依赖巨量专有数据,这让方言 TTS 从业者和研究者几乎无从下手:缺乏统一的语料构建方法,更缺乏一个可实现多语言的端到端开源框架。

为此,来自巨人网络 AI Lab 与清华大学电子工程系 SATLab 的研究团队联合首创了DiaMoe-TTS—— 一个在一定程度上媲美工业级方言 TTS 模型的开源全套解决方案。他们基于语言学家的专业经验,构建了一个统一的 IPA 表达体系,并且在仅依赖开源方言 ASR 数据的前提下提出这一方案。

在推出中文方言版本之前,研究团队已在英语、法语、德语、荷兰比尔茨语等多语种场景中进行过验证,确保该方法具备全球范围内多语言的可扩展性与稳健性。



最重要的是,DiaMoE-TTS 不仅仅是一个单点模型,而是一个面向学术界与开源社区的全链路贡献

  • 全开源的数据预处理流程:让研究者能够从原始方言语音数据构建 TTS-ready 方言语音语料;
  • 统一的 IPA 标注与对齐方法:解决跨方言建模的一致性问题;
  • 完整的训练与推理代码:降低复现与扩展的门槛;
  • 方言感知 MoE 架构与低资源适配策略:为研究者提供稳定、灵活且可拓展的建模方法。

巨人网络 AI Lab 与清华大学电子工程系 SATLab 希望借此推动方言语音合成的公平与普惠:让任何研究者、开发者乃至语言文化保护工作者都能自由使用、改进与扩展这一框架;让小众语言与方言的声音不再被淹没在通用大模型的洪流中,而能通过开源的力量被更广泛地听见与传承。



  • 论文题目:DiaMoE-TTS: A Unified IPA-Based Dialect TTS Framework with Mixture-of-Experts and Parameter-Efficient Zero-Shot Adaptation
  • Arxiv 地址: https://www.arxiv.org/abs/2509.22727

代码与训练推理脚本全面开源

  • GitHub: https://github.com/GiantAILab/DiaMoE-TTS

数据构建方法开源:包含多方言 IPA 对齐语料生成流程,支持可复现的开放式研究。

  • Checkpoint Huggingface: https://huggingface.co/RICHARD12369/DiaMoE_TTS
  • Dataset Huggingface: https://huggingface.co/datasets/RICHARD12369/DiaMoE-TTS_IPA_Trainingset

生成 demo

成都话:祝福大家前程似锦,顺水顺风。



郑州话:祝你前途大好,成就非凡!



石家庄话:好的开始,等于成功的一半儿。



西安话:祝愿大家前程似锦,梦想成真。



粤语:我系钟意广州嘅春天。



模型设计

统一 IPA 前端

在多方言语音合成中,使用拼音或字符输入常常带来严重的歧义与不一致问题,例如相同字符在不同方言中可能对应完全不同的发音。

DiaMoE-TTS 在前端设计中引入了国际音标(IPA)作为统一的输入体系,将所有方言的语音映射到同一音素空间。这种方式消除了跨方言间的差异性,使得模型能够在统一的表征体系下进行训练,保证了建模的一致性与泛化能力。



方言感知 Mixture-of-Experts (MoE) 架构

在声学建模部分,DiaMoE-TTS 设计了方言感知的 Mixture-of-Experts (MoE) 架构。传统的单一建模网络在多方言任务下容易出现「风格平均化」,导致各地方言的特色被弱化。MoE 结构通过引入多个专家网络,让不同的专家专注于学习不同方言的特征;同时,动态门控机制会根据输入 IPA 自动选择最合适的专家路由,从而保证了每种方言的音色和韵律特点得以保留。

为了增强门控的区分能力,我们还加入了方言分类辅助损失,使专家网络在训练时能够更有针对性地建模方言特征。



低资源方言适配 (PEFT)

许多方言面临极端的数据稀缺问题,甚至仅有数小时的录音语料。DiaMoE-TTS 提出了参数高效迁移 (PEFT)策略,分别在 text embedding 层和 DiT 的注意力层中融入了Conditioning AdapterLoRA,仅需微调少量参数即可完成方言扩展,主干与 MoE 模块保持冻结,从而避免对已有知识的遗忘。

此外,研究团队还采用了音高扰动与语速扰动等数据增强手段,即便在超低资源条件下,模型也能合成自然、流畅且风格鲜明的方言语音。

多阶段训练方法

DiaMoE-TTS 的训练过程分为多个阶段,以逐步提升模型性能并适应方言多样性:

  • IPA 迁移初始化

在 F5-TTS 原始 checkpoint 的基础上,引入经过 IPA 音素转换的 Emilia 部分数据,对模型进行预热训练,从而实现输入形式从拼音字符到 IPA 的平滑迁移。

  • 多方言联合训练

在统一 IPA 表达下,利用多个开源方言数据(CommonVoice 和 KeSpeech)进行联合建模,同时激活 MoE 结构,使模型能够学习共享特征并区分不同方言的发音模式。

  • 方言专家强化

通过动态门控机制与方言分类辅助损失,进一步优化 MoE 的分流效果,让各专家更好地捕捉不同方言的独特特征。

  • 低资源快速适配

针对仅有数小时语料的新方言,采用 PEFT 策略(LoRA + Conditioning Adapter),结合音高 / 语速扰动等数据增强,实现高效迁移并保持已有知识不被遗忘。

这种多阶段、渐进式训练的方法,使 DiaMoE-TTS 能够在保证稳定性的同时,兼顾跨方言泛化与低资源适配能力。

研究结果

通过图表可以看到,在训练数据量较为充足(百小时)的粤语上,DiaMoE-TTS 在WER、MOS 和 UTMOS三个指标上均取得了接近工业界语音大模型的表现。而在上海话、成都话、西安话、郑州话、天津话等其他方言(几小时到几十小时不等)的对比实验中,受限于开源方言 ASR 数据在「质量」与「规模」上的不足,模型整体表现略逊于部分工业级大模型。

但值得强调的是,DiaMoE-TTS 支持的方言范围更广,甚至可以扩展到介于语音合成(TTS)与歌声合成之间的特殊类型,如京剧韵白,并能在仅有极少量数据的情况下实现快速建模,这为方言保护与文化传承提供了新的可能性。



在消融实验中,研究团队选择了成都话、西安话、郑州话、石家庄话四种方言,对比了三种不同配置:仅使用 IPA 的版本(w/o MoE)、仅使用 MoE 且输入为拼音的版本(w/o IPA)、以及完整的 IPA + MoE 方法(Ours)。

实验结果表明,IPA 统一前端是性能提升的关键,将输入由拼音替换为 IPA 后,WER 从 90% 以上显著下降到 30%~40% 区间,MOS 评分也提升了 1~2 分。同时,Dialect-aware MoE 架构能够进一步增强方言风格,以西安话为例,WER 从 41.09% 降至 33.00%,MOS 从 2.33 提升到 3.15,表现出明显的改进。

最终,完整方案(MoE + IPA)在所有方言上都取得了最佳效果,不仅显著降低了错误率,也大幅提升了语音的自然度。这充分证明了 IPA 前端在解决跨方言发音歧义方面的有效性,以及 MoE 在强化方言建模上的重要作用,两者结合成为 DiaMoE-TTS 的核心优势。



一句话总结

DiaMoE-TTS = IPA 前端统一化 + MoE 方言建模 + PEFT 低资源适配

在开放数据驱动下,实现低成本、低门槛、可扩展的多方言语音合成方案。

通俗易懂版本:不用海量数据,也不用复杂流程,DiaMoE-TTS 就能让更多方言在数字世界开口说话。

未来展望

DiaMoE-TTS 的全面开源只是一个起点。未来,研究团队将持续扩展更多方言与小语种的语料,完善 IPA 对齐与数据预处理流程,并探索更高效的低资源建模方法,让方言语音合成的研究与应用更加低门槛、更易复现。

同时,研究团队希望这一框架能够让全球的研究者与开发者更便捷地参与到方言与小语种的语音技术研究中,让它们不仅停留在实验室里被探索,更能在教育、文化保护、虚拟人、数字文旅与跨境交流等实际场景中发挥价值。他们相信,方言不应在数字时代被遗忘,每一种语言都值得在数字世界被听见

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
特朗普遭2大暴击,奥巴马火力全开,特朗普高挂“免战牌”

特朗普遭2大暴击,奥巴马火力全开,特朗普高挂“免战牌”

男女那点事儿儿
2025-11-04 06:55:15
王家卫没想到,录音事件后,王传君却因一句“我不喜欢”口碑暴增

王家卫没想到,录音事件后,王传君却因一句“我不喜欢”口碑暴增

妙知
2025-11-03 11:10:13
心梗去世的人飙升 !医生含泪苦劝:无论多大年纪,天冷坚守8大原则

心梗去世的人飙升 !医生含泪苦劝:无论多大年纪,天冷坚守8大原则

今日养生之道
2025-11-04 07:40:02
华人五大世界级科学家,钱老第三,华罗庚未上榜,杨振宁让人意外

华人五大世界级科学家,钱老第三,华罗庚未上榜,杨振宁让人意外

春秋论娱
2025-10-25 07:20:23
怒扇水瓶发泄不满!史诗级神射手遭遇滑铁卢,离开库里后悔了吧

怒扇水瓶发泄不满!史诗级神射手遭遇滑铁卢,离开库里后悔了吧

毒舌NBA
2025-11-03 20:33:11
医生发现:高血压患者若每天吃水煮蛋,不用多久,或会有3个改善

医生发现:高血压患者若每天吃水煮蛋,不用多久,或会有3个改善

今日养生之道
2025-11-03 15:08:17
带小三产检后续:身份被扒,男方躲起来,小三航空公司遭围攻

带小三产检后续:身份被扒,男方躲起来,小三航空公司遭围攻

小李睡不醒了
2025-11-04 07:23:38
别等失去才后悔!72岁老人养老院7年经验:晚年最该攥紧的不是钱

别等失去才后悔!72岁老人养老院7年经验:晚年最该攥紧的不是钱

乐天果果
2025-10-14 21:16:22
郑丽文接棒后,卢秀燕、侯友宜不装了,傅崐萁、陈玉珍振臂一呼!

郑丽文接棒后,卢秀燕、侯友宜不装了,傅崐萁、陈玉珍振臂一呼!

米师傅安装
2025-11-04 00:08:59
百病不离肝!对肝脏最好的3种食物,一周吃2次,养肝护肝,别错过

百病不离肝!对肝脏最好的3种食物,一周吃2次,养肝护肝,别错过

阿龙美食记
2025-10-30 11:53:11
中方出手制止朱拉尼,海湾国家迅速转变立场,叙利亚局势迎来新局面

中方出手制止朱拉尼,海湾国家迅速转变立场,叙利亚局势迎来新局面

起喜电影
2025-11-02 05:16:49
大同女生买淀粉肠被没收钥匙后续:学校调查核实,网友质疑声不断

大同女生买淀粉肠被没收钥匙后续:学校调查核实,网友质疑声不断

鋭娱之乐
2025-11-03 12:45:08
投资遭“强行接管”:民企的县城之殇

投资遭“强行接管”:民企的县城之殇

三人成虎V5
2025-10-31 11:51:58
一觉醒来,中国斯诺克3胜8负!丁俊晖6-1,赵心童过关,2冠军陪跑

一觉醒来,中国斯诺克3胜8负!丁俊晖6-1,赵心童过关,2冠军陪跑

刘姚尧的文字城堡
2025-11-04 06:10:41
“一打开App就没了!”几分钟内抢空,有人抢了18万额度……多家银行调整→

“一打开App就没了!”几分钟内抢空,有人抢了18万额度……多家银行调整→

新浪财经
2025-11-03 19:13:34
千亿梦破碎!从62亿营收到日亏百万,为什么降价认怂也救不了西贝

千亿梦破碎!从62亿营收到日亏百万,为什么降价认怂也救不了西贝

坠入二次元的海洋
2025-10-28 09:11:16
如何避免像墨镜王导演那样被录音,总结了三点给大家

如何避免像墨镜王导演那样被录音,总结了三点给大家

熊太行
2025-11-03 12:43:57
江西男孩名字特殊,警察:你不改名,全国人口信息系统就得改

江西男孩名字特殊,警察:你不改名,全国人口信息系统就得改

纪实录
2024-04-10 20:10:35
晚点独家丨沈阳原上汽通用工厂改造,吉利将借其缓解银河产能压力

晚点独家丨沈阳原上汽通用工厂改造,吉利将借其缓解银河产能压力

晚点LatePost
2025-11-03 16:17:33
照片里最有气质的不是胡兵和刘烨,而是站在中间长得高大帅气的他

照片里最有气质的不是胡兵和刘烨,而是站在中间长得高大帅气的他

老吴教育课堂
2025-11-03 07:49:27
2025-11-04 09:27:00
机器之心Pro incentive-icons
机器之心Pro
专业的人工智能媒体
11635文章数 142497关注度
往期回顾 全部

科技要闻

余承东内部信:鸿蒙下一步要实现上亿覆盖

头条要闻

牛弹琴:想想不对劲德国外长又来电 中方三句话内涵深

头条要闻

牛弹琴:想想不对劲德国外长又来电 中方三句话内涵深

体育要闻

开拓者官宣召回杨瀚森 队记解析核心原因

娱乐要闻

男导演曝丑闻 蒋欣的含金量还在上升

财经要闻

作价40亿美元!星巴克中国易主

汽车要闻

环比增长28.7% 方程豹品牌10月销量31052辆

态度原创

旅游
游戏
房产
时尚
军事航空

旅游要闻

渝见好“村”光|鱼跃盈仓:长寿区长寿湖镇狮子滩社区

StarsWar12线下总决赛开启,一起重温DOTA1热血时刻

房产要闻

信达·繁花里 | 老照片征集活动 温情启幕

无论女人多大年纪,秋天都要准备几件“针织衫”,温柔舒适

军事要闻

美总统威胁对尼日利亚动武 尼方回应

无障碍浏览 进入关怀版