网易首页 > 网易号 > 正文 申请入驻

清华&巨人网络打破数据壁垒,首创MoE多方言TTS框架

0
分享至


始智AI wisemodel.cn社区是源自中国的中立开放的AI开源社区。正在,欢迎加入共同成长。wisemodel推出邀请注册奖励活动,最高可得算力券+token包380元奖励,欢迎参与和支持!

无论是中文的粤语、闽南话、吴语,还是欧洲的荷兰比尔茨语方言、法国奥克语,亦或是非洲和南美的地方语言,方言都承载着独特的音系与文化记忆,是人类语言多样性的重要组成部分。然而,许多方言正在快速消失,语音技术如果不能覆盖这些语言,势必加剧数字鸿沟与文化失声。

在当今大模型引领的语音合成时代,通用 TTS 系统已展现出令人惊叹的能力,但方言 TTS 依然是相关从业者难以触及的「灰色地带」。现有的工业级模型往往依赖巨量专有数据,这让方言 TTS 从业者和研究者几乎无从下手:缺乏统一的语料构建方法,更缺乏一个可实现多语言的端到端开源框架。

为此,来自巨人网络 AI Lab 与清华大学电子工程系 SATLab的研究团队联合首创了DiaMoe-TTS,一个在一定程度上媲美工业级方言 TTS 模型的开源全套解决方案。他们基于语言学家的专业经验,构建了一个统一的 IPA 表达体系,并且在仅依赖开源方言 ASR 数据的前提下提出这一方案。

在推出中文方言版本之前,研究团队已在英语、法语、德语、荷兰比尔茨语等多语种场景中进行过验证,确保该方法具备全球范围内多语言的可扩展性与稳健性。DiaMoe-TTS已上线始智AI-wisemodel开源社区,欢迎大家前去体验。


模型、数据集和代码地址

https://wisemodel.cn/organization/Giant_AILab


DiaMoE-TTS 不仅仅是一个单点模型,而是一个面向学术界与开源社区的全链路贡献:

  • 全开源的数据预处理流程:让研究者能够从原始方言语音数据构建 TTS-ready 方言语音语料;

  • 统一的 IPA 标注与对齐方法:解决跨方言建模的一致性问题;

  • 完整的训练与推理代码:降低复现与扩展的门槛;

  • 方言感知 MoE 架构与低资源适配策略:为研究者提供稳定、灵活且可拓展的建模方法。

巨人网络 AI Lab 与清华大学电子工程系 SATLab 希望借此推动方言语音合成的公平与普惠:让任何研究者、开发者乃至语言文化保护工作者都能自由使用、改进与扩展这一框架;让小众语言与方言的声音不再被淹没在通用大模型的洪流中,而能通过开源的力量被更广泛地听见与传承。

01.

生成demo

成都话:祝福大家前程似锦,顺水顺风。

郑州话:祝你前途大好,成就非凡!

石家庄话:好的开始,等于成功的一半儿。

西安话:祝愿大家前程似锦,梦想成真。

粤语:我系钟意广州嘅春天。

02.

模型设计


统一IPA前端

在多方言语音合成中,使用拼音或字符输入常常带来严重的歧义与不一致问题,例如相同字符在不同方言中可能对应完全不同的发音。

DiaMoE-TTS 在前端设计中引入了国际音标(IPA)作为统一的输入体系,将所有方言的语音映射到同一音素空间。这种方式消除了跨方言间的差异性,使得模型能够在统一的表征体系下进行训练,保证了建模的一致性与泛化能力。



方言感知Mixture-of-Experts(MoE)架构

在声学建模部分,DiaMoE-TTS 设计了方言感知的 Mixture-of-Experts (MoE) 架构。传统的单一建模网络在多方言任务下容易出现「风格平均化」,导致各地方言的特色被弱化。MoE 结构通过引入多个专家网络,让不同的专家专注于学习不同方言的特征;同时,动态门控机制会根据输入 IPA 自动选择最合适的专家路由,从而保证了每种方言的音色和韵律特点得以保留。

为了增强门控的区分能力,我们还加入了方言分类辅助损失,使专家网络在训练时能够更有针对性地建模方言特征。



低资源方言适配(PEFT)

许多方言面临极端的数据稀缺问题,甚至仅有数小时的录音语料。DiaMoE-TTS 提出了参数高效迁移 (PEFT) 策略,分别在 text embedding 层和 DiT 的注意力层中融入了Conditioning Adapter 与 LoRA,仅需微调少量参数即可完成方言扩展,主干与 MoE 模块保持冻结,从而避免对已有知识的遗忘。

此外,研究团队还采用了音高扰动与语速扰动等数据增强手段,即便在超低资源条件下,模型也能合成自然、流畅且风格鲜明的方言语音。


多阶段训练方法

DiaMoE-TTS 的训练过程分为多个阶段,以逐步提升模型性能并适应方言多样性:


  • IPA 迁移初始化


在 F5-TTS 原始 checkpoint 的基础上,引入经过 IPA 音素转换的 Emilia 部分数据,对模型进行预热训练,从而实现输入形式从拼音字符到 IPA 的平滑迁移。


  • 多方言联合训练

在统一 IPA 表达下,利用多个开源方言数据(CommonVoice 和 KeSpeech)进行联合建模,同时激活 MoE 结构,使模型能够学习共享特征并区分不同方言的发音模式。

  • 方言专家强化


通过动态门控机制与方言分类辅助损失,进一步优化 MoE 的分流效果,让各专家更好地捕捉不同方言的独特特征。


  • 低资源快速适配

针对仅有数小时语料的新方言,采用 PEFT 策略(LoRA + Conditioning Adapter),结合音高 / 语速扰动等数据增强,实现高效迁移并保持已有知识不被遗忘。

这种多阶段、渐进式训练的方法,使 DiaMoE-TTS 能够在保证稳定性的同时,兼顾跨方言泛化与低资源适配能力。

03.

研究成果

通过图表可以看到,在训练数据量较为充足(百小时)的粤语上,DiaMoE-TTS 在WER、MOS 和 UTMOS三个指标上均取得了接近工业界语音大模型的表现。而在上海话、成都话、西安话、郑州话、天津话等其他方言(几小时到几十小时不等)的对比实验中,受限于开源方言 ASR 数据在「质量」与「规模」上的不足,模型整体表现略逊于部分工业级大模型。

但值得强调的是,DiaMoE-TTS 支持的方言范围更广,甚至可以扩展到介于语音合成(TTS)与歌声合成之间的特殊类型,如京剧韵白,并能在仅有极少量数据的情况下实现快速建模,这为方言保护与文化传承提供了新的可能性。


在消融实验中,研究团队选择了成都话、西安话、郑州话、石家庄话四种方言,对比了三种不同配置:仅使用 IPA 的版本(w/o MoE)、仅使用 MoE 且输入为拼音的版本(w/o IPA)、以及完整的 IPA + MoE 方法(Ours)。

实验结果表明,IPA 统一前端是性能提升的关键,将输入由拼音替换为 IPA 后,WER 从 90% 以上显著下降到 30%~40% 区间,MOS 评分也提升了 1~2 分。同时,Dialect-aware MoE 架构能够进一步增强方言风格,以西安话为例,WER 从 41.09% 降至 33.00%,MOS 从 2.33 提升到 3.15,表现出明显的改进。

最终,完整方案(MoE + IPA)在所有方言上都取得了最佳效果,不仅显著降低了错误率,也大幅提升了语音的自然度。这充分证明了 IPA 前端在解决跨方言发音歧义方面的有效性,以及 MoE 在强化方言建模上的重要作用,两者结合成为 DiaMoE-TTS 的核心优势。



一句话总结

DiaMoE-TTS = IPA 前端统一化 + MoE 方言建模 + PEFT 低资源适配

在开放数据驱动下,实现低成本、低门槛、可扩展的多方言语音合成方案。

通俗易懂版本:不用海量数据,也不用复杂流程,DiaMoE-TTS 就能让更多方言在数字世界开口说话。

DiaMoE-TTS 的全面开源只是一个起点。未来,研究团队将持续扩展更多方言与小语种的语料,完善 IPA 对齐与数据预处理流程,并探索更高效的低资源建模方法,让方言语音合成的研究与应用更加低门槛、更易复现。

同时,研究团队希望这一框架能够让全球的研究者与开发者更便捷地参与到方言与小语种的语音技术研究中,让它们不仅停留在实验室里被探索,更能在教育、文化保护、虚拟人、数字文旅与跨境交流等实际场景中发挥价值。他们相信,方言不应在数字时代被遗忘,每一种语言都值得在数字世界被听见。

编辑:成蕴年

----- END -----

wisemodel相关:

系列模型:

关于wisemodel更多

1

欢迎持续关注和支持

开源社区建设需要长期坚持和投入,更需要广大用户的积极参与、贡献和维护,欢迎大家加入wisemodel开源社区的志愿者计划和开源共创计划。期待更多开发者将开源成果,包括模型、数据集和代码等发布到 wisemodel.cn 社区,共建中立、开放的AI开源社区生态。欢迎扫码添加wisemodel微信,申请加入wisemodel社群,持续关注wisemodel.cn开源社区动态。

2

欢迎加盟wisemodel开源社区

始智AI wisemodel社区自2023年9月上线以来,逐渐成为影响力日益扩大的中立开放的AI开源社区,为了加快公司发展,我们长期需要技术、运营等人才加盟,技术侧重在AI infra、后端开发,熟悉K8S、模型训练和推理等技术, 以及熟悉开发者生态运营的成员,欢迎感兴趣的朋友加盟,可以通过添加wisemodel微信,或者将简历投递到邮箱:liudaoquan@wisemodel.cn

3

欢迎投稿优质内容

欢迎投稿分享人工智能领域相关的优秀研究成果,鼓励高校实验室、大企业研究团队、个人等,在wisemodel平台上分享各类优质内容,可以是AI领域最新论文解读、最新开源成果介绍,也可以是关于AI技术实践、应用和总结等。投稿可以发邮件到liudaoquan@wisemodel.cn,也可以扫码添加wisemodel微信。

4

关于wisemodel开源社区

始智AI wisemodel.cn开源社区由清华校友总会AI大数据专委会副秘书长刘道全创立,旨在打造和建设中立开放的AI开源创新社区,将打造成“HuggingFace”之外最活跃的AI开源社区,汇聚主要AI开源模型、数据集和代码等,欢迎高校科研院所、大型互联网公司、创新创业企业、广大个人开发者,以及政府部门、学会协会、联盟、基金会等,还有投资机构、科技媒体等,共同参与建设AI开源创新生态。

向上滑动查看

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
建国初期,王海容到中南海做客,一见江青直接喊了句:三奶奶

建国初期,王海容到中南海做客,一见江青直接喊了句:三奶奶

雍亲王府
2025-10-31 15:00:03
心疼!程潇整容失败?音乐节脸肿成发面馒头,真相曝光网友集体道歉

心疼!程潇整容失败?音乐节脸肿成发面馒头,真相曝光网友集体道歉

八星人
2025-11-01 16:02:09
辛纳罕见情绪失控,爆粗怒吼团队:你们他X的坐在那里!

辛纳罕见情绪失控,爆粗怒吼团队:你们他X的坐在那里!

网球之家
2025-11-01 22:48:23
辽宁选美冠军张倩火了,因为她揭开了选美比赛的内幕

辽宁选美冠军张倩火了,因为她揭开了选美比赛的内幕

清书先生
2025-10-28 16:03:01
建国初,列强要求中国承认数亿两白银的欠单,主席大手一挥:不还

建国初,列强要求中国承认数亿两白银的欠单,主席大手一挥:不还

南书房
2025-10-01 20:17:58
松岛辉空大胜张禹珍,打进男单决赛,王艺迪成为夺冠热门

松岛辉空大胜张禹珍,打进男单决赛,王艺迪成为夺冠热门

子水体娱
2025-11-02 20:54:50
果然不出中国大陆所料:48小时内,台当局的两大帮手都浮出了水面

果然不出中国大陆所料:48小时内,台当局的两大帮手都浮出了水面

爱史纪
2025-11-02 11:23:34
郑丽文上任首日,洪秀柱提出统一建议,盼其赴陆完成连战未尽事业

郑丽文上任首日,洪秀柱提出统一建议,盼其赴陆完成连战未尽事业

军机Talk
2025-11-01 11:48:36
陕西新郎跳河原因基本理清:婚礼前3天就开始吵,不止是钱的问题

陕西新郎跳河原因基本理清:婚礼前3天就开始吵,不止是钱的问题

热风追逐者
2025-10-19 21:18:09
物理学第九禁忌:你看到的黑夜,根本就不该存在!

物理学第九禁忌:你看到的黑夜,根本就不该存在!

徐德文科学频道
2025-11-01 15:52:03
太子集团黑料越扒越多,国内媒体集体翻车,历史文章已经下架!

太子集团黑料越扒越多,国内媒体集体翻车,历史文章已经下架!

眼光很亮
2025-10-22 15:15:24
在钓鱼岛问题上,中国对待日本的态度出现了明显的变化

在钓鱼岛问题上,中国对待日本的态度出现了明显的变化

窥史
2025-10-23 21:01:43
“要签长协得先给钱” 六氟磷酸锂暴涨

“要签长协得先给钱” 六氟磷酸锂暴涨

中国能源网
2025-11-02 21:29:11
浙江省民宗委党组成员毛秋红调任浙江工商大学副校长

浙江省民宗委党组成员毛秋红调任浙江工商大学副校长

澎湃新闻
2025-11-02 10:08:36
出差前我关了水闸,楼下邻居却投诉我家漏水,撬开门后我大吃一惊

出差前我关了水闸,楼下邻居却投诉我家漏水,撬开门后我大吃一惊

黄小乖的日记
2025-11-02 14:00:21
学医后才明白,增强骨密度最好的运动,不是散步游泳,而是这个

学医后才明白,增强骨密度最好的运动,不是散步游泳,而是这个

周哥一影视
2025-10-23 12:39:17
四川7名干部履新厅级领导职务

四川7名干部履新厅级领导职务

金台资讯
2025-11-02 16:33:43
俄罗斯调集大军猛攻乌克兰红军城,为什么是红军城?

俄罗斯调集大军猛攻乌克兰红军城,为什么是红军城?

小彭的灿烂笔记1
2025-11-02 20:50:16
胡老师:承认被反噬,家里堆积如山,真实情况场面壮观网友:可怕

胡老师:承认被反噬,家里堆积如山,真实情况场面壮观网友:可怕

霁寒飘雪
2025-10-29 09:26:58
医保新规来袭,6种费用取消特殊待遇!与你有关,速看详情

医保新规来袭,6种费用取消特殊待遇!与你有关,速看详情

慧眼看世界哈哈
2025-11-01 10:49:30
2025-11-02 22:12:49
wisemodel开源社区 incentive-icons
wisemodel开源社区
始智AI wisemodel.cn开源社区,打造中国版“huggingface”
395文章数 13关注度
往期回顾 全部

科技要闻

10月零跑突破7万辆,小鹏、蔚来超4万辆

头条要闻

女护士遭前男友杀害 家属:她曾夜里求助称差点被掐死

头条要闻

女护士遭前男友杀害 家属:她曾夜里求助称差点被掐死

体育要闻

这个日本人,凭啥值3.25亿美元?

娱乐要闻

陈道明被王家卫说他是阴阳同体的极品

财经要闻

段永平捐了1500万元茅台股票!本人回应

汽车要闻

神龙汽车推出“发动机终身质保”政策

态度原创

手机
教育
本地
时尚
艺术

手机要闻

古尔曼谈苹果2026年路线图:智能家居设备、折叠手机及AI战略升级

教育要闻

十年把亲生孩子熬成抑郁症,现在好多家长在往这个方向推

本地新闻

全网围观,到底多少人被这个野人大学生笑疯了

最近很火的发型,原来这么简单!

艺术要闻

Rob van Hoek:荷兰浪漫田园风光画家

无障碍浏览 进入关怀版