网易首页 > 网易号 > 正文 申请入驻

语音合成开发不再难!Muyan-TTS开源模型,小团队也能快速迭代

0
分享至

始智AI wisemodel.cn开源社区

始智AI wisemodel.cn社区是源自中国的中立开放的AI开源社区。正在,欢迎加入共同成长。wisemodel社区上线,价格实惠,灵活方便,支持在线微调训练模型,及和,并。

TTS(Text-to-speech)并不是AI领域最在聚光灯下的技术,但对应用开发者极为实用,并在过去一年取得了长足的技术进步。不过在音频产品的开发进程中,尽管存在部分表现出色的开源TTS模型,然而这些模型并非完全开源,并且对二次训练和开发存在一定的阻碍。

由此研究团队设计并研发Muyan-TTS,一款低成本、具备良好二次开发支持的模型并完全开源,以方便学术界和小型应用团队的音频技术爱好者。

当前开源的Muyan-TTS版本由于训练数据规模有限,致使其仅对英语语种呈现出良好的支持效果。不过,得益于与之同步开源的详尽训练方法,从事相关行业的开发者能够依据自身实际业务场景,灵活地对Muyan-TTS进行功能升级与定制化改造。Muyan-TTS已上线始智AI-wisemodel开源社区,欢迎大家前去体验。

模型地址

https://www.wisemodel.cn/models/MYZY-AI/Muyan-TTS

01.

Highlights

1. 开源了两个模型:1)在多样化长音频数据集上预训练的基础模型,能实现零样本TTS合成;2)在单一说话人上进行监督微调(SFT)的模型,以此提升TTS性能。

2. 提供了详细的训练方法:提供了从base模型在单一speaker语音数据上微调得到SFT模型的训练方法,也开源了全部的训练代码,以满足开发者对于更深层研究的需求。

3. 提供了优化推理效率的框架:我们开发了一个加速的TTS推理框架,尤其优化LLM组件,能够更快速、更高效生成语音。

4. 英语上具有良好性能的同时推理效率极高:每1s语音生成仅需0.33秒推理时间,为所有开源模型中最快。同时词错率、语音质量评分都处于开源模型的一线水平。

02.

模型设计

Muyan-TTS在建模架构上,延续了GPT-SoVITS的两阶段结构,并作出如下调整:

  • 语言模型部分以Llama-3.2-3B为backbone继续预训练,具备更强的语义建模能力。

  • 解码器部分使用 SoVITS 架构,在大规模高质量长音频数据上进行了微调,提高合成音频表现力与保真度的同时,也保持了稳定性并削弱了因LLM所带来的幻觉。

这样的模型设计在保证合成质量的同时,兼顾了个性化能力和运行效率,适配多种音频内容形式,如主持人旁白、访谈复刻、语音摘要等。

03.

面向长音频的数据处理

为了优化Muyan-TTS在长音频生成场景下的表现,我们构建了超过10万小时的高质量语音及对应转录的训练语料。数据处理采用三阶段流程:

  • 收集与转录:结合开源数据集与自建数据源采集,基于最大化覆盖说话人数和语言的差异性的目标,每个音频被分割成1分钟的片段均匀采样,收集了超过15万小时的原始数据并使用Whisper和Fun ASR进行转录;

  • 音频清洗:引入MSS、DeReverb、DeEcho、Denoise、NeMo等模块,仅保留人声轨道、单speaker、过滤背景噪声与混响、进一步提升语音的清晰度和可理解性;

  • 质量过滤:使用 NISQA 评估每段音频的MOS分数,仅保留MOS>3.8内容。

最终数据集通过 NVIDIA A10 机器完成预处理,总清洗时长约为 60,000 GPU小时。

04.

训练策略与资源成本

我们的训练分为三个阶段:

阶段一:基于清洗的语音-文本平行语料继续预训练大语言模型,获取zero-shot TTS的能力。在80张A100组成的计算集群上训练了约10天。

阶段二:在单一speaker数据上基于base模型SFT,提升特定声音的合成效果。训练成本相比预训练可以忽略不计。

阶段三:SoVITS解码器微调,对高质量长音频片段(MOS>4.5)进行专向训练,强化语音自然度与清晰度。

整个训练过程消耗的资源与成本如下:

05.

实验评测

推理优化与部署适配

针对LLM在推理端的高延迟痛点,Muyan-TTS构建了一套系统性优化方案:一方面,深度集成vLLM推理引擎,充分释放大语言模型的并行计算潜力,显著提升推理效率;另一方面,创新引入动态句长切分与批量处理合成技术,有效减少资源等待时间,增强处理灵活性。

经实测验证,在非流式推理模式下,Muyan-TTS的语音合成效率表现卓越——平均每生成1秒语音仅需0.33秒推理时间,相比同类开源TTS模型具有显著性能优势,为实时语音交互场景提供了更高效的解决方案。

性能对比

在LibriSpeech和SEED两大标准评测集上,我们评估了Muyan-TTS与主流开源TTS模型的性能表现,主要指标涵盖词错率(WER)、语音质量评分(MOS)与说话人相似度(SIM):

同时,在微调(SFT)后,Muyan-TTS在语音质量(MOS)与个性化能力(SIM)方面进一步提升,适配小规模个人语音数据集的声音定制。

生成示例

Base Model

SFT Model

我们相信就像《her》中的Samantha,语音会成为人和AI交互的核心方式,并使每个人都能拥有随时可交流的AI朋友。

Muyan-TTS只是我们在语音技术上一个非常微小的尝试,无论是模型结构、数据制备和训练方法都还有很大的改良空间,我们也期待对语音技术有爱好、愿意深度研究TTS和实时语音交互等领域的朋友能够一起加入这个行列。

编辑:成蕴年

----- END -----

wisemodel相关:

系统升级:

大赛报名:

系列模型:

关于wisemodel更多

1

欢迎持续关注和支持

开源社区建设需要长期坚持和投入,更需要广大用户的积极参与、贡献和维护,欢迎大家加入wisemodel开源社区的志愿者计划和开源共创计划。期待更多开发者将开源成果,包括模型、数据集和代码等发布到 wisemodel.cn 社区,共建中立、开放的AI开源社区生态。欢迎扫码添加wisemodel微信,申请加入wisemodel社群,持续关注wisemodel.cn开源社区动态。

2

欢迎加盟wisemodel开源社区

始智AI wisemodel社区自2023年9月上线以来,逐渐成为影响力日益扩大的中立开放的AI开源社区,为了加快公司发展,我们长期需要技术、运营等人才加盟,技术侧重在AI infra、后端开发,熟悉K8S、模型训练和推理等技术, 以及熟悉开发者生态运营的成员,欢迎感兴趣的朋友加盟,可以通过添加wisemodel微信,或者将简历投递到邮箱:liudaoquan@wisemodel.cn

3

欢迎投稿优质内容

欢迎投稿分享人工智能领域相关的优秀研究成果,鼓励高校实验室、大企业研究团队、个人等,在wisemodel平台上分享各类优质内容,可以是AI领域最新论文解读、最新开源成果介绍,也可以是关于AI技术实践、应用和总结等。投稿可以发邮件到liudaoquan@wisemodel.cn,也可以扫码添加wisemodel微信。

4

关于wisemodel开源社区

始智AI wisemodel.cn开源社区由清华校友总会AI大数据专委会副秘书长刘道全创立,旨在打造和建设中立开放的AI开源创新社区,将打造成“HuggingFace”之外最活跃的AI开源社区,汇聚主要AI开源模型、数据集和代码等,欢迎高校科研院所、大型互联网公司、创新创业企业、广大个人开发者,以及政府部门、学会协会、联盟、基金会等,还有投资机构、科技媒体等,共同参与建设AI开源创新生态。

向上滑动查看

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
赖昌星原配曾明娜现状:独居3000平老宅,做饭养花还直播卖茶叶

赖昌星原配曾明娜现状:独居3000平老宅,做饭养花还直播卖茶叶

阿器谈史
2026-05-05 16:07:50
吴宜泽:奥沙利文在决赛关键时刻给我发短信,让我试着打出自己的风格

吴宜泽:奥沙利文在决赛关键时刻给我发短信,让我试着打出自己的风格

懂球帝
2026-05-05 21:25:07
枇杷大量上市!医生提醒:患这4种疾病的人小心食用,千万别忽视

枇杷大量上市!医生提醒:患这4种疾病的人小心食用,千万别忽视

岐黄传人孙大夫
2026-05-05 18:40:06
央视直播!赛程出炉!16强诞生!这一次,国乒男团已无退路

央视直播!赛程出炉!16强诞生!这一次,国乒男团已无退路

十点街球体育
2026-05-05 10:40:20
冠心病如果没有这3种情况,几乎没有大问题!别自己吓自己

冠心病如果没有这3种情况,几乎没有大问题!别自己吓自己

医路平安
2026-05-05 18:04:46
真相大白!王曼昱零出场不是受伤也不是被弃用,马琳这步棋下得太妙了

真相大白!王曼昱零出场不是受伤也不是被弃用,马琳这步棋下得太妙了

砚底沉香
2026-05-05 21:00:08
即将登场!全新一代宝马X5更多信息,国产长轴距版第四季度发布

即将登场!全新一代宝马X5更多信息,国产长轴距版第四季度发布

音乐时光的娱乐
2026-05-05 20:51:43
30年轮回!恩德里克能逃脱索尼·安德森的“魔咒”吗?

30年轮回!恩德里克能逃脱索尼·安德森的“魔咒”吗?

林子说事
2026-05-05 19:37:20
泽连斯基反将一军:无人机或参加胜利日阅兵!莫斯科可能会断网

泽连斯基反将一军:无人机或参加胜利日阅兵!莫斯科可能会断网

鹰眼Defence
2026-05-05 17:24:35
新款奔驰 GLS 国内谍照曝光!网友吐槽:这波韭菜割不动了

新款奔驰 GLS 国内谍照曝光!网友吐槽:这波韭菜割不动了

汽车网评
2026-05-04 21:59:39
男人只要不沉迷于色欲,就不会对女人精虫上脑,从而对女人祛魅

男人只要不沉迷于色欲,就不会对女人精虫上脑,从而对女人祛魅

加油丁小文
2026-04-18 13:30:08
噩耗传来:为中国培养100位院士的大人物,被逼惨死!

噩耗传来:为中国培养100位院士的大人物,被逼惨死!

华人星光
2026-05-05 09:57:06
2026年这5个行业,竟已发不出工资!形势真的很严峻了

2026年这5个行业,竟已发不出工资!形势真的很严峻了

细说职场
2026-04-26 16:52:27
4-1!韩鹏命太硬了!克雷桑太凶了 申花进入低谷期,两将难堪大任

4-1!韩鹏命太硬了!克雷桑太凶了 申花进入低谷期,两将难堪大任

刀锋体育
2026-05-05 21:38:00
大批“宇航员”排队打卡内蒙乌兰哈达火山,景区:内部环境似火星地表,牧民提供“宇航服”出租服务,休眠火山很安全

大批“宇航员”排队打卡内蒙乌兰哈达火山,景区:内部环境似火星地表,牧民提供“宇航服”出租服务,休眠火山很安全

极目新闻
2026-05-04 16:07:52
伦敦世乒赛战报:16强诞生8席!蒯曼意外折戟,张本智和再成笑柄

伦敦世乒赛战报:16强诞生8席!蒯曼意外折戟,张本智和再成笑柄

做一个合格的吃瓜群众
2026-05-05 17:35:55
女子啃老10年,自尽后老母亲收拾房间发现银行卡,查看余额后崩溃

女子啃老10年,自尽后老母亲收拾房间发现银行卡,查看余额后崩溃

白云故事
2025-03-17 07:55:10
CBA官方:对太原赛区、山西汾酒俱乐部进行书面警告

CBA官方:对太原赛区、山西汾酒俱乐部进行书面警告

懂球帝
2026-05-05 12:16:04
仅两艘商船通过海峡!击沉6艘伊朗快艇,“铁穹”击落3枚导弹

仅两艘商船通过海峡!击沉6艘伊朗快艇,“铁穹”击落3枚导弹

鹰眼Defence
2026-05-05 17:17:02
2020年,长沙女子癌症晚期,争夺女儿40万学费,直言:我只想活着

2020年,长沙女子癌症晚期,争夺女儿40万学费,直言:我只想活着

大鱼简科
2026-04-06 11:33:07
2026-05-05 22:03:00
wisemodel开源社区 incentive-icons
wisemodel开源社区
始智AI wisemodel.cn开源社区,打造中国版“huggingface”
475文章数 16关注度
往期回顾 全部

科技要闻

传苹果考虑让英特尔、三星代工设备处理器

头条要闻

伊朗被问"为何不向美国让步" 一句话让美国笑不出来

头条要闻

伊朗被问"为何不向美国让步" 一句话让美国笑不出来

体育要闻

全世界都等着看他笑话,他带国米拿下冠军

娱乐要闻

内娱真情谊!杨紫为谢娜演唱会送花篮

财经要闻

浏阳烟花往事

汽车要闻

同比大涨190% 方程豹4月销量29138台

态度原创

健康
教育
时尚
手机
房产

干细胞治烧烫伤面临这些“瓶颈”

教育要闻

网络直播 《开学第一课·以英烈之名》

女人会不会穿衣区别很大,记住这“三要三不”原则,得体大方

手机要闻

华为Mate XT2首发麒麟9050:最强三折叠蓄势待发

房产要闻

五一楼市彻底明牌!塔尖人群都在重仓凯旋新世界

无障碍浏览 进入关怀版