网易首页 > 网易号 > 正文 申请入驻

新开源文本转语音模型IndexTTS-2.0标志零样本TTS进入双维度时代

0
分享至



最近在 B 站上,你是否也刷到过一些 “魔性” 又神奇的 AI 视频?比如英文版《甄嬛传》、坦克飞天、曹操大战孙悟空…… 这些作品不仅完美复现了原角色的音色,连情感和韵律都做到了高度还原!更让人惊讶的是,它们居然全都是靠 AI 生成的!









据悉,这些视频都是运用了哔哩哔哩 Index 团队最新开源的文本转语音模型 IndexTTS-2.0, 这一模型从 demo 发布起,就在海内外社区引发了不少的关注。目前该工作在 Github 已超过 10k stars 。







  • 论文标题:IndexTTS2: A Breakthrough in Emotionally Expressive and Duration-Controlled Auto-Regressive Zero-Shot Text-to-Speech
  • 论文链接:https://arxiv.org/abs/2506.21619
  • github 链接:https://github.com/index-tts/index-tts
  • 魔搭体验页:https://modelscope.cn/studios/IndexTeam/IndexTTS-2-Demo
  • HuggingFace 体验页:https://huggingface.co/spaces/IndexTeam/IndexTTS-2-Demo
  • 官宣视频:https://www.bilibili.com/video/BV136a9zqEk5/

近年来,大规模文本转语音(Text-to-Speech, TTS)模型在自然度和表现力上取得了显著进展,但如何让语音「在韵律自然的同时,又能严格对齐时长」仍是悬而未决的难题。传统自回归(Autoregressive, AR)模型虽然在韵律自然性和风格迁移上占优,却难以做到精准时长控制;而非自回归(Non-Autoregressive, NAR)方法虽能轻松操纵时长,却往往牺牲了语音的自然感和情绪表现力。如何在保留 AR 模型优势的同时,突破其核心限制,成为了前沿挑战。

来自哔哩哔哩的 IndexTTS 团队创新性地提出了一种通用于 AR 系统的 “时间编码” 机制,首次解决了传统 AR 模型难以精确控制语音时长的问题。这一新颖的架构设计不仅解决了时长控制问题,更引入了音色与情感的解耦建模,实现了前所未有的情感表现力和灵活控制,在多个指标上全面超越现有 SOTA 系统。

研究方法

IndexTTS2 由三个核心模块组成:Text-to-Semantic(T2S) 、Semantic-to-Mel(S2M) 以及 BigVGANv2 声码器。首先,T2S 模块基于输入的源文本、风格提示、音色提示以及一个可选的目标语音 token 数,生成对应的语义 token 序列。然后,S2M 模块以语义 token 和音色提示作为输入,进一步预测出梅尔频谱图。最后,BigVGANv2 声码器将梅尔频谱图转换为高质量的语音波形,完成端到端的语音合成过程。

IndexTTS2 可以在零样本条件下生成自然流畅的多情感、跨语言语音。它还支持在自回归框架下精确控制语音时长,让合成既可控又不失自然。同时具备工业级性能,既适合研究探索,也能直接应用到实际场景中。



1、基于 AR 架构的时长控制

在 IndexTTS2 中,针对自回归 (AR) TTS 难以精确控制语音时长的问题,提出了基于 token 数量约束 的解决方案。核心思路是:在生成时可以指定所需的语义 token 数,模型通过一个专门的时长 embedding 将这个信息注入到 Text-to-Semantic 模块,通过对合成 token 的数量强约束来实现生成语音时长控制。训练阶段随机引入不同比例的信号层时长缩放 (如 0.75×、1.25×) 任务,使模型可以学会在各种长度要求下仍然保持语义连贯和情感自然。

实验表明,这种方法在不同语言(中 / 英)上的 token-number error rate 非常低,即模型几乎能严格按照指定的 token 数量生成语音,同时在合成质量、情感保真度和自然度上保持较好表现。换句话说,IndexTTS2 实现了在 AR 模型中罕见的高精度时长控制,使其既能保持逐帧生成带来的细腻表达,又能满足视频配音、音画同步等对时长严格敏感的场景需求。



2、多模态的情绪控制

IndexTTS2 对情感表达和说话人身份进行了有效解耦。模型不仅支持从单一参考音频中复刻音色与情感,还支持分别指定独立的音色参考和情感参考。这意味着用户可以用一个人的音色,说出另一个人的情感,极大地提升了控制的灵活性。

为了降低使用门槛,模型集成了两种情感控制方式。除了通过音频参考进行情感迁移,还引入了基于自然语言描述的情感软指令机制。通过微调大型语言模型(LLM),用户可以使用文本(如自然语言描述、场景描述)来精确引导生成语音的情绪色彩。

3、S2M 模块

为了提升在高强度情感(如哭腔、怒吼)下的语音清晰度,模型引入了 GPT 式潜在表征,并采用基于流匹配(Flow Matching)的 S2M 模块,显著增强了语音生成的鲁棒性和梅尔频谱图的重建质量。



研究结果

1、时长控制的准确性

IndexTTS2 在时长控制方面展现了极高的精确度。在对原始语音时长进行 0.75 倍至 1.25 倍的变速测试中,生成语音的 Token 数量误差率几乎不超过 0.03%,在多数情况下低于 0.02%,证明其时长控制能力精准可靠。



Table 1:不同设置下对持续时长控制的 token 数错误率

2、情感表现力

在情感表现力测试中,IndexTTS2 显著优于其他 SOTA 模型。其情感相似度(ES)高达 0.887,情感 MOS(EMOS)评分达到 4.22,合成的语音情绪饱满、渲染自然,同时保持了极低的词错误率(WER, 1.883%),实现了表现力与清晰度的完美结合。



Table 2:在情感测试集上的结果

3、零样本语音合成能力

在多个公开基准测试集(如 LibriSpeech, SeedTTS)上,IndexTTS2 在客观指标(词错误率 WER、说话人相似度 SS)和主观 MOS 评分(音色、韵律、质量)上均达到或超越了当前最先进的开源模型,包括 MaskGCT, F5-TTS, CosyVoice2 等,展现了其强大的基础合成能力和鲁棒性。



Table 3:在公开测试集上的结果

4、消融实验验证

实验证明,模型中的 GPT 潜在特征对于保证语音清晰度和发音准确性至关重要;而基于流匹配的 S2M 模块相比于传统的离散声学 Token 方案,极大地提升了合成语音的保真度和自然度。

生成效果

语速控制:支持自定义输入合成时长,精准控制语速

音色克隆:同时参考音色和情绪韵律,实现语音特征的高度还原



合成文本:你就需要我这种专业人士的帮助,就像手无缚鸡之力的人进入雪山狩猎,一定需要最老练的猎人指导



多元化的情绪输入:提供独立的情感参考音频、情感向量或文本描述等多种方式,显著提升生成语音的表现力与适用性

  • 独立参考音频控制:



合成文本:你看看你,对我还有没有一点父子之间的信任了。



情绪向量控制:提供高兴、生气、悲伤、恐惧、讨厌、低落、惊喜、平静 8 种情绪向量,支持自由调整情绪权重,并提供随机采样



情绪向量 - 惊喜 0.45

合成文本:哇塞!这个爆率也太高了!欧皇附体了!



描述文本控制:还支持通过自然语言描述来判断情绪



情绪文本 - You scared me to death! What are you, a ghost?

文本:快躲起来!是他要来了!他要来抓我们了!



跨语种:支持中英文双语

合成文本:Translate for me,what is a surprise!



该模型凭借高质量的情感还原与精准的时长控制,广泛提升了 AI 配音、视频翻译、有声读物、动态漫画、语音对话等系列下游场景的可用性,尤其值得关注的是,IndexTTS-2.0 为 B 站优质内容的出海提供了关键技术支持,在充分保留原声风格与情感特质的基础上,让海外用户享受更加自然、沉浸的听觉感受。这一技术突破不仅极大降低了高质量内容跨语言传播的门槛,也为 AIGC 技术在全球范围内的实际应用奠定了坚实基础,堪称零样本 TTS 技术迈向实用化阶段的重要里程碑。



总结

IndexTTS2 的提出标志着零样本 TTS 进入「情感可控 + 时长精确」的双维度时代。它不仅大幅提升了 AI 配音、视频翻译等多种下游场景的可用性,同时,也为未来语音合成技术的发展指明了重要方向:如何在 AR 框架下实现对情感、语调等更复杂语音特征的细粒度控制,并持续优化模型性能,为更广泛的交互式应用提供支持。

研究团队现已开放模型权重与代码,这意味着更多开发者和研究人员能够基于 IndexTTS2 构建个性化、沉浸式的语音交互应用。

作者介绍:

本论文主要作者来自哔哩哔哩 Index 语音团队(Bilibili IndexTTS),Index语音团队是一支专注于音频技术创新的研究团队,致力于音频生成、语音合成与音乐技术的前沿探索,重点研究高保真、自然真实、可控性强的语音生成模型。团队推出的全新一代 zero-shot TTS 自回归大模型 IndexTTS2,具备出色的情感表现力,支持音色与情感的自由组合,并创新性地设计了“时长编码”,实现了模型层面的精准时长控制。团队通过深度学习与神经网络技术的不断突破,持续为学术界与工业界提供高质量的语音合成技术支持与创新方案,助力创作者用声音打破表达边界。

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
苏丹一地发生屠城,血迹太空可见

苏丹一地发生屠城,血迹太空可见

大风新闻
2025-11-16 16:06:05
八路军和新四军那么厉害,为何不去打淞沪会战?

八路军和新四军那么厉害,为何不去打淞沪会战?

《中国国家历史》
2025-11-14 22:31:25
随着王曼昱4-2逆转孙颖莎,产生三大意想不到:连续2届全运会夺金

随着王曼昱4-2逆转孙颖莎,产生三大意想不到:连续2届全运会夺金

侃球熊弟
2025-11-16 23:14:40
昨晚的新闻联播,怎么看得我热泪盈眶?

昨晚的新闻联播,怎么看得我热泪盈眶?

小椰的奶奶
2025-11-16 10:09:37
他们放假了,连着共5天!迪士尼、九寨沟门票售罄,旅游从业者:流量大到出乎预料

他们放假了,连着共5天!迪士尼、九寨沟门票售罄,旅游从业者:流量大到出乎预料

每日经济新闻
2025-11-16 20:35:12
大结局要来了?泽连斯基,下命令了!

大结局要来了?泽连斯基,下命令了!

大嘴说天下
2025-11-15 21:36:57
网红“橙子姐姐”被曝在柬埔寨与亲友失联超48h,其男友“龙哥”电话停机并同步失联

网红“橙子姐姐”被曝在柬埔寨与亲友失联超48h,其男友“龙哥”电话停机并同步失联

观威海
2025-11-16 10:06:03
大反转!高市早苗怎么都没想到:踩她最狠的不是中国,而是特朗普

大反转!高市早苗怎么都没想到:踩她最狠的不是中国,而是特朗普

冷眼看世界728
2025-11-15 14:57:18
央媒:“迎头痛击”有多痛?日本该睁眼看清楚了!

央媒:“迎头痛击”有多痛?日本该睁眼看清楚了!

澎湃新闻
2025-11-16 17:01:02
判了!连环性侵惯犯被判终身监禁!中国籍男子下药侵犯+偷拍12名女性,受害者或达数百人。

判了!连环性侵惯犯被判终身监禁!中国籍男子下药侵犯+偷拍12名女性,受害者或达数百人。

贴小君
2025-11-16 07:09:49
局势再升级!日方召见我驻日大使,高市早苗危言要“核武力介入”

局势再升级!日方召见我驻日大使,高市早苗危言要“核武力介入”

云鹏叙事
2025-11-15 13:09:29
经济形势有可能超乎我们的想象

经济形势有可能超乎我们的想象

经济学教授V
2025-11-16 18:05:56
中国外交部正告全球:日本领土仅限四岛,琉球群岛终将恢复独立!

中国外交部正告全球:日本领土仅限四岛,琉球群岛终将恢复独立!

阿龙聊军事
2025-11-16 20:45:09
福特总裁:美国制造业人才短缺,如果战争来临谷歌造不出飞机大炮

福特总裁:美国制造业人才短缺,如果战争来临谷歌造不出飞机大炮

爆角追踪
2025-11-16 12:29:56
日本议员:受降的是中华民国,新中国没资格说话!网友:那更好了

日本议员:受降的是中华民国,新中国没资格说话!网友:那更好了

青青子衿
2025-11-15 15:51:35
马英九、洪秀柱发声:关你日本人什么事?

马英九、洪秀柱发声:关你日本人什么事?

澎湃新闻
2025-11-16 00:09:03
香港失业率创过去3年新高!失业人数已超15万,或将继续恶化

香港失业率创过去3年新高!失业人数已超15万,或将继续恶化

港港地
2025-11-02 15:25:41
中国地铁,开始“断供”了!多地地铁申报被拒,债务风险亮红灯

中国地铁,开始“断供”了!多地地铁申报被拒,债务风险亮红灯

青梅侃史啊
2025-11-15 19:43:15
糗大了!中国游客大白天在韩国王宫墙边脱裤拉屎,震惊社会

糗大了!中国游客大白天在韩国王宫墙边脱裤拉屎,震惊社会

深度报
2025-11-15 21:51:37
社评:中国公民需谨慎前往日本的四个原因

社评:中国公民需谨慎前往日本的四个原因

环球网资讯
2025-11-17 00:03:43
2025-11-17 02:36:49
机器之心Pro incentive-icons
机器之心Pro
专业的人工智能媒体
11720文章数 142505关注度
往期回顾 全部

科技要闻

雷军,怒了!刚刚连发多条微博

头条要闻

中国公民需谨慎前往日本 四大原因披露

头条要闻

中国公民需谨慎前往日本 四大原因披露

体育要闻

最佳新秀候选!2028美国男篮有他一个位置

娱乐要闻

CEO爆料肖战《藏海传》狂赚几十亿!

财经要闻

房源暗中调价 央企举报广州国资房企

汽车要闻

"冰彩沙"全配齐 红旗HS6 PHEV预售17.88万起

态度原创

教育
房产
艺术
游戏
军事航空

教育要闻

妈妈晒高二儿子吃宵夜,女网友眼睛看直了:这颜值,小姑娘遭殃了

房产要闻

首开狂卖6.68亿!海口这个顶级教育红盘,引爆海口楼市!

艺术要闻

这些获奖摄影作品,简直让人目不暇接!

《纪元117:罗马和平》多人游戏问题大 育碧承诺修复

军事要闻

海军四川舰顺利完成首次航行试验

无障碍浏览 进入关怀版