网易首页 > 网易号 > 正文 申请入驻

B站用AI整的这个活儿太魔性了,已开源!

0
分享至

最近在 B 站上,你是否也刷到过一些 “魔性” 又神奇的 AI 视频?比如英文版《甄嬛传》、坦克飞天、曹操大战孙悟空…… 这些作品不仅完美复现了原角色的音色,连情感和韵律都做到了高度还原!更让人惊讶的是,它们居然全都是靠 AI 生成的!


英文版
甄嬛传他来


让坦克飞


B 站开源 index-tts-2.0 长视频测试,效果真的强,曹操大战孙悟空


如果让 AI 开中文苹果发布会,indextts2 效果展示

据悉,这些视频都是运用了哔哩哔哩 Index 团队最新开源的文本转语音模型 IndexTTS-2.0, 这一模型从 demo 发布起,就在海内外社区引发了不少的关注。目前该工作在 Github 已超过 10k stars 。




  • 论文标题:IndexTTS2: A Breakthrough in Emotionally Expressive and Duration-Controlled Auto-Regressive Zero-Shot Text-to-Speech

  • 论文链接:https://arxiv.org/abs/2506.21619

  • github 链接:https://github.com/index-tts/index-tts

  • 魔搭体验页:https://modelscope.cn/studios/IndexTeam/IndexTTS-2-Demo

  • HuggingFace 体验页:https://huggingface.co/spaces/IndexTeam/IndexTTS-2-Demo

  • 官宣视频:https://www.bilibili.com/video/BV136a9zqEk5/

近年来,大规模文本转语音(Text-to-Speech, TTS)模型在自然度和表现力上取得了显著进展,但如何让语音「在韵律自然的同时,又能严格对齐时长」仍是悬而未决的难题。传统自回归(Autoregressive, AR)模型虽然在韵律自然性和风格迁移上占优,却难以做到精准时长控制;而非自回归(Non-Autoregressive, NAR)方法虽能轻松操纵时长,却往往牺牲了语音的自然感和情绪表现力。如何在保留 AR 模型优势的同时,突破其核心限制,成为了前沿挑战。

来自哔哩哔哩的 IndexTTS 团队创新性地提出了一种通用于 AR 系统的 “时间编码” 机制次解决了传统 AR 模型难以精确控制语音时长的问题。这一新颖的架构设计不仅解决了时长控制问题,更引入了音色与情感的解耦建模,实现了前所未有的情感表现力和灵活控制,在多个指标上全面超越现有 SOTA 系统。

研究方法

IndexTTS2 由三个核心模块组成:Text-to-Semantic(T2S) 、Semantic-to-Mel(S2M) 以及 BigVGANv2 声码器。首先,T2S 模块基于输入的源文本、风格提示、音色提示以及一个可选的目标语音 token 数,生成对应的语义 token 序列。然后,S2M 模块以语义 token 和音色提示作为输入,进一步预测出梅尔频谱图。最后,BigVGANv2 声码器将梅尔频谱图转换为高质量的语音波形,完成端到端的语音合成过程。

IndexTTS2 可以在零样本条件下生成自然流畅的多情感、跨语言语音。它还支持在自回归框架下精确控制语音时长,让合成既可控又不失自然。同时具备工业级性能,既适合研究探索,也能直接应用到实际场景中。


1、基于 AR 架构的时长控制

在 IndexTTS2 中,针对自回归 (AR) TTS 难以精确控制语音时长的问题,提出了基于 token 数量约束 的解决方案。核心思路是:在生成时可以指定所需的语义 token 数,模型通过一个专门的时长 embedding 将这个信息注入到 Text-to-Semantic 模块,通过对合成 token 的数量强约束来实现生成语音时长控制。训练阶段随机引入不同比例的信号层时长缩放 (如 0.75×、1.25×) 任务,使模型可以学会在各种长度要求下仍然保持语义连贯和情感自然。

实验表明,这种方法在不同语言(中 / 英)上的 token-number error rate 非常低,即模型几乎能严格按照指定的 token 数量生成语音,同时在合成质量、情感保真度和自然度上保持较好表现。换句话说,IndexTTS2 实现了在 AR 模型中罕见的高精度时长控制,使其既能保持逐帧生成带来的细腻表达,又能满足视频配音、音画同步等对时长严格敏感的场景需求。


2、多模态的情绪控制

IndexTTS2 对情感表达和说话人身份进行了有效解耦。模型不仅支持从单一参考音频中复刻音色与情感,还支持分别指定独立的音色参考和情感参考。这意味着用户可以用一个人的音色,说出另一个人的情感,极大地提升了控制的灵活性。

为了降低使用门槛,模型集成了两种情感控制方式。除了通过音频参考进行情感迁移,还引入了基于自然语言描述的情感软指令机制。通过微调大型语言模型(LLM),用户可以使用文本(如自然语言描述、场景描述)来精确引导生成语音的情绪色彩。

3、S2M 模块

为了提升在高强度情感(如哭腔、怒吼)下的语音清晰度,模型引入了 GPT 式潜在表征,并采用基于流匹配(Flow Matching)的 S2M 模块,显著增强了语音生成的鲁棒性和梅尔频谱图的重建质量。


研究结果

1、时长控制的准确性

IndexTTS2 在时长控制方面展现了极高的精确度。在对原始语音时长进行 0.75 倍至 1.25 倍的变速测试中,生成语音的 Token 数量误差率几乎不超过 0.03%,在多数情况下低于 0.02%,证明其时长控制能力精准可靠。



Table 1:不同设置下对持续时长控制的 token 数错误率

2、情感表现力

在情感表现力测试中,IndexTTS2 显著优于其他 SOTA 模型。其情感相似度(ES)高达 0.887,情感 MOS(EMOS)评分达到 4.22,合成的语音情绪饱满、渲染自然,同时保持了极低的词错误率(WER, 1.883%),实现了表现力与清晰度的完美结合。



Table 2:在情感测试集上的结果

3、零样本语音合成能力

在多个公开基准测试集(如 LibriSpeech, SeedTTS)上,IndexTTS2 在客观指标(词错误率 WER、说话人相似度 SS)和主观 MOS 评分(音色、韵律、质量)上均达到或超越了当前最先进的开源模型,包括 MaskGCT, F5-TTS, CosyVoice2 等,展现了其强大的基础合成能力和鲁棒性。



Table 3:在公开测试集上的结果

4、消融实验验证

实验证明,模型中的 GPT 潜在特征对于保证语音清晰度和发音准确性至关重要;而基于流匹配的 S2M 模块相比于传统的离散声学 Token 方案,极大地提升了合成语音的保真度和自然度。

该模型凭借高质量的情感还原与精准的时长控制,广泛提升了 AI 配音、视频翻译、有声读物、动态漫画、语音对话等系列下游场景的可用性,尤其值得关注的是,IndexTTS-2.0 为 B 站优质内容的出海提供了关键技术支持,在充分保留原声风格与情感特质的基础上,让海外用户享受更加自然、沉浸的听觉感受。这一技术突破不仅极大降低了高质量内容跨语言传播的门槛,也为 AIGC 技术在全球范围内的实际应用奠定了坚实基础,堪称零样本 TTS 技术迈向实用化阶段的重要里程碑。

总结

IndexTTS2 的提出标志着零样本 TTS 进入「情感可控 + 时长精确」的双维度时代。它不仅大幅提升了 AI 配音、视频翻译等多种下游场景的可用性,同时,也为未来语音合成技术的发展指明了重要方向:如何在 AR 框架下实现对情感、语调等更复杂语音特征的细粒度控制,并持续优化模型性能,为更广泛的交互式应用提供支持。

研究团队现已开放模型权重与代码,这意味着更多开发者和研究人员能够基于 IndexTTS2 构建个性化、沉浸式的语音交互应用。

作者介绍:

本论文主要作者来自哔哩哔哩 Index 语音团队(Bilibili IndexTTS),Index语音团队是一支专注于音频技术创新的研究团队,致力于音频生成、语音合成与音乐技术的前沿探索,重点研究高保真、自然真实、可控性强的语音生成模型。团队推出的全新一代 zero-shot TTS 自回归大模型 IndexTTS2,具备出色的情感表现力,支持音色与情感的自由组合,并创新性地设计了“时长编码”,实现了模型层面的精准时长控制。团队通过深度学习与神经网络技术的不断突破,持续为学术界与工业界提供高质量的语音合成技术支持与创新方案,助力创作者用声音打破表达边界。

推荐一个正在学习的课程-视频+直播


特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
4票赞成、9票反对、2票弃权!联合国安理会未通过,中国、俄罗斯等投赞成票

4票赞成、9票反对、2票弃权!联合国安理会未通过,中国、俄罗斯等投赞成票

鲁中晨报
2025-09-20 09:05:08
“逼良为娼”还是“自愿下海”?AV行业是如何压迫日本女性的

“逼良为娼”还是“自愿下海”?AV行业是如何压迫日本女性的

科学发掘
2025-09-20 03:51:48
打了20年败仗,美军卷土重来,离中国最近的这块地,一定要抢回来

打了20年败仗,美军卷土重来,离中国最近的这块地,一定要抢回来

爱史纪
2025-09-20 08:49:29
华为突然官宣:9月18日,全面降价!

华为突然官宣:9月18日,全面降价!

科技堡垒
2025-09-18 12:20:20
广东初二男孩被5名同学围殴,父亲抡起铁棍将其中一名活活打死,判决结果出来后,网友不淡定了…

广东初二男孩被5名同学围殴,父亲抡起铁棍将其中一名活活打死,判决结果出来后,网友不淡定了…

谭老师地理工作室
2025-03-11 12:58:06
从白瘦幼练成肌肉女,又退化成BBW,又重新撸回肌肉女状态!

从白瘦幼练成肌肉女,又退化成BBW,又重新撸回肌肉女状态!

女子健美相册
2025-09-19 01:29:36
当时很多蒙古考察日记中,都提到蒙古人性交不节制,得病者极多

当时很多蒙古考察日记中,都提到蒙古人性交不节制,得病者极多

牛牛叨史
2025-09-17 13:38:18
金正恩访华后,朝鲜加速对中国开放,建成10年未用大桥将投入运营

金正恩访华后,朝鲜加速对中国开放,建成10年未用大桥将投入运营

丹妮观
2025-09-19 16:00:21
我年收入400万,老婆让我装穷开2万破车过年,年后亲戚上门蛐蛐我

我年收入400万,老婆让我装穷开2万破车过年,年后亲戚上门蛐蛐我

秋风专栏
2025-09-19 16:53:09
辟谣!朝鲜发射舞水端中程导弹出错,在山东上空被中国拦截?

辟谣!朝鲜发射舞水端中程导弹出错,在山东上空被中国拦截?

军武次位面
2025-09-16 17:42:56
iPhone17系列开售首日,得物App:Pro Max星宇橙从溢价2000元回落至溢价600元

iPhone17系列开售首日,得物App:Pro Max星宇橙从溢价2000元回落至溢价600元

新浪财经
2025-09-19 16:33:26
美联储一打喷嚏,全世界都得感冒。加息不是政策,是收割。

美联储一打喷嚏,全世界都得感冒。加息不是政策,是收割。

忠于法纪
2025-09-20 08:55:00
罗永浩被跨省?

罗永浩被跨省?

梳子姐
2025-09-17 14:52:03
西贝三方输家:贾总于总兰总,翻车原因各不同,没一个值得同情

西贝三方输家:贾总于总兰总,翻车原因各不同,没一个值得同情

奥字侃剧
2025-09-19 13:48:01
民国十大军阀,根据实力排名如下,你同意吗?

民国十大军阀,根据实力排名如下,你同意吗?

历史星空回望
2025-08-27 06:00:03
骗了几代人!外蒙古压根就不是蒙古国,惊人差距超想象

骗了几代人!外蒙古压根就不是蒙古国,惊人差距超想象

牛牛叨史
2025-09-19 16:02:43
世锦赛男三级跳决赛归化老将终极绝杀夺冠 中国双雄奋战无缘前八

世锦赛男三级跳决赛归化老将终极绝杀夺冠 中国双雄奋战无缘前八

威猛孟巍
2025-09-19 23:48:17
北京九三阅兵当天,朱立伦讲话:抗日战争是蒋介石领导打赢的

北京九三阅兵当天,朱立伦讲话:抗日战争是蒋介石领导打赢的

小童历史
2025-09-12 11:41:00
高飞任中国东方航空集团总经理

高飞任中国东方航空集团总经理

澎湃新闻
2025-09-19 14:10:29
俄媒:中国防空部队9月12日晚在山东省上空击落一块陨石。

俄媒:中国防空部队9月12日晚在山东省上空击落一块陨石。

荆楚寰宇文枢
2025-09-16 13:16:44
2025-09-20 10:15:00
机器学习与Python社区 incentive-icons
机器学习与Python社区
机器学习算法与Python
3136文章数 11048关注度
往期回顾 全部

科技要闻

字节跳动凌晨发布公告

头条要闻

日本开始一项"史无前例"行动:派多架战斗机前往欧洲

头条要闻

日本开始一项"史无前例"行动:派多架战斗机前往欧洲

体育要闻

亚洲天王效应 孙兴慜球衣售150万件破梅西纪录

娱乐要闻

全智贤被全面抵制!相关代言评论区沦陷

财经要闻

最重要的一个电话,信息量果然很大

汽车要闻

对话周光:一个技术理想主义者的“蜕变”

态度原创

艺术
健康
教育
时尚
家居

艺术要闻

故宫珍藏的墨迹《十七帖》,比拓本更精良,这才是地道的魏晋写法

内分泌科专家破解身高八大谣言

教育要闻

完善教师激励机制,激发教师教书育人的积极性

推广|| 被低估的百元级国货!推荐你们趁好价试试

家居要闻

公共艺术 限时体验打造

无障碍浏览 进入关怀版