网易首页 > 网易号 > 正文 申请入驻

小红书推出新AI播客技术FireRedTTS-2,升级对话生成模型!

0
分享至

小红书智创音频技术团队近日发布新一代对话合成模型 FireRedTTS-2。该模型聚焦现有方案的痛点:灵活性差、发音错误多、说话人切换不稳、韵律不自然等问题,通过升级离散语音编码器与文本语音合成模型全面优化合成效果。在多项主客观测评中,FireRedTTS-2 均达到行业领先水平,为多说话人对话合成提供了更优解决方案。

  • 论文标题:FireRedTTS-2: Towards Long Conversational Speech Generation for Podcast and Chatbot
  • 技术报告:https://arxiv.org/pdf/2509.02020
  • Demo 链接:https://fireredteam.github.io/demos/firered_tts_2/
  • 代码链接:https://github.com/FireRedTeam/FireRedTTS2

效果 Demo

一开口就像真人,播客生成不在话下。先来听一段 “Taylor Swift 恋爱消息” 的播报,你能分出这是真实录音还是 AI 合成吗?

答案揭晓!上方视频的声音并非真人,而是由基于数百万小时语音数据训练的 FireRedTTS-2 合成的播客音频。它对重音、情绪、停顿等细节把握到位,听感自然流畅。相比闭源的豆包,FireRedTTS-2 的播客生成自然度可与之媲美;更重要的是,它还支持豆包不具备的音色克隆能力:只需提供对话中每个发音人的一句语音样本,模型即可模仿其音色与说话习惯,自动生成后续整段对话。在开源对话生成模型中(如 MoonCast、ZipVoice-Dialogue、MOSS-TTSD),FireRedTTS-2 在多说话人音色切换的稳定性与韵律自然度方面处于行业领先,为 AI 播客等对话合成应用提供了工业级解决方案。

随着多模态大模型的快速发展,全行业对数据的需求与日俱增,尤其在语音识别与对话交互领域,训练需要大规模的多音色、跨语言音频数据。FireRedTTS-2 不仅支持随机音色生成,还开箱即用地覆盖中文、英语、日语、韩语、法语等多种语言。因此,它既能满足创新玩法的探索,也可作为高效的生产力工具,为下游任务生成高质量的对话 / 非对话音频数据。下方视频展示了不同随机音色、不同语言的生成效果。

对话合成背景

近来,多说话人对话合成被广泛应用于播客生成等下游应用场景。在实现方式上,传统方法通常先按说话人将对话切分,逐句独立合成后再拼接。这样的做法不仅繁琐,还容易导致句间韵律断裂,尤其在句子衔接处尤为不自然。

尽管目前出现了一些方法可以建模整段对话,但它们往往要求输入完整对话文本,并一次性输出包含所有说话人的整段语音,难以支持逐句生成。这不仅增加了后续编辑与处理的难度,也因其不够灵活而不利于在交互式对话场景中应用。此外,这类方法的合成质量仍不稳定,常见问题包括发音错误、句子间说话人身份混淆以及合成的语音韵律不够自然。

FireRedTTS-2 系统简介

为解决当前对话合成系统存在的灵活性不足、合成质量欠佳等问题,FireRedTTS-2 升级了 TTS 系统的两大核心模块:

  • 离散语音编码器(Speech tokenizer):12.5Hz 低帧率,具有更强语义信息,且支持流式解码
  • 文本语音合成模型(Text-to-speech model):支持逐句生成,合成稳定且质量高

离散语音编码器

离散语音编码器将连续语音信号压缩为离散标签序列,便于大语言模型处理。FireRedTTS-2 采用的语音编码器以 12.5Hz 的低帧率输出:即 1 秒仅对应 12.5 个标签。对于对话建模,这缩短了语音序列长度、即提升了速度,又缩小了与文本序列的长度差距,降低了大语言模型的建模难度。为增强语义表达,编码器在训练时引入预训练模型提取的语义特征,并对离散标签进行语义监督,使标签携带更丰富的语义信息,帮助模型更容易学会从文本到语音的映射。除此之外,它还支持流式解码,可实时输出音频,便于无缝接入各类流式交互应用。

在训练策略上,离散语音编码器先在约 50 万小时的多样化语音数据上训练,以提升泛化能力;再在其中约 6 万小时的高质量语音上继续训练,优化重建音质。

文本语音合成模型

为提升对话合成的灵活性,FireRedTTS-2 采用文本 - 语音混排的格式,支持逐句生成,便于后续编辑与多场景适配。混排格式将对话文本与语音组织为:“[S1] 说话人 1 文本 + 语音 [S2] 说话人 2 文本 + 语音 [S3] 说话人 3 文本 + 语音…”,其中 [S1]、[S2]、[S3] 为说话人标签,用于区分不同角色。

在模型架构上,为更充分地利用对话上下文,FireRedTTS-2 采用 “双 Transformer ” 的设计:

  • 1.5B 参数的 Backbone Transformer 负责建模混排序列中语音的粗粒度信息
  • 0.2B 参数的 Decoder Transformer 补充语音中的声学细节

相比常用的 Delay pattern 方法,该架构充分利用了上下文中的文本与语音,可以生成更自然、连贯的对话语音;同时支持低首包延迟,配合离散语音编码器的流式解码,实现更快起播。

FireRedTTS-2 采用两阶段训练:先在 110 万小时单句语音上预训练,夯实合成基础;再用 30 万小时对话语音继续训练,覆盖 2–4 人对话场景。由此可稳定生成高质量对话语音,准确处理说话人切换,保持上下文一致与自然韵律。面向应用场景, FireRedTTS-2 仅需少量数据即可实现微调,快速完成音色定制。

FireRedTTS-2 效果比较

为评估对话合成效果,FireRedTTS-2 与 MoonCast、ZipVoice-Dialogue、MOSS-TTSD 等其他系统在自建的中英文对话测试集上进行了比较:

  • 客观上,比较了对话合成的正确率(CER/WER)、对话间说话人保持能力(SIM)、以及与真实录音之间的差距(MCD)
  • 主观上,FireRedTTS-2 与其他系统进行了偏好打分(CMOS)

结果显示,FireRedTTS-2 在主客观指标上均为最优,显著降低发音错误,避免说话人混淆,具有更真实的韵律表现,为对话合成提供了更优解。

同时,FireRedTTS-2 只需约 50 小时的特定播客说话人录音即可完成音色定制,使对话合成的自然度逼近真人。在自建中文对话测试集上,我们开展了客观(CER)与主观(自然度偏好)评测:微调后 CER 仅为 1.66%;主观听评中,28% 的测例被认为比真实播客录音更自然,另有 28% 难以区分二者。总体来看,56% 的测例表明其自然度已达到或超过真实录音。

总结与展望

FireRedTTS-2 针对当前对话合成的两大痛点:无法逐句生成(灵活性差)与合成质量不稳定(发音错误、说话人切换混乱、韵律不自然),升级了两项关键模块。

  • 离散语音编码器:低帧率、语义信息丰富,缩短语音序列、降低长对话建模难度并提升稳定性;支持流式解码,适配实时场景。
  • 文本语音合成模型:采用文本 - 语音混排输入,支持逐句生成;双 Transformer 架构充分利用文本与历史语音上下文,合成更自然、连贯的对话语音;具备低首包延迟,配合编码器的流式解码实现快速起播。

从结果上看,FireRedTTS-2 在各项主客观指标上均优于 MoonCast、ZipVoice-Dialogiue、MOSS-TTSD 等系统,为对话生成提供了更优的解法。未来团队将持续优化 FireRedTTS-2,拓展支持的说话人人数与支持的语种,并解锁可控音效插入等更多玩法。

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
人民日报痛批大学生 “沉睡” 现象:躺平四年,毕业真的会失业!

人民日报痛批大学生 “沉睡” 现象:躺平四年,毕业真的会失业!

复转这些年
2026-03-25 10:02:32
欧股、美股期货全线下挫,美股芯片股、中概股盘前普跌,阿里巴巴跌超3%,原油拉升涨超3%

欧股、美股期货全线下挫,美股芯片股、中概股盘前普跌,阿里巴巴跌超3%,原油拉升涨超3%

21世纪经济报道
2026-03-26 19:46:02
养生|大便后你用几张纸?用纸量判断你的身体情况

养生|大便后你用几张纸?用纸量判断你的身体情况

A活着
2026-03-24 19:25:23
千万网红留几手账号被禁,彻底翻车

千万网红留几手账号被禁,彻底翻车

新浪财经
2026-03-26 18:59:50
新版《哈利·波特》黑人斯内普教授首曝光!梳脏辫戴金戒引热议,演员本人却称被死亡威胁?

新版《哈利·波特》黑人斯内普教授首曝光!梳脏辫戴金戒引热议,演员本人却称被死亡威胁?

英国报姐
2026-03-26 21:26:58
伊朗发动第81波行动,打击以色列70多处目标!内塔尼亚胡:48小时内尽可能多摧毁伊朗军工设施;伊朗外长:以将美国推向冲突,没有谈判余地

伊朗发动第81波行动,打击以色列70多处目标!内塔尼亚胡:48小时内尽可能多摧毁伊朗军工设施;伊朗外长:以将美国推向冲突,没有谈判余地

每日经济新闻
2026-03-26 08:26:06
美军官揭露“爱国者”惨败原因:伊朗不讲武德用了几千架无人机!

美军官揭露“爱国者”惨败原因:伊朗不讲武德用了几千架无人机!

阿芒娱乐说
2026-03-27 00:16:22
人社部明确:事业编制改革启动,3100万人的“铁饭碗”要变了

人社部明确:事业编制改革启动,3100万人的“铁饭碗”要变了

慧眼看世界哈哈
2026-03-24 06:36:05
周薪30万英镑!曝埃弗顿2000万镑买断格拉利什,瓜迪奥拉接受离队

周薪30万英镑!曝埃弗顿2000万镑买断格拉利什,瓜迪奥拉接受离队

夏侯看英超
2026-03-27 00:57:04
惊呆了!网传某妇产医院一少妇哭求医生,改她儿子的血型鉴定书…

惊呆了!网传某妇产医院一少妇哭求医生,改她儿子的血型鉴定书…

火山詩话
2026-03-26 11:40:00
广州国资一日成立两家国企

广州国资一日成立两家国企

新浪财经
2026-03-26 19:03:59
疯爽被塘主追着求复合

疯爽被塘主追着求复合

毒舌扒姨太
2026-03-26 22:44:25
炸锅!黄仁勋急了:中国不要了!我们失去最大市场,销量跌到0%!

炸锅!黄仁勋急了:中国不要了!我们失去最大市场,销量跌到0%!

Thurman在昆明
2026-03-27 02:05:24
男演员千万别整容!看看28岁张凌赫和29岁陈哲远,瞬间就明白了

男演员千万别整容!看看28岁张凌赫和29岁陈哲远,瞬间就明白了

小猫追剧
2026-03-26 22:14:05
张雪峰家属:周六举行追悼会!平时没胸闷、没心脏病,能放心运动吗?医生提醒

张雪峰家属:周六举行追悼会!平时没胸闷、没心脏病,能放心运动吗?医生提醒

上观新闻
2026-03-26 14:45:10
伊朗战争还将持续多久?据传特朗普希望4-6周内终结战事

伊朗战争还将持续多久?据传特朗普希望4-6周内终结战事

财联社
2026-03-26 18:29:05
“戏混子”又来嚯嚯央视剧?双眼无神、演技拉夸,还不如7岁孩子

“戏混子”又来嚯嚯央视剧?双眼无神、演技拉夸,还不如7岁孩子

枯蝶
2026-03-27 01:33:04
狂赚18亿!比爱马仕还狠的运动奢侈品,正在掏空中产的钱包

狂赚18亿!比爱马仕还狠的运动奢侈品,正在掏空中产的钱包

青眼财经
2026-03-17 16:03:09
“鸡蛋界的LV”,安全了吗

“鸡蛋界的LV”,安全了吗

中国新闻周刊
2026-03-26 13:01:31
小凯文-波特:为了维护科比,我要打破阿德巴约的83分纪录

小凯文-波特:为了维护科比,我要打破阿德巴约的83分纪录

懂球帝
2026-03-26 18:48:05
2026-03-27 02:44:49
机器之心Pro incentive-icons
机器之心Pro
专业的人工智能媒体
12608文章数 142594关注度
往期回顾 全部

科技要闻

美团发布外卖大战后成绩单:亏损超200亿

头条要闻

特朗普:伊朗允许10艘油轮通行霍尔木兹海峡

头条要闻

特朗普:伊朗允许10艘油轮通行霍尔木兹海峡

体育要闻

申京努力了,然而杜兰特啊

娱乐要闻

刘晓庆妹妹发声!称姐姐受身边人挑拨

财经要闻

油价"驯服"特朗普?一到100美元就TACO

汽车要闻

一汽奥迪A6L e-tron开启预售 CLTC最大续航815km

态度原创

时尚
本地
健康
房产
手机

400万人爱过的女孩,被黄谣网暴180天后

本地新闻

救命,这只酱板鸭已经在我手机复仇了一万遍

转头就晕的耳石症,能开车上班吗?

房产要闻

突发,三亚又有大批征迁补偿方案出炉!

手机要闻

1499 iQOO Z11系列发布丨9020mAh电池 165Hz高刷

无障碍浏览 进入关怀版