以往的对话语音合成方法存在不少限制:必须先准备完整的对话文本才能进行合成,结果是一整段混合了所有声音的不可分割语音,这样显然不适合互动式聊天。而且,这类方法常常表现出合成不稳定、说话人切换不够准确、语调缺乏连贯性等问题,导致听感不自然。
为了解决这些问题,小红书团队提出了FireRedTTS-2,一个专为多说话人对话生成设计的长文本流式语音合成系统。它的核心创新在于引入了12.5Hz 的流式语音分词器,不仅加快了训练和推理,还能处理更长的对话,编码更丰富的语义,从而大大提升了合成稳定性。同时,它采用了文本–语音交错格式和双 Transformer 架构,既能在对话中自然切换说话人,也能在 100 毫秒内输出首句语音,实现实时交互和高保真播客生成。(链接在文章底部)
01 技术原理
FireRedTTS-2 支持长达 3 分钟、4 位说话人的多语言对话生成,并可扩展到更大规模场景;它具备跨语言零样本声音克隆能力,首包延迟在 L20 GPU 上低至 140 毫秒,保证高质量输出;在独白和对话任务中均表现出强稳定性,同时还支持随机音色生成,适用于语音识别和交互数据的构建。
FireRedTTS-2 概览,包括:(a) 一种新的语音分词器,具有12.5Hz 帧率和增强的语义信息;(b) 一个采用双 Transformer 架构的文本转语音模型,输入为文本–语音交错序列,支持逐句生成并实现上下文连贯的语调。
FireRedTTS-2可以无缝集成到现有的聊天框架中,而无需修改其他模块。为了解决语音表达不一致的问题,在预训练完成的 FireRedTTS-2 基础上进行微调,使其能够从隐含的上下文线索中推断并调整情感和语调。
构建了一个15 小时的语音语料库,由一位独特的女性声音录制,涵盖六种情感:惊讶、悲伤、快乐、关切、歉意和愤怒。随后,通过文本大语言模型(LLM)先生成对话文本上下文,再将其合成为语音,从而模拟对话场景。经过微调后,FireRedTTS-2 能够根据先前的聊天历史动态切换情感和语调,带来接近人类的互动体验。
FireRedTTS-2可以通过将两轮对话作为提示上下文,然后逐轮生成后续内容,实现零样本播客生成。目前,它支持3 分钟、4 位说话人的对话,并且通过扩展训练语料可以轻松扩展到更长的对话和更多的说话人。同时,它还可以利用少量数据定制特定说话人。
FireRedTTS-2不仅能零样本克隆新声音,还能生成带有情感的自然语音。在播客生成中,它比现有的 MoonCast、Zipvoice-Dialogue 和 MOSS-TTSD 更稳定,切换说话人更准确,语调也更连贯。更重要的是,它还能针对特定播客声音进行定制,生成的效果几乎与真人录音难以区分,真正拉近了人类对话和 AI 合成之间的差距。
https://github.com/FireRedTeam/FireRedTTS2
https://arxiv.org/pdf/2509.02020
特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.