TTS(文本转语音)模型是将书面文本转换为自然听觉语音的技术。这些模型通常包括三个主要组件:
文本处理:将输入的文本转化为语音单元或音素的序列。这一步骤涉及文本规范化、分词和音素转换。
声学模型:将音素序列转换为对应的声学特征。这些特征通常是频谱图或梅尔频谱图,代表声音的频率特性。
语音合成:将声学特征转化为实际的音频波形。这一步骤通常使用神经网络或波形合成技术。
今天带大家学习了解TTS,并且带大家部署一款开源模型中对中文支持最好的模型,天花板级别ChatTTS。
亚马逊BASE TTS
首先,先了解一下亚马逊的TTS模型。BASE TTS 是一个功能强大的多语言、多说话人大型文本转语音(LTTS)系统。它在约10万小时的公共领域语音数据上进行了训练,训练数据量是此前最高者 VALL-E 的两倍。
受到大型语言模型(LLM)成功经验的启发,BASE TTS 将文本转语音视为下一个 token 预测的问题。这种方法结合大量的训练数据,展现出强大的多语言和多说话人能力。
字节Seed-TTS
Seed-TTS 是一个在语音生成方面表现优异的基础模型,特别擅长语音上下文学习。在客观和主观评估中,其生成的语音在说话人相似性和自然度方面与真实人类语音相媲美。
通过微调,该模型在这些指标上的主观评分进一步提升。Seed-TTS 对情感等各种语音属性具有出色的可控性,能够为自然界的说话者生成高度表现力和多样性的语音。
- 零样本上下文学习
扬声器微调
跨语种视频
中文:
英文:
当然还有很多我们不一一展示。
ChatTTS
ChatTTS首先是半开源模型,可以理解为部分阉割版,比如不支持自定义音色,部分文字读错,会有部分尖锐声音等,但目前开源模型来讲对中文的支持可以称为天花板。(有法律原因)
还要说明的是可以在线体验,虽然经常有错误,因此本地部署一个是很好用的,并且对机器的要求不高。
https://huggingface.co/spaces/Dzkaka/ChatTTS
Audio Seed含义: 用于初始化随机数生成器的种子值。设置相同的 Audio Seed 可以确保重复生成一致的语音,便于实验和调试。推荐 Seed: 3798-知性女、462-大舌头女、2424-低沉男。
Text Seed含义: 类似于 Audio Seed,在文本生成阶段用于初始化随机数生成器的种子值。
Refine Text✨建议: 勾选此选项可以对输入文本进行优化或修改,提升语音的自然度和可理解性。
Audio Temperature️含义: 控制输出的随机性。数值越高,生成的语音越可能包含意外变化;数值较低则趋向于更平稳的输出。
Top_P: 核采样策略,定义概率累积值,模型将只从这个累积概率覆盖的最可能的词中选择下一个词。
Top_K: 限制模型考虑的可能词汇数量,设置为一个具体数值,模型将只从这最可能的 K 个词中选择下一个词。
除了基本的参数设置,你还可以通过本地部署 Web UI 或 API 的方式进行更细粒度的控制,比如调整笑声、停顿和口音。以下是一些常用的控制标记:
[oral_(0-9)]: 控制口音强度
[laugh_(0-2)]: 控制笑声
[break_(0-7)]: 控制停顿时间
试试不同的组合,比如 [oral 2][laugh 0][break 4],探索更多有趣的语音效果。
在实际使用 ChatTTS 过程中,有几点需要注意:
避免使用标点和阿拉伯数字:当前版本对中文标点和阿拉伯数字支持有限,建议转换为读音友好的形式。
处理长文本:ChatTTS 目前对超过 30 秒的音频效果不佳,需要手动修复。
字母间隔:确保字母之间用空格分割,否则会被当作一个单词读取。
整合包
一些大神也贡献了二创整合包,支持音色抽卡、长音频生成和分角色朗读。
ChatTTS_colab
Colab 一键运行:无需复杂的环境配置,只需点击上方的 Colab 按钮,即可在浏览器中直接运行项目。
音色抽卡功能:批量生成多个音色,并可保存自己喜欢的音色。
支持生成长音频:适合生成较长的语音内容。
字符处理:对数字和朗读错误的标点做了初步处理。
分角色朗读功能 :支持对不同角色的文本进行分角色朗读,并支持大模型一键生产脚本。
支持中英文、数字混杂,并提供API接口。
从 Releases中下载压缩包,解压后双击 app.exe 即可使用
某些安全软件可能报毒,请退出或使用源码部署
英伟达显卡大于4G显存,并安装了CUDA11.8+后,将启用GPU加速
感谢关注~,带你学习AI,了解AI
欢迎交流
特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.