网易首页 > 网易号 > 正文 申请入驻

ACL2025 高分接收 | 高感情语音技术:逻辑智能小语种TTS破局之道

0
分享至


该工作由北京深度逻辑智能科技有限公司×宁波东方理工EIT-NLP实验室联合完成。

语音合成(TTS)技术近十年来突飞猛进,从早期的拼接式合成和统计参数模型,发展到如今的深度神经网络与扩散、GAN 等先进架构,实现了接近真人的自然度与情感表达,广泛赋能智能助手、无障碍阅读、沉浸式娱乐等场景。

然而,这一繁荣几乎局限于英语、普通话等资源充沛的大语种;全球一千多种小语种由于语料稀缺、文字无空格或多音调等复杂语言学特性,在数据收集、文本前端处理和声学建模上都面临巨大挑战,导致高质量 TTS 迟迟无法落地。破解「小语种困境」既是学术前沿课题,也是实现数字包容与多语文化传播的关键。

面对这一挑战,逻辑智能团队提出了一种针对低资源语言 TTS 的解决方案并应用于泰语 TTS 合成,该工作已经被 ACL 2025 Industry track 正式接收!

  • 论文标题:Scaling Under-Resourced TTS: A Data-Optimized Framework with Advanced Acoustic Modeling for Thai
  • 论文地址:https://arxiv.org/abs/2504.07858
  • 效果试听:https://luoji.cn/static/thai/demo.html

这项工作提出了一种数据优化驱动的声学建模框架的创新方案,通过从语音、文本、音素、语法等多个维度构建系统化的泰语数据集,并结合先进的声学建模技术,成功实现了在有限资源下的高质量 TTS 合成效果。

此外,该框架还具备 zero-shot 声音克隆的能力,展示了优异的跨场景适用性,为行业提供了一种在数据稀少环境下高效构建小语种 TTS 系统的有效范式,对推动全球小语种 TTS 技术的落地与普及具有重要的启示和借鉴意义。

数据优化驱动的声学建模框架方案

该工作遵循数据驱动模型能力的整体思路:

  • 首先从源头切入,系统化采集并标注跨领域语音、文本与语言学信息,构建覆盖广、颗粒度细的多维泰语语料库;
  • 随后通过 LLM 增强的停顿预测、词切分与混合式 G2P,将原始文本稳健转换为结构化的「音素-声调」序列;
  • 最后在此精炼输入之上,引入声调感知的 Phoneme-Tone BERT 与多源特征驱动的 GAN 解码器,实现高保真、低延迟的语音合成,并支持零样本声音克隆。

整套框架以数据质量为核心抓手、以模块化设计保障可扩展性,为解决小语种 TTS「数据稀缺 + 语言复杂」双重瓶颈提供了一条可复制、可落地的工程化路径。

泰语专项数据集构建

该工作构建了一套专为低资源泰语 TTS 设计的多维数据集,涵盖语音、文本和注释三大类:

  • 语音数据——500 小时来自新闻、社媒、播客等多领域语料,外加 40 小时金融、医疗、教育、法律等垂直领域语料,兼顾通用合成与专业术语发音;
  • 文本数据——100 万句句子语料用于训练 Phoneme-Tone BERT 提升上下文韵律建模,10 万词词表用于训练分词器,解决泰语无空格书写难题;
  • 注释数据——1.5 万句停顿标注确保精准断句,4 万词音素-声调标注强化 G2P 与五声调建模。该数据集既保证了规模,又注重多域覆盖和细粒度语言监督,为在资源稀缺环境下实现工业级泰语 TTS 与零样本声音克隆奠定了坚实基础。

先进的预处理流程

该工作设计了一套强大的预处理流程。预处理流水线最大的亮点在于「三步一体、逐层解耦」地化解泰语文本的无标点、无空格、声调复杂三重难题:

  • 首先通过 SFT 微调的 Typhoon2 LLM,对 1.5 万句人工标注语料学习停顿规律,在原始文本中智能插入停顿标签以更好地建模口语韵律;
  • 随后在扩充至 10 万词的分词词典支撑下,改进版 pythainlp Tokenizer 将连续书写的泰文字流精准切分,为领域专有词提供稳健支持;
  • 最后利用 4 万词的音素-声调注释库,结合规则+Transformer 混合式 G2P,把每个词映射成带五声调标记的 IPA 音素序列。

该流水线不仅输出结构化的「音素-声调」序列,大幅降低后续声学模型学习难度,也为其他低资源音调语言提供了可复用的文本前端范式。

卓越的 TTS 模型架构

该工作的 TTS 模型集成了「多源特征 × 声调感知 × 零样本克隆」的组合设计:

  • 首先利用多语种预训练模型提取时长、音高、能量等强鲁棒特征,并以风格编码器压缩说话人/情感信息,为后续零样本克隆奠定基础;
  • 其次,通过 Phoneme-Tone BERT 在音素序列中显式融入五声调,精准捕捉泰语语义-韵律关联;
  • 最后以 GAN 解码器直接从音素与预测特征合成波形,联合时域、频域与感知损失实现高保真、低延迟合成。

整体采取「先独立训练预测器,再与解码器联合微调」的策略,兼顾稳定性与音质,使模型达到 SOTA 表现并支持零样本声音克隆。

实验效果

  • 预处理链路有效性:消融实验表明,停顿预测、分词优化和 G2P 优化缺一不可;当分别移除这三项时,系统的 WER 从 6.3% 依次升至 6.5%、10.2% 与 22.5%,自然度评分 NMOS 从 4.4 下降到 3.8、3.9 与 3.0,尤其 G2P 的影响最大,证明精确声调与音素映射是泰语 TTS 的质量瓶颈。
  • 通用与行业场景综合表现:在公开基准 TSync2 和金融、医疗、教育、法律四大真实业务脚本上,模型始终保持最低 WER 与最高 NMOS,不仅超越开源系统,也优于 Google TTS、Microsoft TTS 等商业方案;特别是在专业术语发音与语速控制上,用户反馈显示本系统误读率更低、韵律更自然,验证了该框架对多场景的强鲁棒性与可落地性。
  • 零样本声音克隆能力:在仅提供几秒参考音的条件下,模型即可生成目标说话人高保真语音,取得 SIM 0.91 和 SMOS 4.5,显著超过 OpenVoice 的 0.85 与 4.0;嵌入可视化进一步展示了对说话人 timbre 的准确聚类,表明「声调感知 + 多源特征」设计能够在低资源环境下实现工业级的声音克隆体验。

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
新华社消息|我国提交首份全面系统阐述世贸组织改革立场政策文件

新华社消息|我国提交首份全面系统阐述世贸组织改革立场政策文件

新华社
2026-02-19 15:30:44
日本挖到含稀土泥浆,高市早苗宣称“下一代、下下代都用不完”,专家称成果被夸大,其最终成本是中国的近20倍

日本挖到含稀土泥浆,高市早苗宣称“下一代、下下代都用不完”,专家称成果被夸大,其最终成本是中国的近20倍

每日经济新闻
2026-02-19 14:32:14
意大利知名地标“爱情拱门”突然崩塌,永久消失,当地市长:曾有成千上万的情侣来打卡,旅游业遭“毁灭性打击”

意大利知名地标“爱情拱门”突然崩塌,永久消失,当地市长:曾有成千上万的情侣来打卡,旅游业遭“毁灭性打击”

大风新闻
2026-02-17 19:26:03
韩国前总统尹锡悦涉嫌发动内乱案一审被判处无期徒刑,亲信透露其当初铤而走险是为保护妻子,金建希事后劈头盖脸怒骂“因为你,全毁了”

韩国前总统尹锡悦涉嫌发动内乱案一审被判处无期徒刑,亲信透露其当初铤而走险是为保护妻子,金建希事后劈头盖脸怒骂“因为你,全毁了”

极目新闻
2026-02-19 15:31:38
你见过最不会点菜的人是什么样子?网友:火锅很清淡啊

你见过最不会点菜的人是什么样子?网友:火锅很清淡啊

夜深爱杂谈
2026-02-19 21:55:22
以色列厉害到了什么程度?

以色列厉害到了什么程度?

莫地方
2026-01-25 14:48:19
50万想在妈祖面前走后门?连掷六次笑杯,这场 硬插队终被上一课

50万想在妈祖面前走后门?连掷六次笑杯,这场 硬插队终被上一课

一盅情怀
2026-02-19 18:38:36
苏翊鸣夺金后火速官宣恋情,赛后甜蜜回复花滑运动员朱易:爱你宝贝;此前教练曾说,苏翊鸣米兰拿坡面障碍金牌前不能谈恋爱

苏翊鸣夺金后火速官宣恋情,赛后甜蜜回复花滑运动员朱易:爱你宝贝;此前教练曾说,苏翊鸣米兰拿坡面障碍金牌前不能谈恋爱

极目新闻
2026-02-19 08:40:34
李在明果然手段狠辣,当着5000万韩国人的面,宣告尹锡悦最终结局

李在明果然手段狠辣,当着5000万韩国人的面,宣告尹锡悦最终结局

谛听骨语本尊
2026-02-19 23:49:29
宁忠岩夺冠两画面太动容!外教为其擦拭泪水,李琰拥抱欢跳太可爱

宁忠岩夺冠两画面太动容!外教为其擦拭泪水,李琰拥抱欢跳太可爱

篮球资讯达人
2026-02-20 02:04:20
3月开始中国或将迎来四大降价潮:除房价以外,这三类也要降价了

3月开始中国或将迎来四大降价潮:除房价以外,这三类也要降价了

爱看剧的阿峰
2026-02-19 04:14:11
9年前,那个3岁识千字、6岁夺央视冠军的神童王恒屹,如今怎样

9年前,那个3岁识千字、6岁夺央视冠军的神童王恒屹,如今怎样

娱说瑜悦
2026-02-19 17:50:07
一手好牌打稀烂!从春晚笑星到县城卖唱,如今她是3个孩子的妈

一手好牌打稀烂!从春晚笑星到县城卖唱,如今她是3个孩子的妈

随遇而安之心
2026-02-16 22:13:01
从星链落地到全面改革,被低估的越南正在惊人“逆袭”

从星链落地到全面改革,被低估的越南正在惊人“逆袭”

凤眼论
2026-02-19 09:08:18
无论什么手机,切记不要这样充电,不然手机电池不耐用,涨知识了

无论什么手机,切记不要这样充电,不然手机电池不耐用,涨知识了

妙招酷
2026-02-17 23:47:03
3-6,世界第4出局!四强决出两席静待赵心童,附赛程小特VS希金斯

3-6,世界第4出局!四强决出两席静待赵心童,附赛程小特VS希金斯

求球不落谛
2026-02-20 06:12:59
亏损超5亿,吴京尽力了,2026年春节档第一票房惨案诞生了

亏损超5亿,吴京尽力了,2026年春节档第一票房惨案诞生了

靠谱电影君
2026-02-17 20:53:41
6000万枚金弹已上膛,荷兰国家队亲自下场,中国想要回安世更难了

6000万枚金弹已上膛,荷兰国家队亲自下场,中国想要回安世更难了

凡知
2026-02-19 14:46:10
中国50后还有多少人?多少人能活到80岁?权威数据告诉你

中国50后还有多少人?多少人能活到80岁?权威数据告诉你

芭比衣橱
2026-02-19 21:00:42
KLARNA股价重挫18%,创下纪录最大跌幅

KLARNA股价重挫18%,创下纪录最大跌幅

每日经济新闻
2026-02-19 22:41:04
2026-02-20 07:32:49
机器之心Pro incentive-icons
机器之心Pro
专业的人工智能媒体
12321文章数 142569关注度
往期回顾 全部

教育要闻

深夜时谈 白岩松:把孩子当作平等的人,要多聆听 不要怕暴露自己的缺点

头条要闻

美专家:美国若武力介入台湾 或致美数十万人死亡

头条要闻

美专家:美国若武力介入台湾 或致美数十万人死亡

体育要闻

不想退役!徐梦桃:希望能参加第6次冬奥

娱乐要闻

霍启山恋情再添实锤 和娜然同游意大利

财经要闻

面条火腿香菇酱!上市公司这些年请你吃

科技要闻

怒烧45亿,腾讯字节阿里决战春节

汽车要闻

量产甲醇插混 吉利银河星耀6甲醇插混版申报图

态度原创

数码
旅游
游戏
本地
公开课

数码要闻

REDMI耳机新品曝光,满电37小时续航

旅游要闻

拓印、剪纸、糖画“圈粉”外籍游客 沉浸式感受传统文化体验喜庆中国年

狂卖9万份!《如龙极3》日本实体首周销量出炉

本地新闻

春花齐放2026:《骏马奔腾迎新岁》

公开课

李玫瑾:为什么性格比能力更重要?

无障碍浏览 进入关怀版