网易首页 > 网易号 > 正文 申请入驻

F5R-TTS首次实现非自回归模型的GRPO优化 零样本克隆性能显著提升

0
分享至

在人工智能技术日新月异的今天,语音合成(TTS)领域正经历着一场前所未有的技术革命。最新一代文本转语音系统不仅能够生成媲美真人音质的高保真语音,更实现了「只听一次」就能完美复刻目标音色的零样本克隆能力。这一突破性进展的背后,是大规模语音数据的积累和大模型技术的快速发展。

同时在技术前沿,DeepSeek 系列凭借其 GRPO 算法(群体相对策略优化),正以强化学习引领大语言模型(LLM)研究的新趋势。目前,强化学习已扩展至自回归 TTS 系统。然而,由于非自回归架构与大型语言模型(LLMs)存在根本性的结构差异,此前非自回归 TTS 系统尚未出现成功的强化学习集成案例,这一技术难题仍有待可行的研究解决方案。

近日,腾讯PCG社交线的研究团队针对这一挑战提出了 F5R-TTS 系统,首创性地通过将模型输出转化为概率表征,打通了非自回归 TTS 模型强化学习的「任督二脉」。

  • 论文标题:F5R-TTS: Improving Flow-Matching based Text-to-Speech with Group Relative Policy Optimization
  • 论文链接:https://arxiv.org/abs/2504.02407
  • 项目主页:https://frontierlabs.github.io/F5R/

F5R-TTS 的创新架构

F5R-TTS 通过模型架构创新,有效融合了强化学习。这项研究的主要贡献体现在三个方面:

  1. 概率化输出转换:研究团队创新性地将 flow-matching 的 TTS 模型输出转化为概率表征。这一转换使得强化学习在非自回归模型中的应用成为可能,为后续的优化奠定了基础。
  2. GRPO 优化方法:首次成功将 GRPO 方法应用于非自回归 TTS 模型,采用词错误率(WER)和说话人相似度(SIM)作为奖励信号,有效引导模型优化方向。
  3. 零样本语音克隆验证:在零样本语音克隆场景中,F5R-TTS 模型展现出显著优势。相较于传统非自回归 TTS 基线模型,在可懂度(WER 相对降低 29.5%)和说话人一致性(SIM 相对提升 4.6%)两方面均实现显著提升。

F5R-TTS 的训练流程分为两个关键阶段:第一阶段基于 flow-matching 损失函数进行预训练;第二阶段采用 GRPO 算法对模型进行精细优化。这种两阶段训练策略既保证了模型的初始性能,又通过强化学习实现了针对性优化。

概率化改造:强化学习的基础

我们选用了当前效果领先的非自回归 TTS——F5-TTS 作为骨架。为了使非自回归模型适配 GRPO 框架,F5R-TTS 进行了关键的概率化改造。具体而言,模型被设计为预测每一步输出时的分布概率,而非直接预测确定性的输出值。这一改造使得模型输出具有了概率分布特性,为强化学习中的策略梯度计算提供了必要条件。

在第一阶段预训练中,目标函数仍采用 flow-matching 的形式,其核心思想是将标准正态分布 x0 的概率路径匹配到近似真实数据 x1 的分布上。模型在最后一层预测高斯分布的均值与方差,并通过优化参数以最大化 x1 −x0 的对数似然函数。这一过程可以形式化为以下目标函数:

简化后,模型使用下式作为预训练的目标函数

GRPO 强化

在 GRPO 阶段,预训练模型作为策略模型进行微调,同时以预训练参数初始化参考模型。

具体实现上,策略模型的前向运算需要执行类似推理过程的采样操作 —— 从标准高斯分布初始输入开始,逐步计算每一步的输出概率分布,并进行采样。采样结果既用于计算奖励信号,也需要与参考模型输出比较以计算 KL 散度损失,确保优化过程的稳定性。

奖励函数的设计是 GRPO 阶段的核心。研究团队选择了词错误率(WER)和说话人相似度(SIM)作为主要奖励指标,分别对应语音克隆任务中最关键的两个方面:语义准确性和音色保真度。

最终,GRPO 阶段的目标函数定义如下:

实验

研究团队设计了全面的实验来验证 F5R-TTS 的有效性。实验设置包括:

  • 预训练阶段:采用 7226 小时开源数据集 WenetSpeech4TTS Basic
  • GRPO 微调:随机选取 100 小时高质量语音数据
  • 评估体系:基于 Seed-TTS 测试标准,构建包含 2560 个测试样本(含 400 个高难度样本、140 个带噪样本)的评估集,计算 WER 和 SIM

研究团队首先采用 t-SNE 技术对说话人相似度进行二维空间可视化。结果如图 4 显示,对比其他方法,F5R-TTS 模型的合成结果能够更准确地按照目标说话人实现聚类。这一可视化结果直观地证明了 F5R-TTS 模型在说话人相似度方面的优越表现。

其次,采用全局方差(Global Variance, GV)指标进行频谱分析。如图 5 所示,F5R 模型的曲线与真实语音的曲线吻合度最高,再次验证 F5-R 模型的合成语音在频谱特性上与真实语音具有更高的相似性。

客观测评指标表明,采用 WER 和 SIM 作为奖励信号的 GRPO 方法,使 F5R-TTS 相较于基线在语义准确性和说话人相似度两个维度均获得提升。在说话人相关奖励的引导下,F5R 能够通过上下文学习更精准地克隆目标说话人的声学特征。

值得注意的是,在困难测试集上,F5R 在 WER 指标上的相对优势更为显著 —— 这得益于 WER 相关奖励组件有效增强了模型的语义保持能力。另外,为验证所提方法的泛化能力,实验还用在内部数据集上进行了重复验证,结果表明 GRPO 方法在不同数据集上都能持续提升模型性能。

同时,三个模型在困难测试集上的性能均出现下降,这表明文本复杂度的增加通常会导致模型稳定性降低。该现象将成为后续优化研究的重要切入点。

未来展望

F5R-TTS 首次成功将 GRPO 整合到非自回归 TTS 系统中,突破了非自回归模型难以应用强化学习的技术瓶颈。实验证明该方法能同时提升语义准确性和音色保真度,为零样本语音克隆提供了更优解决方案。文章提出的概率化输出转换策略为其他生成模型的强化学习优化提供了可借鉴的思路。这项研究不仅推动了语音合成技术本身的发展,也为其他生成式 AI 模型的优化提供了新思路。

展望未来,研究团队计划从三个方向继续深入探索:

  1. 强化学习算法扩展:探索将 PPO、DDPO 等其他强化学习算法整合到非自回归语音合成系统的可行性,寻求更高效的优化路径。
  2. 奖励函数优化:设计更精细、多层次的奖励函数,进一步提升模型在自然、个性化和表现力等方面的效果。
  3. 大规模数据验证:在更大规模、更多样化的训练数据上验证方法的扩展性,探索数据规模与模型性能的量化关系。

随着技术的不断成熟,期待未来出现更加自然、个性化和富有表现力的语音合成系统,为智能交互、内容创作、辅助技术等领域带来全新可能。

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
烧了18.6万美元让AI连轴肝了17天,它产出了166篇论文

烧了18.6万美元让AI连轴肝了17天,它产出了166篇论文

酷玩实验室
2026-03-25 18:25:49
“开除军籍、持外国绿卡、骗财骗色”,蒋大为身上标签哪个是真的

“开除军籍、持外国绿卡、骗财骗色”,蒋大为身上标签哪个是真的

寻墨阁
2026-03-25 12:40:35
歼-20总师被除名:长期任央企领导,最近照曝出,事发全过程披露

歼-20总师被除名:长期任央企领导,最近照曝出,事发全过程披露

博士观察
2026-03-23 23:03:27
加时崩盘!火箭108-110森林狼,本场谁是罪魁祸首,数据不会说谎

加时崩盘!火箭108-110森林狼,本场谁是罪魁祸首,数据不会说谎

小徐讲八卦
2026-03-26 12:55:53
马斯克放出Optimus最新视频,称有望在今年夏季启动量产

马斯克放出Optimus最新视频,称有望在今年夏季启动量产

华尔街见闻官方
2026-03-26 14:11:25
别让老人睡太早!研究表明:65 岁后,最佳睡觉时间是这个点,快对照看看

别让老人睡太早!研究表明:65 岁后,最佳睡觉时间是这个点,快对照看看

医者真言
2026-03-24 16:09:28
拒绝逆转!湖人137-130步行者,谁是本场比赛的功臣,数据不说谎

拒绝逆转!湖人137-130步行者,谁是本场比赛的功臣,数据不说谎

北纬的咖啡豆
2026-03-26 17:40:31
以军对伊朗基础设施发动大规模打击

以军对伊朗基础设施发动大规模打击

新华社
2026-03-26 12:29:02
3月26日人民币对美元中间价调贬145个基点

3月26日人民币对美元中间价调贬145个基点

证券时报
2026-03-26 09:34:06
金价暴跌超20%,乱世黄金的逻辑怎么破灭了?

金价暴跌超20%,乱世黄金的逻辑怎么破灭了?

牲产队
2026-03-26 14:59:40
外媒:40%的消费者希望中国品牌汽车进入美国市场

外媒:40%的消费者希望中国品牌汽车进入美国市场

环球网资讯
2026-03-24 13:45:12
伊朗愿意与“主和派”万斯谈!特朗普一边宣称胜利一边增兵中东:我和鲁比奥也要参与

伊朗愿意与“主和派”万斯谈!特朗普一边宣称胜利一边增兵中东:我和鲁比奥也要参与

红星新闻
2026-03-25 17:17:14
多个省级党委组织部部长调整

多个省级党委组织部部长调整

上观新闻
2026-03-26 12:48:05
3轮0球0助攻!U23国足天才新星踢中超状态断崖式下滑,恐沦为鸡肋

3轮0球0助攻!U23国足天才新星踢中超状态断崖式下滑,恐沦为鸡肋

零度眼看球
2026-03-26 07:41:28
如果美国疯狂印钞还完所有债会怎样 网友深度剖析 原来有人等着呢

如果美国疯狂印钞还完所有债会怎样 网友深度剖析 原来有人等着呢

侃神评故事
2026-03-23 17:20:03
张雪峰去世,日媒用了这样一句话评价他...

张雪峰去世,日媒用了这样一句话评价他...

今日日本
2026-03-25 11:10:15
哈萨克斯坦也没想到,跟着中国混来混去,结果自己也混成了个霸主

哈萨克斯坦也没想到,跟着中国混来混去,结果自己也混成了个霸主

花颜蕴韵
2026-03-26 03:37:13
受权发布|中华人民共和国国务院令  第833号

受权发布|中华人民共和国国务院令  第833号

新华社
2026-03-26 17:03:04
Anthropic甩出200页手册:Claude Code不是自

Anthropic甩出200页手册:Claude Code不是自

摸鱼算法
2026-03-26 12:24:53
这家北京“一人食天花板”,把我吃紧张了

这家北京“一人食天花板”,把我吃紧张了

Vista氢商业
2026-03-25 16:34:19
2026-03-26 18:32:49
机器之心Pro incentive-icons
机器之心Pro
专业的人工智能媒体
12606文章数 142593关注度
往期回顾 全部

科技要闻

Meta高管狂分百亿期权,700名员工却下岗

头条要闻

男子从四家公司贷出共计356万元 实际到手却仅8万多元

头条要闻

男子从四家公司贷出共计356万元 实际到手却仅8万多元

体育要闻

申京努力了,然而杜兰特啊

娱乐要闻

张雪峰家人首发声 不设追思会丧事从简

财经要闻

长护险谁能享受?享受多少?解答来了

汽车要闻

一汽奥迪A6L e-tron开启预售 CLTC最大续航815km

态度原创

游戏
亲子
本地
手机
公开课

又一经典最终幻想游戏将停运!开服至今已六年有余

亲子要闻

售卖“增高神药”让孩子“猛长20厘米”?多家店铺被立案调查!

本地新闻

救命,这只酱板鸭已经在我手机复仇了一万遍

手机要闻

顶配Ultra旗舰!vivo X300 Ultra配置公布:骁龙8E5+2K/144Hz直屏、8.19mm机身

公开课

李玫瑾:为什么性格比能力更重要?

无障碍浏览 进入关怀版