网易首页 > 网易号 > 正文 申请入驻

企业AI语音服务,微软语音克隆,全新VALL-E 2模型

0
分享至

最近,微软发布了零样本的文本到语音(TTS)模型VALLE-2,首次实现了与人类同等的水平,可以说是TTS领域里程碑式的进展。

论文地址:https://arxiv.org/pdf/2406.05370

企业如何合规、稳定使用微软语音服务及OpenAI?

出于合规角度,建议国内企业可以选择微软的Azure OpenAI服务来使用接口。

通过微软官方合作伙伴获取服务,企业用户可以合规、稳定地使用ChatGPT,满足国内发票需求,同时也能解决连接不稳定/响应速度慢/并发配额低等问题。

作为微软的合作伙伴,全云在线可为企业开通绿色申请通道!包括最新版本VALL-E 2、GPT-4o、Dalle-3等,只要企业有需求,全云在线都能协助快速开通!

参考链接:https://azureopenai.cloudallonline.com/?zxwwy174
企业微软 Azure OpenAI 免费试用申请

随着近年来深度学习的快速进步,用录音室环境下的干净单人语音训练模型,已经可以达到人类同等水平的质量,但零样本TTS依旧是一个有挑战性的问题。

「零样本」意味着推理过程中,模型只能参照一段简短的陌生语音样本,用相同的声音说出文本内容,就像一个能即时模仿的口技大师。

听到这里,不知道你会不会突然警觉——有这种能力的模型就是Deepfake的最佳工具!

令人欣慰的是,MSRA考虑到了这一点,他们目前只将VALL-E系列作为研究项目,并没有纳入产品或扩大使用范围的计划。

虽然VALL-E 2有很强的零样本学习能力可以像配音员一样模仿声音,但相似度和自然度取决于语音prompt的长度和质量、背景噪音等因素。

在项目页面和论文中,作者都进行了道德声明:如果要将VALL-E推广到真实世界的应用中,至少需要一个强大的合成语音检测模型,并设计一套授权机制,确保模型在合成语音前已经得到了声音所有者的批准。

对于微软这种只发论文不发产品的做法,有些网友表示非常失望。

毕竟最近各种翻车的产品让我们深深明白,只看demo完全不可靠,没法自己试用=没有。

但Reddit上有人揣测:微软只是不想当「第一个吃螃蟹的人」,不发模型是担心可能的带来的批评和负面舆论。

一旦有了能将VALL-E转化为产品的方法,或者市场上杀出其他竞品,难道还担心微软有钱不赚吗?

的确如网友所说,从项目页面目前放出的demo来看,很难判断VALL-E的真实水平。

项目页面:https://www.microsoft.com/en-us/research/project/vall-e-x/vall-e-2/

共5条文本都是不超过10个单词的英文短句,语音prompt的人声音色都非常相近,英语口音也不够多样化。

虽然demo不多,但能隐隐感受到,模型对英美口音的模仿非常炉火纯青,但如果prompt略带印度或者苏格兰口音,就很难达到以假乱真的程度。

方法

模型前身VALL-E发布于2023年初,已经是TTS在零样本方面的重大突破。VALL-E能够用3秒的录音合成个性化语音,同时保留说话者的声音、情绪和声学环境。

然而VALL-E存在两方面的关键限制:

1)稳定性:推理过程中使用的随机采样(random sampling)可能会导致输出不稳定,而top-p值较小的核采样可能会导致无限循环问题。虽然可以通过多次采样和后续排序来缓解,但会增加计算成本。

2)效率:VALL-E的自回归架构绑定了与现成的音频编解码器模型相同的高帧率,且无法调整,导致推理速度较慢。

虽然已经有多项研究用于改进VALL-E的这些问题,但往往会使模型的整体架构复杂化,而且增加了扩展数据规模的负担。

基于这些之前的工作,VALL-E 2包含两方面的关键创新:重复感知采样(repetition aware sampling)和分组代码建模(grouped code modeling)。

重复感知采样是对VALL-E中随机采样的改进,能够自适应地采用随机采样或者核采样(nucleus sampling),选择的依据是曾经的token重复,因此有效缓解了VALL-E的无限循环问题,大大增强解码稳定性。

重复感知采样的算法描述

分组代码建模则是将编解码器代码划分为多个组,自回归时每组在单个帧上建模。不仅减少了序列长度、加速推理,还通过缓解长上下文建模问题来提高性能。

值得注意的是,VALL-E 2仅需要简单的语音-转录文本数据进行训练,不需要额外的复杂数据,大大简化了数据的收集、处理流程,并提高了潜在的可扩展性。

具体来说,对于数据集中每条语音-文本数据,分别用音频编解码器编码器(audio codec encoder)和文本分词器将其表示为编解码器代码 =[ 0, 1,…, ( −1)]和文本序列 =[ 0, 1,…, ( −1)],用于自回归(AR)和非自回归(NAR)模型的训练。

AR和NAR模型都采用Transformer架构,后续的评估实验设计了4种变体进行对比。它们共享相同的NAR模型,但AR模型的组大小分别为1、2、4、8。

推理过程也同样是AR和NAR模型的结合。以文本序列 和代码提示 < ′,0为条件生成目标代码 ≥ ′,0的第一代码序列,再用自回归的方式生成每组的目标代码。

给定 ≥ ′,0序列后,就可以使用文本条件 和声学条件 < ′推断NAR模型,以生成剩余的目标代码序列 ≥ ′,≥1。

模型训练使用了Libriheavy语料库中的数据,包含7000个人朗读英语有声书的5万小时语音。文本和语音的分词分别使用BPE和开源的预训练模型EnCodec。

此外,也利用了开源的预训练模型Vocos作为语音生成的音频解码器。

评估

为了验证模型的语音合成效果是否能达到人类同等水平,评估采用了SMOS和CMOS两个主观指标,并使用真实的人类语音作为ground truth。

SMOS(Similarity Mean Opinion Score)用于评估语音与原始提示的相似度,评分范围为1~5,增量为0.5分。

CMOS(Comparative Mean Opinion Score)用于评估合成语音与给定参考语音的比较自然程度,标度范围为-3~3,增量为1。

根据表2结果,VALL-E 2的主观评分不仅超过了第一代的VALL-E,甚至比人类真实语音有更完美的表现。

此外,论文也使用了SIM、WER和DNSMOS等客观指标来评估合成语音的相似度、鲁棒性和整体感知质量。

在这3个客观指标上,无论VALL-E 2的组大小如何设置,相比VALL-E都有全方位的提升,WER和DNSMOS分数也优于真实人类语音,但SIM分数还存在一定差距。

此外,从表3结果也能发现,VALL-E 2的AR模型组大小为2时,可以取得最优效果。

在VCTK数据集上的测评也可以得到相似的结论。当prompt长度增加时,分组代码建模方法可以减少序列长度,缓解Transformer架构中不正确注意力机制导致的生成错误,从而在WER分数上得到提升。

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
上海有人雇佣“外籍家政服务员”,吃了大亏:珠宝首饰被盗走,自己也被罚了!

上海有人雇佣“外籍家政服务员”,吃了大亏:珠宝首饰被盗走,自己也被罚了!

上观新闻
2026-01-08 11:56:12
阿莫林在曼联多次想不干,拉爵约喝酒安抚!索帅高情商吸引管理层

阿莫林在曼联多次想不干,拉爵约喝酒安抚!索帅高情商吸引管理层

罗米的曼联博客
2026-01-08 11:58:00
20岁福建网红被骗柬埔寨,8万榨干涉毒濒死,暴富梦碎街头流浪

20岁福建网红被骗柬埔寨,8万榨干涉毒濒死,暴富梦碎街头流浪

星辰夜语
2026-01-07 20:43:22
马斯克:中国好像把我提的所有建议都听进去并落实了

马斯克:中国好像把我提的所有建议都听进去并落实了

蓝色海边
2026-01-08 01:01:04
血的教训!美军突袭委内瑞拉:多亏这套系统,解放军却从未装备?

血的教训!美军突袭委内瑞拉:多亏这套系统,解放军却从未装备?

科普100克克
2026-01-07 18:49:01
北约秘书长:格陵兰岛已准备好接收更多美军,我知道丹麦完全愿意

北约秘书长:格陵兰岛已准备好接收更多美军,我知道丹麦完全愿意

李健政观察
2026-01-08 09:33:30
一堆鸡粪引发命案!高三男生被邻居蓄意驾车撞死,教训惨痛

一堆鸡粪引发命案!高三男生被邻居蓄意驾车撞死,教训惨痛

天天热点见闻
2026-01-07 02:58:19
看了王洪泽不敢投篮被杜锋骂哭的名场面,才发现,阿旺到底强在哪

看了王洪泽不敢投篮被杜锋骂哭的名场面,才发现,阿旺到底强在哪

后仰大风车
2026-01-08 09:05:08
两大世纪悬案新进展!十二宫杀手的密码竟然指向了黑色大丽花

两大世纪悬案新进展!十二宫杀手的密码竟然指向了黑色大丽花

新民周刊
2026-01-07 20:35:48
当石油被抢后,西方普遍认为北京只能认栽,怎料中方一招逆转局面

当石油被抢后,西方普遍认为北京只能认栽,怎料中方一招逆转局面

小lu侃侃而谈
2026-01-02 19:54:47
委内瑞拉外长:感谢中国政府支持

委内瑞拉外长:感谢中国政府支持

新京报
2026-01-08 13:36:07
0-2大逆转!蒯曼再战张本美和,多哈上演中日新锐对决

0-2大逆转!蒯曼再战张本美和,多哈上演中日新锐对决

阿晞体育
2026-01-08 13:27:29
谁给了这些骗子的胆量,让其敢如此大胆,长期招摇撞骗?

谁给了这些骗子的胆量,让其敢如此大胆,长期招摇撞骗?

青锋看天下
2026-01-07 08:30:03
并非没有抵抗!古巴卫队血战到全员覆没,委军真实战力暴露

并非没有抵抗!古巴卫队血战到全员覆没,委军真实战力暴露

兵国大事
2026-01-05 17:59:20
医生叮嘱:家中老人一旦迈入63岁,以下这5条建议一定要牢记

医生叮嘱:家中老人一旦迈入63岁,以下这5条建议一定要牢记

健康之光
2025-12-18 09:30:34
55年大授衔后,军官找对象很受女青年欢迎,为什么中尉最吃香?

55年大授衔后,军官找对象很受女青年欢迎,为什么中尉最吃香?

史之铭
2026-01-07 20:42:10
国足对阵伊拉克首发公布:王钰栋领衔锋线,彭啸复出

国足对阵伊拉克首发公布:王钰栋领衔锋线,彭啸复出

小皷拍客在北漂
2026-01-08 11:35:11
窝阔台家族与拖雷家族的较量:在绝对的实力面前,计谋的作用不大

窝阔台家族与拖雷家族的较量:在绝对的实力面前,计谋的作用不大

阿光的技巧课堂
2025-12-17 21:48:01
不是鲁能也不是申花!斯坦重返中超新东家浮出水面,球迷直言意外

不是鲁能也不是申花!斯坦重返中超新东家浮出水面,球迷直言意外

张丽说足球
2026-01-08 10:11:45
永州夺冠赢麻了!2026年苏超第一战“打响”,台湾省网友加入应援

永州夺冠赢麻了!2026年苏超第一战“打响”,台湾省网友加入应援

火山詩话
2026-01-08 06:23:42
2026-01-08 14:08:49
全云在线
全云在线
信息网络安全合规相关资讯
900文章数 15关注度
往期回顾 全部

科技要闻

雷军:现在听到营销这两个字都有点恶心

头条要闻

委内瑞拉外长:感谢中方支持

头条要闻

委内瑞拉外长:感谢中方支持

体育要闻

约基奇倒下后,一位故人邪魅一笑

娱乐要闻

2026春节档将有六部电影强势上映

财经要闻

微软CTO韦青:未来人类会花钱"戒手机"

汽车要闻

不谈颠覆与奇迹,智驾企业还能聊点什么?

态度原创

健康
房产
亲子
旅游
军事航空

这些新疗法,让化疗不再那么痛苦

房产要闻

三亚新房,又全国第一了!

亲子要闻

“她真丢了就好了!”宝妈称厌恶10岁女儿,引众多网友共鸣!

旅游要闻

报告:预计2025-2026冬季,我国冰雪旅游休闲收入有望达到4500亿元

军事要闻

特朗普提出将美国军费提升至1.5万亿美元

无障碍浏览 进入关怀版