网易首页 > 网易号 > 正文 申请入驻

企业AI语音服务,微软语音克隆,全新VALL-E 2模型

0
分享至

最近,微软发布了零样本的文本到语音(TTS)模型VALLE-2,首次实现了与人类同等的水平,可以说是TTS领域里程碑式的进展。

论文地址:https://arxiv.org/pdf/2406.05370

企业如何合规、稳定使用微软语音服务及OpenAI?

出于合规角度,建议国内企业可以选择微软的Azure OpenAI服务来使用接口。

通过微软官方合作伙伴获取服务,企业用户可以合规、稳定地使用ChatGPT,满足国内发票需求,同时也能解决连接不稳定/响应速度慢/并发配额低等问题。

作为微软的合作伙伴,全云在线可为企业开通绿色申请通道!包括最新版本VALL-E 2、GPT-4o、Dalle-3等,只要企业有需求,全云在线都能协助快速开通!

参考链接:https://azureopenai.cloudallonline.com/?zxwwy174
企业微软 Azure OpenAI 免费试用申请

随着近年来深度学习的快速进步,用录音室环境下的干净单人语音训练模型,已经可以达到人类同等水平的质量,但零样本TTS依旧是一个有挑战性的问题。

「零样本」意味着推理过程中,模型只能参照一段简短的陌生语音样本,用相同的声音说出文本内容,就像一个能即时模仿的口技大师。

听到这里,不知道你会不会突然警觉——有这种能力的模型就是Deepfake的最佳工具!

令人欣慰的是,MSRA考虑到了这一点,他们目前只将VALL-E系列作为研究项目,并没有纳入产品或扩大使用范围的计划。

虽然VALL-E 2有很强的零样本学习能力可以像配音员一样模仿声音,但相似度和自然度取决于语音prompt的长度和质量、背景噪音等因素。

在项目页面和论文中,作者都进行了道德声明:如果要将VALL-E推广到真实世界的应用中,至少需要一个强大的合成语音检测模型,并设计一套授权机制,确保模型在合成语音前已经得到了声音所有者的批准。

对于微软这种只发论文不发产品的做法,有些网友表示非常失望。

毕竟最近各种翻车的产品让我们深深明白,只看demo完全不可靠,没法自己试用=没有。

但Reddit上有人揣测:微软只是不想当「第一个吃螃蟹的人」,不发模型是担心可能的带来的批评和负面舆论。

一旦有了能将VALL-E转化为产品的方法,或者市场上杀出其他竞品,难道还担心微软有钱不赚吗?

的确如网友所说,从项目页面目前放出的demo来看,很难判断VALL-E的真实水平。

项目页面:https://www.microsoft.com/en-us/research/project/vall-e-x/vall-e-2/

共5条文本都是不超过10个单词的英文短句,语音prompt的人声音色都非常相近,英语口音也不够多样化。

虽然demo不多,但能隐隐感受到,模型对英美口音的模仿非常炉火纯青,但如果prompt略带印度或者苏格兰口音,就很难达到以假乱真的程度。

方法

模型前身VALL-E发布于2023年初,已经是TTS在零样本方面的重大突破。VALL-E能够用3秒的录音合成个性化语音,同时保留说话者的声音、情绪和声学环境。

然而VALL-E存在两方面的关键限制:

1)稳定性:推理过程中使用的随机采样(random sampling)可能会导致输出不稳定,而top-p值较小的核采样可能会导致无限循环问题。虽然可以通过多次采样和后续排序来缓解,但会增加计算成本。

2)效率:VALL-E的自回归架构绑定了与现成的音频编解码器模型相同的高帧率,且无法调整,导致推理速度较慢。

虽然已经有多项研究用于改进VALL-E的这些问题,但往往会使模型的整体架构复杂化,而且增加了扩展数据规模的负担。

基于这些之前的工作,VALL-E 2包含两方面的关键创新:重复感知采样(repetition aware sampling)和分组代码建模(grouped code modeling)。

重复感知采样是对VALL-E中随机采样的改进,能够自适应地采用随机采样或者核采样(nucleus sampling),选择的依据是曾经的token重复,因此有效缓解了VALL-E的无限循环问题,大大增强解码稳定性。

重复感知采样的算法描述

分组代码建模则是将编解码器代码划分为多个组,自回归时每组在单个帧上建模。不仅减少了序列长度、加速推理,还通过缓解长上下文建模问题来提高性能。

值得注意的是,VALL-E 2仅需要简单的语音-转录文本数据进行训练,不需要额外的复杂数据,大大简化了数据的收集、处理流程,并提高了潜在的可扩展性。

具体来说,对于数据集中每条语音-文本数据,分别用音频编解码器编码器(audio codec encoder)和文本分词器将其表示为编解码器代码 =[ 0, 1,…, ( −1)]和文本序列 =[ 0, 1,…, ( −1)],用于自回归(AR)和非自回归(NAR)模型的训练。

AR和NAR模型都采用Transformer架构,后续的评估实验设计了4种变体进行对比。它们共享相同的NAR模型,但AR模型的组大小分别为1、2、4、8。

推理过程也同样是AR和NAR模型的结合。以文本序列 和代码提示 < ′,0为条件生成目标代码 ≥ ′,0的第一代码序列,再用自回归的方式生成每组的目标代码。

给定 ≥ ′,0序列后,就可以使用文本条件 和声学条件 < ′推断NAR模型,以生成剩余的目标代码序列 ≥ ′,≥1。

模型训练使用了Libriheavy语料库中的数据,包含7000个人朗读英语有声书的5万小时语音。文本和语音的分词分别使用BPE和开源的预训练模型EnCodec。

此外,也利用了开源的预训练模型Vocos作为语音生成的音频解码器。

评估

为了验证模型的语音合成效果是否能达到人类同等水平,评估采用了SMOS和CMOS两个主观指标,并使用真实的人类语音作为ground truth。

SMOS(Similarity Mean Opinion Score)用于评估语音与原始提示的相似度,评分范围为1~5,增量为0.5分。

CMOS(Comparative Mean Opinion Score)用于评估合成语音与给定参考语音的比较自然程度,标度范围为-3~3,增量为1。

根据表2结果,VALL-E 2的主观评分不仅超过了第一代的VALL-E,甚至比人类真实语音有更完美的表现。

此外,论文也使用了SIM、WER和DNSMOS等客观指标来评估合成语音的相似度、鲁棒性和整体感知质量。

在这3个客观指标上,无论VALL-E 2的组大小如何设置,相比VALL-E都有全方位的提升,WER和DNSMOS分数也优于真实人类语音,但SIM分数还存在一定差距。

此外,从表3结果也能发现,VALL-E 2的AR模型组大小为2时,可以取得最优效果。

在VCTK数据集上的测评也可以得到相似的结论。当prompt长度增加时,分组代码建模方法可以减少序列长度,缓解Transformer架构中不正确注意力机制导致的生成错误,从而在WER分数上得到提升。

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
第1现场|德黑兰发生爆炸,伊朗关闭领空,以色列全境拉响防空警报

第1现场|德黑兰发生爆炸,伊朗关闭领空,以色列全境拉响防空警报

澎湃新闻
2026-02-28 16:26:29
巴基斯坦第一波损失惨重,凌晨下令战机起飞:直接轰炸阿富汗首都

巴基斯坦第一波损失惨重,凌晨下令战机起飞:直接轰炸阿富汗首都

云舟史策
2026-02-28 07:43:52
南京双胞胎决裂内情曝光:生父让哥哥把账号给弟弟,说弟弟更聪明

南京双胞胎决裂内情曝光:生父让哥哥把账号给弟弟,说弟弟更聪明

江山挥笔
2026-02-27 11:19:49
继承权无需争抢了!2025年起,父母的房子,一律按照"新规定"处置

继承权无需争抢了!2025年起,父母的房子,一律按照"新规定"处置

猫叔东山再起
2026-02-28 12:00:03
直接开火!黄金狂欢派对开启?

直接开火!黄金狂欢派对开启?

口袋贵金属官方
2026-02-28 17:11:35
火箭5300万打水漂?电风扇低迷,被底薪后卫抢戏!或沦为交易筹码

火箭5300万打水漂?电风扇低迷,被底薪后卫抢戏!或沦为交易筹码

熊哥爱篮球
2026-02-28 18:16:31
惨!曼城新援沦为第二个福登!22 岁天才遭弃用,真相太扎心

惨!曼城新援沦为第二个福登!22 岁天才遭弃用,真相太扎心

澜归序
2026-02-28 16:26:36
以色列总理发表全国讲话:军事行动目标是推翻伊朗政权

以色列总理发表全国讲话:军事行动目标是推翻伊朗政权

环球网资讯
2026-02-28 16:26:19
巴拿马总统摊牌:只要中国敢反制,巴方就回击,外交部态度明确

巴拿马总统摊牌:只要中国敢反制,巴方就回击,外交部态度明确

钦点历史
2026-02-28 09:16:56
以色列特拉维夫遭到多枚伊朗导弹袭击

以色列特拉维夫遭到多枚伊朗导弹袭击

环球网资讯
2026-02-28 16:46:28
出大事了,特朗普话音刚落,伊朗首都发生爆炸,朝鲜也“认怂”

出大事了,特朗普话音刚落,伊朗首都发生爆炸,朝鲜也“认怂”

策略述
2026-02-28 16:23:21
小徐已成立公司

小徐已成立公司

雷达财经
2026-02-27 17:08:37
丈夫影院暴打男小三,妻子带娃出轨视频曝光,真容被扒后续更炸裂

丈夫影院暴打男小三,妻子带娃出轨视频曝光,真容被扒后续更炸裂

壹月情感
2026-02-28 14:02:30
广西高速发生重大事故 导致道路长时间拥堵

广西高速发生重大事故 导致道路长时间拥堵

七彩云南简南俊
2026-02-28 15:48:17
湖南一男子杀鸭从鸭肚中剖出多颗金色颗粒,灼烧鉴定为黄金,当事人:当地河道曾采金,可能是鸭子觅食时误食

湖南一男子杀鸭从鸭肚中剖出多颗金色颗粒,灼烧鉴定为黄金,当事人:当地河道曾采金,可能是鸭子觅食时误食

扬子晚报
2026-02-27 07:34:01
勇士放弃签约!联盟第一玻璃人!NBA生涯结束了

勇士放弃签约!联盟第一玻璃人!NBA生涯结束了

篮球教学论坛
2026-02-28 11:38:21
网传新能源汽车开征“里程税”10省市试点 多地回应:没有通知也无征收文件|云辟谣

网传新能源汽车开征“里程税”10省市试点 多地回应:没有通知也无征收文件|云辟谣

封面新闻
2026-02-27 19:17:03
久用浅才是真的浅 OPPO Find N6折痕控制新标杆

久用浅才是真的浅 OPPO Find N6折痕控制新标杆

PChome电脑之家
2026-02-28 18:16:19
八十年代,厦门搞特区让驻军全撤,市委书记与军政委说话不客气!

八十年代,厦门搞特区让驻军全撤,市委书记与军政委说话不客气!

混沌录
2026-02-13 00:10:08
中央5台直播乒乓球比赛:2月28日CCTV5、CCTV5+最新节目单!

中央5台直播乒乓球比赛:2月28日CCTV5、CCTV5+最新节目单!

郝小小看体育
2026-02-28 04:09:30
2026-02-28 18:52:49
全云在线
全云在线
信息网络安全合规相关资讯
900文章数 15关注度
往期回顾 全部

科技要闻

狂揽1100亿美元!OpenAI再创融资神话

头条要闻

以色列先发制人 8个月后伊美以再次引燃中东

头条要闻

以色列先发制人 8个月后伊美以再次引燃中东

体育要闻

球队主力全报销?顶风摆烂演都不演了

娱乐要闻

疑似王一博被爆私密聊天记录

财经要闻

沈明高提共富建议 百姓持科技股国家兜底

汽车要闻

岚图泰山黑武士版3月上市 搭载华为四激光智驾方案

态度原创

健康
房产
数码
手机
公开课

转头就晕的耳石症,能开车上班吗?

房产要闻

滨江九小也来了!集齐海侨北+哈罗、寰岛...江东教育要炸了!

数码要闻

“冠军严选”:Pulsar派世预告第二代《CS》选手ZywOo联名鼠标

手机要闻

一加15T手机曝光,这些特性太诱人!

公开课

李玫瑾:为什么性格比能力更重要?

无障碍浏览 进入关怀版