网易首页 > 网易科技 > 网易科技 > 正文

百度发布Deep Speaker:声纹识别的端对端系统

0
分享至

(原标题:百度发布Deep Speaker:大规模声纹识别的端对端系统)

日前,百度美研院宣布了其在声纹识别上所取得的突破性成果。研究表明:利用深度学习的方法比传统的i-vector方法在识别准确率上获得了显著的提高。

声纹识别算法寻求从音频中识别说话者的身份。两个常见的识别任务是确认(说话者是不是他宣称的那个人)和说话者身份识别(在一群未知的说话者中确认声音的来源)。

该项技术已经有了各种应用。例如,声纹可以用来登录设备。说话者确认也可以作为金融交易的额外安全措施。此外,类似于智能家居助手之类的共享设备也可以利用这项技术来提供个性化的服务。

最近使用神经网络来进行声纹识别的论文已经改进了传统的i-vector方法(参考Interspeech教程的原始论文或者幻灯片)。i-vector方法认为说话内容可以被分为两个部分,一个部分依赖于说话者和信道可变性,另一个部分依赖于其它的相关因素。i-vector声纹识别是一个多步过程,其涉及到使用不同说话者的数据来估计一个通用的背景模型(通常是高斯混合模型),收集充分的统计数据,提取i-vector,最后使用一个分类器来进行识别任务。

一些论文用神经网络代替了i-vector流水线的方法。其它研究者要么训练了一个文本相关(使用者必须说同样的话)的端对端语者识别系统,要么训练了文本独立(这个模型与说话内容不相关)的端对端语者识别系统。我们介绍Deep Speaker:一个端对端的神经声纹识别系统,它在文本相关和文本独立的场景下都取得了良好的效果。这意味这个系统可以被训练来识别谁在说话,无论是当你对你的家庭助手说“wake”或者你在会议中发言。

Deep Speaker由深度神经网络层组成,从音频中提取特征,基于余弦相似性的时间池和三元组损失(triplet loss)。百度美研院探究了ResNet激活的卷积模型和现有模型在提取声学特征上的效果。

说明:在这里百度美研院使用了人脸识别中采用的三元组损失。在训练过程中,他们选择了一个说话者的话语,然后计算一个嵌入(标记为“Anchor”)。再产生两个嵌入,一个来自相同的演讲者(标记为“Positive”),一个来自于不同的演讲者(标记为“Negative”)。在训练过程中,其目标是让Anchor与positive嵌入之间的余弦相似度高于Anchor与negative嵌入之间的余弦相似度。

百度美研院展示了Deep Speaker在三个不同数据集上的有效性,包括文本相关和文本独立的任务。其中之一的UIDs数据集包括大约250000名说话者,是知识文献中最大的数据集。实验结果表明:Deep Speaker要明显优于基于DNN的i-vector方法。例如,在一个文本独立的数据集中随机挑选出100个演讲者,Deep Speaker在说话者身份确认任务上的错误率是1.83%,正确率是92.58%。相比于基于DNN 的i-vector方法,它降低了50%的错误率,提高了60%的正确率。

说明:在实验中百度美研院所使用的数据集是UIDs,XiaoDu,和Mandarin。UIDs和XiaoDu是普通话数据集,Mturk是英语数据集。UIDs和Mturk是文本独立的数据集,XiaoDu是文本相关的数据集,其基于百度的唤醒字(wake word)。为了在不同大小的训练集上做实验,他们用了全部的UIDs数据集(250,000)和它的一个子集(50,000)。在评估阶段,他们选择了一个Anchor,然后再从测试部分随机地选择1个Anchor positive样本和99个Anchor negatives样本。

团队还发现Deep Speaker学习到了与语言无关的特征。当在普通话语境下训练时,Deep Speaker却能在英文确认和识别的任务上达到5.57%的错误率和88%的正确率。此外,先用普通话再用英文训练可相比于只用英文训练,提高了英文识别的准确率。这些结果都显示出尽管不同的语言听起来非常不同,深度语者却学习到了跨语言的声音特征。这些结果与Deep Speech 2的结果类似,同样的架构都可以用来辨认不同语言的声纹识别。

相关推荐
热点推荐
全球无人敢惹的十个黑老大,本拉登只排第二,榜首竟是一个华人?

全球无人敢惹的十个黑老大,本拉登只排第二,榜首竟是一个华人?

北风那个吹呀吹
2024-04-26 21:31:34
日民众声援加沙,在日华人骂“能否滚出日本”,遭怼:不能!我们才是真日本人

日民众声援加沙,在日华人骂“能否滚出日本”,遭怼:不能!我们才是真日本人

不掉线电波
2024-04-28 21:39:49
布林肯在中国遭BBC女记者连怼:你们要求中国停止出口零部件,自己却向以色列提供武器?

布林肯在中国遭BBC女记者连怼:你们要求中国停止出口零部件,自己却向以色列提供武器?

国际在线
2024-04-28 14:52:26
CBA四强出炉!辽粤大战来袭,新疆死磕浙江,广厦上海出局

CBA四强出炉!辽粤大战来袭,新疆死磕浙江,广厦上海出局

天涯沦落人
2024-04-29 21:32:41
田馥甄内地复出失败!音乐节宣布取消其演出,本人发声强撑体面

田馥甄内地复出失败!音乐节宣布取消其演出,本人发声强撑体面

萌神木木
2024-04-27 22:17:58
东莞市最新人事任免!投资促进局迎来新局长

东莞市最新人事任免!投资促进局迎来新局长

南方都市报
2024-04-29 16:52:15
一个国家被踢出SWIFT系统的后果非常的严重!

一个国家被踢出SWIFT系统的后果非常的严重!

华夏司马北
2024-04-24 22:01:49
问界M7追尾起火3人遇难,车型确认为M7 Plus!不支持华为高阶智驾

问界M7追尾起火3人遇难,车型确认为M7 Plus!不支持华为高阶智驾

皖声微言
2024-04-28 13:46:48
网传胡锡进被邀请开讲座,主办方称规模是万人级别,现场看上座率不足10%!

网传胡锡进被邀请开讲座,主办方称规模是万人级别,现场看上座率不足10%!

可达鸭面面观
2024-04-29 09:56:21
A股明天仍然开盘,突然传来一大消息,或将产生重大级别影响?

A股明天仍然开盘,突然传来一大消息,或将产生重大级别影响?

股市皆大事
2024-04-29 15:32:40
明天A股将让所有人目瞪口呆!普涨一定会来,让我们一起见证!

明天A股将让所有人目瞪口呆!普涨一定会来,让我们一起见证!

彩云的夕阳
2024-04-29 13:57:12
开局9轮不胜的伯恩茅斯拿到48分,创队史单赛季英超积分新高

开局9轮不胜的伯恩茅斯拿到48分,创队史单赛季英超积分新高

懂球帝
2024-04-28 23:46:27
外媒:布林肯称,美国与沙特“接近完成”关于以色列沙特正常化关系协议

外媒:布林肯称,美国与沙特“接近完成”关于以色列沙特正常化关系协议

环球网资讯
2024-04-29 20:11:12
深圳商家吸港人新招!宣传语直击灵魂,网友:还是大陆人会做生意

深圳商家吸港人新招!宣传语直击灵魂,网友:还是大陆人会做生意

热闹吃瓜大姐
2024-04-29 21:27:34
女子同房太激烈,大出血1500毫升,同房男子身份曝光,闹大了

女子同房太激烈,大出血1500毫升,同房男子身份曝光,闹大了

三月柳
2024-04-29 12:24:54
广东男篮14名主力亮相,杜锋重用辽宁19岁后卫,辽粤比赛大反转

广东男篮14名主力亮相,杜锋重用辽宁19岁后卫,辽粤比赛大反转

体育咆哮君
2024-04-29 18:06:00
看到孟晚舟少女时的照片,不禁感叹:好美!这大概就是青春的样子

看到孟晚舟少女时的照片,不禁感叹:好美!这大概就是青春的样子

宛沐
2024-04-03 16:00:06
恭喜! 意甲豪门重建, 穆里尼奥出山, 年薪600万签神锋, 重创国米

恭喜! 意甲豪门重建, 穆里尼奥出山, 年薪600万签神锋, 重创国米

雨涵谈科技
2024-04-29 17:19:50
我国共设立六座军事监狱,其中五座分布五大战区,另一座军委直辖

我国共设立六座军事监狱,其中五座分布五大战区,另一座军委直辖

笔墨V
2024-04-29 11:03:36
盎撒人和犹太人要开始对决了?!这场美国大学生运动不简单

盎撒人和犹太人要开始对决了?!这场美国大学生运动不简单

怪口历史的K先生
2024-04-29 13:53:06
2024-04-29 23:40:49

科技要闻

马斯克收获大礼,李彦宏梅开二度?

头条要闻

周鸿祎近10天里热搜不断 背后是360市值蒸发4000多亿

头条要闻

周鸿祎近10天里热搜不断 背后是360市值蒸发4000多亿

体育要闻

足球童话!执教16年,从业余联赛到德甲

娱乐要闻

田馥甄遭抵制,蔡依林却能稳稳捞金?

财经要闻

建信人寿巨亏40亿 部分产品退保率93%

汽车要闻

配置更丰富 静态体验2024款欧拉好猫

态度原创

教育
家居
游戏
艺术
军事航空

教育要闻

南充中考:用换元法带入试中再化简,立马变得很简单

家居要闻

光影之间 空间暖意打造生活律动

索尼补丁和谐《剑星》引众怒 / 《Hades 2》会尽快开启“抢先体验”

艺术要闻

共度北京108小时 北京当代2024“凝聚”全球36座城市100余家艺术机构

军事要闻

以军轰炸加沙地带南部城市拉法 至少15人死亡

无障碍浏览 进入关怀版
×