网易首页 > 网易数码 > 电脑 > 正文

最强大脑百度人机大战背后原理是什么?

0
分享至

(原标题:最强大脑百度人机大战背后原理是什么?)

【中关村在线软件资讯】1月14日消息:昨晚,江苏卫视《最强大脑》第四季"人机大战"进入三番赛的第二轮,搭载"百度大脑"的"小度"机器人挑战名人堂选手11岁的"听音神童"孙亦廷,双方1:1打成平手。

本轮的比赛范围划定在"听"的领域,由周杰伦作为出题人,从21位性别相同、年龄相仿、声线极为相似的专业合唱团中,选出三位每个人读一句话,加密后成为断断续续的声音样本再交给小度和孙亦廷,要求他们从合唱声音中识别出三名线人的声音。

最终,共计三道题目的比赛中,第一道题人工智能"小度"和"最强耳朵"孙亦廷同时判断错误,且结果惊人的一致;第二位线人被小神童孙亦廷识别出,小度判断错误;第三道题孙亦廷判断错误,小度则力挽狂澜,成功识别出第三位线人,双方1:1打为平手。

对于"小度"一胜一平的领先态势,百度深度学习实验室主任林元庆此前表示,这次人机大战是以实战的方式来,来检验百度人工智能和人类差距。但是,打败人类并不是参赛的目的,而是希望在此过程中不断进步,演化出很好的技术来服务人类。

最后,百度对本次比赛涉及的技术细节也进行了较详细的阐释:

本次比赛对机器来说是声纹识别。声纹识别和语音识别一样,都是通过对采集到的语音信号进行分析和处理,提取相应的特征或建立相应的模型,然后据此做出判断;但它与语音识别又有区别,其目的不是识别语音的内容,而是识别说话人的身份。



1、什么是声纹识别?

声纹识别简单的说就是判断给定的一句话到底是谁说的技术。早在上世纪40年代末期就有相关研究者开始进行相关技术的探索,主要应用于军事情报领域。其理论基础就是"每个人的说话特性都具有其独特的特征",而决定这种独特特征的主要因素有:

1)声腔的差异,其包括咽喉、鼻腔、口腔以及胸腔等,这些欺诳的形状、尺寸和位置决定了声腔的差异。因此大家可以感受到,不同的人说话,其声音的频率分布是不同的;

2)发声的操作方式,主要是指唇、口齿、舌头等部位在发声时的相互作用。一般而言,人在逐渐的学习过程中就会慢慢的形成了自己的声纹特性,正常说话时的声纹状态还是相对稳定的。但是声纹特性仍然具有易变性,因为影响声纹特性的两个因素非常容易受身体状况、年龄、情绪等情况的干扰,从而导致声纹特性的变化。例如:人随着年龄的变化声纹特性也在随之变化,尤其是小时候和成年后;人在感冒时由于鼻腔堵塞等问题会明显感觉到声纹特性的不一致等。当然,人也可以通过刻意的模仿等形成不同的声纹特性。总而言之,声纹特征是类似于虹膜、指纹等一种具有独特性的生物特征。

声纹识别从任务上来说,主要分为声纹确认技术(1:1)和声纹识别技术(1:N)两类。声纹确认技术回答的是两句话到底是不是一个人说的问题,而声纹识别技术回答的则是"给定的一句话属于样本库中谁说的"问题。本次节目就是采用了"声纹识别"任务,在21位声音特性及其相似的歌手中,凭借着有限的声音样本,来回答样本属于谁的问题。

2、百度大脑如何提取声纹特征?算法如何?

1)声学特征提取

语音信号可以认为是一种短时平稳信号和长时非平稳信号,其长时的非平稳特性是由于发音器官的物理运动过程变化而产生的。从发音机理上来说,人在发出不同种类的声音时,声道的情况是不一样的,各种器官的相互作用,会形成不同的声道模型,而这种相互作用的变化所形成的不同发声差异是非线性的。但是,发声器官的运动又存在一定的惯性,所以在短时间内,我们认为语音信号还是可以当成平稳信号来处理,这个短时一般范围在10到30毫秒之间。

这个意思就是说语音信号的相关特征参数的分布规律在短时间(10-30ms)内可以认为是一致的,而在长时间来看则是有明显变化的。在数字信号处理时,一般而言我们都期望对平稳信号进行时频分析,从而提取特征。因此,在对语音信号进行特征提取的时候,我们会有一个20ms左右的时间窗,在这个时间窗内我们认为语音信号是平稳的。然后以这个窗为单位在语音信号上进行滑动,每一个时间窗都可以提取出一个能够表征这个时间窗内信号的特征,从而就得到了语音信号的特征序列。这个过程,我们称之为声学特征提取。这个特征能够表征出在这个时间窗内的语音信号相关信息。如下图所示:


这样,我们就能够将一段语音转化得到一个以帧为单位的特征序列。由于人在说话时的随机性,不可能得到两段完全一模一样的语音,即便是同一个人连续说同样的内容时,其语音时长和特性都不能完全一致。因此,一般而言每段语音得到的特征序列长度是不一样的。

在时间窗里采取的不同的信号处理方式,就会得到不同的特征,目前常用的特征有滤波器组fbank,梅尔频率倒谱系数MFCC以及感知线性预测系数PLP特征等。然而这些特征所含有的信息较为冗余,我们还需要进一步的方法将这些特征中所含有的说话人信息进行提纯。

2)说话人特征提取

我们在提取说话人特征的过程中采用了经典的DNN-ivector系统以及基于端到端深度神经网络的说话人特征(Dvector)提取系统。两套系统从不同的角度实现了对说话人特征的抓取。

A.算法1DNN-ivector


这是目前被广泛采用的声纹识别系统。其主要特点就是将之前提取的声学特征通过按照一定的发声单元对齐后投影到一个较低的线性空间中,然后进行说话人信息的挖掘。直观上来说,可以理解成是在挖掘"不同的人在发同一个音时的区别是什么?"。

首先我们会用大量的数据训练一个能够将声学特征很好的对应到某一发声单元的神经网络,如下图所示。这样,每一帧特征通过神经网络后,就会被分配到某一发声单元上去。然后,我们会对每一句话在所有的发声单元进行逐个统计,按照每个发声单元没单位统计得到相应的信息。这样,对于每一句话我们就会得到一个高维的特征矢量。

在得到高维的特征矢量后,我们就会采用一种称之为total variability的建模方法对高维特征进行建模,M=m+Tw。其中m是所有训练数据得到的均值超矢量,M则是每一句话的超矢量,T是奇通过大量数据训练得到的载荷空间矩阵,w则是降维后得到的ivector特征矢量,根据任务情况而言,一般取几百维。最后,对这个ivector采用概率线性判别分析PLDA建模,从而挖掘出说话人的信息。

在实际中,我们依托百度领先的语音识别技术训练了一个高精度的深度神经网络来进行发声单元的对齐,然后依托海量数据训练得到了载荷矩阵空间T,最后创造性地采用了自适应方法来进行调整T空间和PLDA空间,大大增强了模型在唱歌和说话跨方式以及短时上的声纹识别鲁棒性。

B.算法2基于端到端深度学习的说话人信息提取


如果说上一套方法还借鉴了一些语音学的知识(采用了语音识别中的发声单元分类网络),那么基于端到端深度学习的说话人信息提取则是一个纯粹的数据驱动的方式。通过百度的海量数据样本以及非常深的卷积神经网络来让机器自动的去发掘声学特征中的说话人信息差异,从而提取出声学特征中的说话人信息表示。

我们首先通过海量的声纹数据训练一个深度卷积神经网络,其输出的类别就是说话人的ID,实际训练中我们使用了数万个ID来进行网络的训练。从而得到了能够有效表征说话人特性底座网络。在根据特定场景的任务进行自适应调优。具体过程如下图所示:

在完成网络的训练后,我们就得到了一个能够提取说话人差异信息的网络,对每一句话我们通过该网络就得到了说话人的特征。

两套系统我们最后在得分域上进行了加权融合,从而给出最后的判决结果。

百度语音开放平台是由人工智能技术支撑的面向开发者的优质语音技术服务平台,自2013年10月上线以来,百度语音开放平台在三年间陆续免费开放语音识别、语音合成、、离在线融合SDK、唤醒技术等多项核心语音技术成果,在语音技术上不断突破和创新。目前,百度语音开放平台的开发者数量已超过14万,每天识别的在线请求数在1亿以上,合成的在线请求数在2亿以上,百度语音搜索的整体用户量在2015年增长超过3倍。


1月6日中国电视史上首次人机大战中,搭载了百度大脑的小度机器人以3:2的比分战胜人类选手,取得第一场胜利的同时,百度大脑官网(ai.baidu.com)也全新改版上线,这意味着,百度大脑不止小度可以拥有,现已全面开放给所有开发者。

改版后的百度大脑官网除了原本的语音技术、图像技术、自然语言、用户画像、和机器学习五个模块外,新版网页还新增加了AR增强现实的功能技术,AR内容平台能提供高效灵活的一站式的AR行业解决方案,贯穿各行业AR的内容创作、内容管理全流程服务。

此外,13类场景化技术服务、超过20种功能调用,相比原版网页,新版网页在对每一项技术分类上做得更加细致,能够全方位为企业/机构/创业者/开发者进行更细致、更明确的产品技术展示,并提供以API或SDK的形式的接口服务。

本文属于原创文章,如若转载,请注明来源:最强大脑百度人机大战背后原理是什么?http://soft.zol.com.cn/624/6240910.html

相关推荐
热点推荐
毛主席唯一嫡孙现身北京:大批军方官兵陪同,高颜值妻女画面流出

毛主席唯一嫡孙现身北京:大批军方官兵陪同,高颜值妻女画面流出

博士观察
2025-12-28 21:13:55
茅台明年不再使用分销方式,新任董事长:茅台不会干违反市场规律的事,也不会干让渠道商亏钱的事

茅台明年不再使用分销方式,新任董事长:茅台不会干违反市场规律的事,也不会干让渠道商亏钱的事

澎湃新闻
2025-12-28 19:48:27
重磅:波三小迈出了第一步

重磅:波三小迈出了第一步

西楼饮月
2025-12-28 20:27:01
巴黎那帮毛贼费大劲搬空京东仓库,结果偷回去一堆“电子板砖”!

巴黎那帮毛贼费大劲搬空京东仓库,结果偷回去一堆“电子板砖”!

百态人间
2025-12-26 16:32:24
欣旺达被吉利一拳砸懵了

欣旺达被吉利一拳砸懵了

蔚然先声
2025-12-29 08:31:47
扣押中国油轮后,美方发现中国货轮填满导弹,白宫的说法终于变了

扣押中国油轮后,美方发现中国货轮填满导弹,白宫的说法终于变了

老谢谈史
2025-12-28 03:34:10
恩佐第二!阿根廷队身价排行前十,天才新星进前五,梅西无缘

恩佐第二!阿根廷队身价排行前十,天才新星进前五,梅西无缘

祥谈体育
2025-12-28 13:31:16
劲爆!纪委直接入场,知名车企两高管办公室内被带走!

劲爆!纪委直接入场,知名车企两高管办公室内被带走!

汽车工程师
2025-12-29 07:02:17
天生没手没脚,父母让他自生自灭,他却靠自己娶妻生子靠嘴养家

天生没手没脚,父母让他自生自灭,他却靠自己娶妻生子靠嘴养家

削桐作琴
2025-12-28 14:23:45
勇士也来?3换1交易方案,东部炸了!

勇士也来?3换1交易方案,东部炸了!

左右为篮
2025-12-29 12:42:53
这沙发真大真白!

这沙发真大真白!

贵圈真乱
2025-12-29 11:26:50
官方:国家体育总局副局长佟立新当选中国奥委会副主席

官方:国家体育总局副局长佟立新当选中国奥委会副主席

懂球帝
2025-12-29 10:44:57
火药味十足!6位著名媒体人评价晋粤大战,付政浩: 比UFC精彩多了

火药味十足!6位著名媒体人评价晋粤大战,付政浩: 比UFC精彩多了

金山话体育
2025-12-29 09:09:29
当下,请你做好随时失去一切的准备。

当下,请你做好随时失去一切的准备。

诗词中国
2025-12-28 17:43:04
终于让印度怕了!中国斥资千亿,在5400米海拔建成一座现代化小城

终于让印度怕了!中国斥资千亿,在5400米海拔建成一座现代化小城

科普100克克
2025-12-29 00:21:32
长期冒充“中国书法家协会主席”的骗子被抓,此前曾有人冒充书协副主席

长期冒充“中国书法家协会主席”的骗子被抓,此前曾有人冒充书协副主席

澎湃新闻
2025-12-29 07:46:27
德媒:普京的逻辑是,俄罗斯控制的领土越多,他越不愿谈判!

德媒:普京的逻辑是,俄罗斯控制的领土越多,他越不愿谈判!

老马拉车莫少装
2025-12-28 23:17:49
同事猝死只换来1分钟默哀!40岁架构师宁愿被裁,年薪百万活得像机器

同事猝死只换来1分钟默哀!40岁架构师宁愿被裁,年薪百万活得像机器

新智元
2025-12-28 09:09:34
我国将在南海建设最大的军事基地

我国将在南海建设最大的军事基地

孤城落叶
2025-12-29 01:01:15
河南网红罗大美下葬,此前被害后遗体停放太平间近900天,妹妹发文:在一个小小的仪式里送了哥哥最后一程,让他安静入土,回归自然

河南网红罗大美下葬,此前被害后遗体停放太平间近900天,妹妹发文:在一个小小的仪式里送了哥哥最后一程,让他安静入土,回归自然

扬子晚报
2025-12-28 18:28:40
2025-12-29 13:03:00

头条要闻

大爷百万积蓄被儿赌光老伴帮隐瞒 四十年夫妻反目动手

头条要闻

大爷百万积蓄被儿赌光老伴帮隐瞒 四十年夫妻反目动手

体育要闻

“史上最贵”的世界杯,球迷成了韭菜

娱乐要闻

谭松韵扛剧能力被质疑 赵丽颖成女主?

财经要闻

贵金属“牛市”能否跨年

科技要闻

肉搏非洲,传音不想只当个卖手机的

汽车要闻

一汽正式“入股”零跑,总金额超37亿元!

态度原创

艺术
游戏
亲子
教育
公开课

艺术要闻

克里姆特风格的女性人物画,太美了!

20年前微软巨作完整Demo泄露!超多没见过的新内容

亲子要闻

教育部发文,加强学前儿童学籍规范管理

教育要闻

共话“三新”育未来,凝心聚力谋发展

公开课

李玫瑾:为什么性格比能力更重要?

无障碍浏览 进入关怀版
×