最强大脑百度人机大战背后原理是什么？

分享至

（原标题：最强大脑百度人机大战背后原理是什么？）

【中关村在线软件资讯】1月14日消息：昨晚，江苏卫视《最强大脑》第四季"人机大战"进入三番赛的第二轮，搭载"百度大脑"的"小度"机器人挑战名人堂选手11岁的"听音神童"孙亦廷，双方1：1打成平手。

本轮的比赛范围划定在"听"的领域，由周杰伦作为出题人，从21位性别相同、年龄相仿、声线极为相似的专业合唱团中，选出三位每个人读一句话，加密后成为断断续续的声音样本再交给小度和孙亦廷，要求他们从合唱声音中识别出三名线人的声音。

最终，共计三道题目的比赛中，第一道题人工智能"小度"和"最强耳朵"孙亦廷同时判断错误，且结果惊人的一致；第二位线人被小神童孙亦廷识别出，小度判断错误；第三道题孙亦廷判断错误，小度则力挽狂澜，成功识别出第三位线人，双方1：1打为平手。

对于"小度"一胜一平的领先态势，百度深度学习实验室主任林元庆此前表示，这次人机大战是以实战的方式来，来检验百度人工智能和人类差距。但是，打败人类并不是参赛的目的，而是希望在此过程中不断进步，演化出很好的技术来服务人类。

最后，百度对本次比赛涉及的技术细节也进行了较详细的阐释：

本次比赛对机器来说是声纹识别。声纹识别和语音识别一样,都是通过对采集到的语音信号进行分析和处理,提取相应的特征或建立相应的模型,然后据此做出判断;但它与语音识别又有区别,其目的不是识别语音的内容,而是识别说话人的身份。

1、什么是声纹识别？

声纹识别简单的说就是判断给定的一句话到底是谁说的技术。早在上世纪40年代末期就有相关研究者开始进行相关技术的探索，主要应用于军事情报领域。其理论基础就是"每个人的说话特性都具有其独特的特征"，而决定这种独特特征的主要因素有：

1)声腔的差异，其包括咽喉、鼻腔、口腔以及胸腔等，这些欺诳的形状、尺寸和位置决定了声腔的差异。因此大家可以感受到，不同的人说话，其声音的频率分布是不同的；

2)发声的操作方式，主要是指唇、口齿、舌头等部位在发声时的相互作用。一般而言，人在逐渐的学习过程中就会慢慢的形成了自己的声纹特性，正常说话时的声纹状态还是相对稳定的。但是声纹特性仍然具有易变性，因为影响声纹特性的两个因素非常容易受身体状况、年龄、情绪等情况的干扰，从而导致声纹特性的变化。例如：人随着年龄的变化声纹特性也在随之变化，尤其是小时候和成年后；人在感冒时由于鼻腔堵塞等问题会明显感觉到声纹特性的不一致等。当然，人也可以通过刻意的模仿等形成不同的声纹特性。总而言之，声纹特征是类似于虹膜、指纹等一种具有独特性的生物特征。

声纹识别从任务上来说，主要分为声纹确认技术（1:1）和声纹识别技术（1：N）两类。声纹确认技术回答的是两句话到底是不是一个人说的问题，而声纹识别技术回答的则是"给定的一句话属于样本库中谁说的"问题。本次节目就是采用了"声纹识别"任务，在21位声音特性及其相似的歌手中，凭借着有限的声音样本，来回答样本属于谁的问题。

2、百度大脑如何提取声纹特征？算法如何？

1)声学特征提取

语音信号可以认为是一种短时平稳信号和长时非平稳信号，其长时的非平稳特性是由于发音器官的物理运动过程变化而产生的。从发音机理上来说，人在发出不同种类的声音时，声道的情况是不一样的，各种器官的相互作用，会形成不同的声道模型，而这种相互作用的变化所形成的不同发声差异是非线性的。但是，发声器官的运动又存在一定的惯性，所以在短时间内，我们认为语音信号还是可以当成平稳信号来处理，这个短时一般范围在10到30毫秒之间。

这个意思就是说语音信号的相关特征参数的分布规律在短时间（10-30ms）内可以认为是一致的，而在长时间来看则是有明显变化的。在数字信号处理时，一般而言我们都期望对平稳信号进行时频分析，从而提取特征。因此，在对语音信号进行特征提取的时候，我们会有一个20ms左右的时间窗，在这个时间窗内我们认为语音信号是平稳的。然后以这个窗为单位在语音信号上进行滑动，每一个时间窗都可以提取出一个能够表征这个时间窗内信号的特征，从而就得到了语音信号的特征序列。这个过程，我们称之为声学特征提取。这个特征能够表征出在这个时间窗内的语音信号相关信息。如下图所示：

这样，我们就能够将一段语音转化得到一个以帧为单位的特征序列。由于人在说话时的随机性，不可能得到两段完全一模一样的语音，即便是同一个人连续说同样的内容时，其语音时长和特性都不能完全一致。因此，一般而言每段语音得到的特征序列长度是不一样的。

在时间窗里采取的不同的信号处理方式，就会得到不同的特征，目前常用的特征有滤波器组fbank，梅尔频率倒谱系数MFCC以及感知线性预测系数PLP特征等。然而这些特征所含有的信息较为冗余，我们还需要进一步的方法将这些特征中所含有的说话人信息进行提纯。

2)说话人特征提取

我们在提取说话人特征的过程中采用了经典的DNN-ivector系统以及基于端到端深度神经网络的说话人特征（Dvector）提取系统。两套系统从不同的角度实现了对说话人特征的抓取。

A.算法1DNN-ivector

这是目前被广泛采用的声纹识别系统。其主要特点就是将之前提取的声学特征通过按照一定的发声单元对齐后投影到一个较低的线性空间中，然后进行说话人信息的挖掘。直观上来说，可以理解成是在挖掘"不同的人在发同一个音时的区别是什么？"。

首先我们会用大量的数据训练一个能够将声学特征很好的对应到某一发声单元的神经网络，如下图所示。这样，每一帧特征通过神经网络后，就会被分配到某一发声单元上去。然后，我们会对每一句话在所有的发声单元进行逐个统计，按照每个发声单元没单位统计得到相应的信息。这样，对于每一句话我们就会得到一个高维的特征矢量。

在得到高维的特征矢量后，我们就会采用一种称之为total variability的建模方法对高维特征进行建模，M=m+Tw。其中m是所有训练数据得到的均值超矢量，M则是每一句话的超矢量，T是奇通过大量数据训练得到的载荷空间矩阵，w则是降维后得到的ivector特征矢量，根据任务情况而言，一般取几百维。最后，对这个ivector采用概率线性判别分析PLDA建模，从而挖掘出说话人的信息。

在实际中，我们依托百度领先的语音识别技术训练了一个高精度的深度神经网络来进行发声单元的对齐，然后依托海量数据训练得到了载荷矩阵空间T，最后创造性地采用了自适应方法来进行调整T空间和PLDA空间，大大增强了模型在唱歌和说话跨方式以及短时上的声纹识别鲁棒性。

B.算法2基于端到端深度学习的说话人信息提取

如果说上一套方法还借鉴了一些语音学的知识（采用了语音识别中的发声单元分类网络），那么基于端到端深度学习的说话人信息提取则是一个纯粹的数据驱动的方式。通过百度的海量数据样本以及非常深的卷积神经网络来让机器自动的去发掘声学特征中的说话人信息差异，从而提取出声学特征中的说话人信息表示。

我们首先通过海量的声纹数据训练一个深度卷积神经网络，其输出的类别就是说话人的ID，实际训练中我们使用了数万个ID来进行网络的训练。从而得到了能够有效表征说话人特性底座网络。在根据特定场景的任务进行自适应调优。具体过程如下图所示：

在完成网络的训练后，我们就得到了一个能够提取说话人差异信息的网络，对每一句话我们通过该网络就得到了说话人的特征。

两套系统我们最后在得分域上进行了加权融合，从而给出最后的判决结果。

百度语音开放平台是由人工智能技术支撑的面向开发者的优质语音技术服务平台，自2013年10月上线以来，百度语音开放平台在三年间陆续免费开放语音识别、语音合成、、离在线融合SDK、唤醒技术等多项核心语音技术成果，在语音技术上不断突破和创新。目前，百度语音开放平台的开发者数量已超过14万,每天识别的在线请求数在1亿以上,合成的在线请求数在2亿以上，百度语音搜索的整体用户量在2015年增长超过3倍。

1月6日中国电视史上首次人机大战中，搭载了百度大脑的小度机器人以3：2的比分战胜人类选手，取得第一场胜利的同时，百度大脑官网（ai.baidu.com）也全新改版上线，这意味着，百度大脑不止小度可以拥有，现已全面开放给所有开发者。

改版后的百度大脑官网除了原本的语音技术、图像技术、自然语言、用户画像、和机器学习五个模块外，新版网页还新增加了AR增强现实的功能技术，AR内容平台能提供高效灵活的一站式的AR行业解决方案，贯穿各行业AR的内容创作、内容管理全流程服务。

此外，13类场景化技术服务、超过20种功能调用，相比原版网页，新版网页在对每一项技术分类上做得更加细致，能够全方位为企业/机构/创业者/开发者进行更细致、更明确的产品技术展示，并提供以API或SDK的形式的接口服务。

本文属于原创文章，如若转载，请注明来源：最强大脑百度人机大战背后原理是什么？http://soft.zol.com.cn/624/6240910.html