说起语音识别,无论是生活中的Siri、语音呼叫分配、语音拨号,还是车载交通路况控制系统、音响系统或者残疾人专用的的语音识别系统等,都应用到了语音识别技术,然而,语音识别的本质是什么?它又是什么时候来到我们身边的?现在又发展到了什么程度?
语音识别的前世今生
语音识别技术与语音合成技术的结合能够使人们摆脱键盘的束缚,从而以语音输入这样便于使用的、自然的、人性化的输入方式,它正逐步成为信息技术中人机接口的关键技术。
■ 1952年,AT&TBell实验室的Davis等人研制了第一个可十个英文数字的特定人语音增强系统一Audry系统;
■ 1956年,美国普林斯顿大学RCA实验室的Olson和Belar等人研制出能10个单音节词的系统,该系统采用带通滤波器组获得的频谱参数作为语音增强特征。
■ 1959年,Fry和Denes等人尝试构建音素器来4个元音和9个辅音,并采用频谱分析和模式匹配进行决策。这就大大提高了语音识别的效率和准确度。从此计算机语音识别的受到了各国科研人员的重视并开始进入语音识别的研究。
......
语音识别发展到今天已经在各个领域造福于人类。无论是在办公室或商务系统中的填写数据表格还是为制造过程提供一种“不用手”、“不用眼”的部件检查,抑或是语音呼叫分配、语音拨号、帮助残疾人的语音识别系统、车载交通路况控制系统、音响系统等,都应用到了语音识别技术。语音识别技术发展到现在似乎已经成为人们生活中不可缺少的一部分。
机器与人类仅剩0.4%的差距?
日前,美国一家公司宣称专业速记员在记录对话时的转录词错率为5.1%,而该公司最新研发的语音识别系统词错率已达到5.5%,而语音识别作为人工智能领域的核心问题之一,这难道标志着机器与人类仅剩0.4%的差距?
其实不然,语音识别在应用中却也存在着不可置否的问题。腾讯AI Lab副主任俞栋在5 月 27 日,由机器之心主办、为期两天的全球机器智能峰会上发表了主题为《语音识别领域的前沿研究(Frontier Research of Speech Recognition)》的演讲,探讨分享了语音识别领域的四个前沿问题。虽然语音识别在过去几十年里取得了一定进步,如今机器也已经在电话聊天这样的任务上达到甚至超过人的识别水准,但是离真正的人与机器的自由交流还有一定差距。比如在近场麦克风和口音不重的情形下机器可以做得非常好,但是在使用远场麦克风时识别率会大大降低。因为语音信号到达麦克风时衰减比较厉害,使得干扰信号,包括环境噪音、混响、音乐、以及其他人声的影响不能再被简单忽略。
语音识别的本质是模式识别
语音识别系统本质上是一种模式识别系统,包括特征提取、模式匹配、参考模式库等三个基本单元,在研究中,语音识别根据对输入语音的限制加以分类:
■ 如果从说话者与识别系统的相关性考虑,可以将识别系统分为专人语音识别、大量不同人的语音识别、一组人的语音识别;
■ 此外,人的说话方式不同,可以分为每个词后停顿、每个词都清楚发音但有连音、连续语音输入,有大量连音和变音,因此也可以按照此分为三类;
■ 如果从词汇量大小考虑分类,可以分为小词汇量、中等词汇量、大词汇量的语音识别系统,可见语音识别的难度与干扰因素。
据统计,美国至少有26家公司在开发语音识别技术,而中国则有近50家公司研究这一领域,如科大讯飞、百度、搜狗等中国公司。中文作为世界上最难学的一门语言,在语音识别上也更富难度,且对理解的要求更高。从语音识别来看,下一个前沿是从识别走向理解,我们正在从一个人类必须理解计算机的世界,迈向一个计算机必须理解我们的世界。真正的人工智能仍然还在遥远的地平线上,在机器能理解其所听到或看到的事物的真正含义之前,还需要很长时间的工作,有很长的路要走。
特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.