2.2 让机器拥有听觉:智能语音交互打开智能生活的入口

分享至

除了让机器拥有视觉外,另一项人工智能技术——智能语音交互技术让机器拥有了听觉,机器可以听懂“人话”、做出反应,实现语音层面的人机交互。

2.2.1最实用的人工智能入口:智能语音交互

如果将人工智能比作一顶皇冠,那么语音和语言技术则是这顶皇冠上的明珠之一。智能语音交互是当下最实用的人工智能入口——在很多场景下,机器能够“听懂”人话。

2018 年 11 月 30 日,2018 中国语音产业联盟年会在上海召开。工信部信软司领导参加大会并致辞,指出智能语音是最早落地的人工智能技术。

未来,人机语音交互是必然趋势。

事实上,人们对智能语音交互并不陌生,智能语音交互已经成为现代生活的重要组成部分,通常以智能语音助手的形式出现在手机中成为人们的生活助手,或者嵌入硬件变成语音音箱成为人们休闲娱乐的一部分,抑或升级为智能翻译机在出国旅行时帮助我们解决沟通难题。

从技术角度来讲,智能语音交互究竟是什么?阿里云官方给出的定义是: 智能语音交互(Intelligent Speech Interaction) 是基于语音识别、语音合成、自然语言理解(自然语言处理)等技术,在多种实际应用场景下,为用户提供产品“能听、会说、懂你”的智能人机交互体验。

语音识别最开始被简单理解成机器的听觉系统,先从语音转变成相应的文本,然后转化成机器可以识别的信号。在 20 世纪 70 年代早期及以前,语音识别采用的是非常传统的人工智能技术,如专家系统。直到隐马尔可夫模型的出现——使用统计语言模型进行统计语音识别,智能语音才有了极大的进步。随着深度神经网络的发展,带有时间戳的循环神经网络出现,先进 AI 技术的赋能让语音识别逐渐达到人类水平。根据《中国经营报》的报道,在第五届世界互联网大会上,中国 AI 企业科大讯飞表示, 在安静的环境中,科大讯飞的机器人将口语(此处指汉语)转为文字,准确率可达到 98% 以上,已超过人类的平均水平,语音识别不再是瓶颈。

然而,“听清楚”并不等于“听明白”,语音识别可以将语音转化成正确的文本,但要正确理解文本传递的意思则需要依靠自然语言处理技术。和语音识别一样,随着人工智能深度学习技术的突破,自然语言处理也有了革命性的突破。深度神经网络技术的出现,有望解决此前自然语言处理中遇到的所有问题:词语切分、词性标记、实体命名识别、目标提取等。

正是因为语义理解获得了突破性进展,我们今天才能够享受到诸如“天猫精灵”“小度在家”“小爱同学”等良好的产品体验。

当语音识别与语义识别两大技术难关被攻破后,将开启一个全新的智能世界。智能语音交互技术可以减少语言障碍,减少沟通障碍,减少理解障碍,从而改善每个人的生活,让世界变得更加美好。智能语音交互技术在我国日常生活中已经实现落地应用,下面通过几个虚拟人物来了解相关技术是如何在生活中帮助人们的。

2.2.2从生活到工作,无处不在的智能语音助手

28 岁的朱明是一位科技迷,科幻电影是他的最爱,最一线的科技产品他都想要试一试。在他看过的科幻电影中,最吸引他的角色是漫威出品的

《钢铁侠》中的智能管家“贾维斯”,那位通过语音交流就能帮主人安排好一切的贴心智能管家。而如今,他的向往正在一点点地变为现实——随着智能语音交互技术的进步,拥有自己的“贾维斯”正在变为可能。

每天清晨,闹铃响后,朱明一边走向洗手间准备洗漱,一边大声喊: “小乐同学,今天温度是多少?”他喊的“小乐同学”是一台智能语音音箱。2018 年智能语音音箱大热,迷恋科技的朱明决定买一台体验一下。这台音箱和传统的音箱不同,可以和它聊天,可以给它下达指令。在早晨询问完 天气状况后,小乐同学会告诉他当天的天气和穿衣指数。根据小乐同学所 给的建议,朱明穿好衣服离开住所,开始了一天的工作。

朱明是一名金融从业者,平时会接触很多海外业务。这些业务通常都是以邮件的方式沟通,在地铁上,朱明就已经开始处理当天的工作。他对着手机说:“Lucy,帮我查询一下邮箱。”话音刚落,手机页面就弹出了他的邮箱界面。

Lucy是朱明手机中智能语音助手的名字,他只需按住 Home键然后呼喊 Lucy就可以唤醒这名助手。在处理业务时需要查询股票实时价格, 朱明继续呼唤:“Lucy,查询一下今天阿里巴巴和腾讯的股价。”

手机立刻用语音回答“帮您在网页中找到了关于今日阿里巴巴和腾讯股价的信息……”,手机页面同时弹出了一个搜索界面,上面显示了阿里巴巴和腾讯的实时股价。介绍完毕后,手机恢复到邮箱界面。在朱明一天的工作中,智能语音助手帮了他不少忙:查询联系人、搜索航班信息等。

当朱明晚上回到家后,他接着呼唤:“小乐同学,放一首舒缓的音乐。”小乐同学播放一首钢琴曲,让朱明放松一下,消除工作一天的疲惫。除了金融从业者这一身份,朱明还是一名单身的“北漂”,这台会和他聊天交流的智能音箱缓解了他不少孤单的情绪。临睡觉前,朱明打开手机,唤醒Lucy:“Lucy,设定明早7点半的闹铃。”伴随着智能手机温柔体贴的回应,朱明一天的生活也进入了尾声。

智能语音交互已经把贴心服务的伙伴带入了人类的日常生活。此前, 人与手机只是通过触摸、滑动交流,当技术迭代革新后,AI 语音助手开始被安装到手机里,手机与人的交互形态也多了语音这一人性化的界面。如今,很多手机厂商都配备了各自的智能语音助手:苹果的 Siri、华为的小E、小米的小爱同学、vivo 的 Jovi、OPPO 的 Breeno 等。

除智能手机上的语音助手外,新型智能硬件更加吸引年轻人的注意, 智能音箱的销量已突破了千万级。随着现代生活方式的改变,年轻一代的消费者开始对智能硬件提出全新的要求,他们希望硬件产品变得更加智能、更加方便,也更加柔性。

通过智能语音助手或者搭载了智能语音助手的智能音箱,人机交互方式变得更加方便和高效,比起鼠键操控、触摸屏操控等传统的物理操控方式,语音控制使人机交互变得更加省时省力、更加经济高效。每个人都可以随时随地享受智能秘书的服务。

2.2.3通晓多国语言,智能翻译机助你周游世界

随着人民生活水平的提高,我国出境旅游人数逐年增长,但语言沟通问题是横在很多游客面前的一道坎儿。不同国家或地区之间语言不通,不同省份地区也有各自的方言。一个人想要精通两门语言已经是很困难的了, 想要精通 50 门语言,则几乎是不可能的。而人工智能技术,尤其是智能语音技术的发展,使不同语言之间的沟通变成可能。

如今,各大人工智能公司争相推出智能翻译机,这种智能翻译机利用神经网络机器翻译、语音识别、语音合成、图像识别、离线翻译以及四麦克风阵列等多项人工智能技术,最多可以实现中文与 50 种语言间的即时互

译,覆盖近 200 个国家和地区,并且可以实现响亮的外放,让对方听得更清楚。

57 岁的周英女士退休后爱上了自由行,在游遍了祖国的大江南北之后, 她把新的旅游目的地锁定在了境外,但想起语言不通这件头疼事,她的旅游热情就被浇灭了一半:在她上学的时候,英语教育并不普及,如今年龄大了,记忆力、学习能力都大不如从前,熟练掌握英语只能当成梦想了, 更何况她想去旅游的国家并不仅限于英语国家。

2019 年 5 月,周英的女儿张丽为她购买了市面上新出的一款智能翻译机,外形和手机相似,很小巧,还配有一块 3 英寸(1 英寸约等于 2.54厘米)左右的触摸屏幕,可以拿在手里或者挂在脖子上,同时支持上网功能。这款智能翻译机可以实现中文与 50 种语言的即时互译,而翻译时间只需要 0.5 秒。

张丽为妈妈演示如何使用时,周英的眼神中隐约透露出了不放心,在女儿询问下,周英说道:“我是广东人,平时讲粤语讲得比较习惯了,担心普通话讲得不够标准,这个小机器听不懂怎么办?”

张丽笑道:“这您就不用担心了,厂商已经考虑到了这一问题,如今粤语也能直接翻译成英文。您还可以把这个翻译机推荐给你那些不会说粤语的朋友,普通话与粤语之间也能互相翻译。”

一个月后,带着这台智能翻译机,周英和朋友们去了澳大利亚旅游, 据她会英文的朋友说,澳大利亚的英语口音和国内学习的英式英语和美式英语有不小的差别,即使这位朋友会讲英语,也有些听不大懂当地人说话。周英将她的智能翻译机借给这位朋友使用,尽管导游的英语带着非常浓厚的当地口音,翻译机照样可以清楚识别,翻译成标准的普通话。

除此之外,周英和朋友们还解锁了翻译机的新功能——拍照翻译,每次点餐时对着菜单一拍,屏幕上就会出现实时翻译的结果,看不懂国外菜单的尴尬也不复存在了。

考虑到我国是多民族、多语言、多方言的人口大国,如今市场上的智能翻译机还可以实现维吾尔语与汉语、藏语与汉语之间的即时互译。

事实上,对不同语言进行语音识别并进行翻译,无疑比单纯的语音识别技术更复杂,难度更高。基于深度学习的神经网络翻译机器的出现,让机器翻译有了跨越式的进步。

智能有两个层次。第一个层次是真正的感知智能(PerceptiveIntelligence),

付费解锁全篇
购买本篇
《购买须知》  支付遇到问题 提交反馈
相关推荐
无障碍浏览 进入关怀版