网易首页 > 网易号 > 正文 申请入驻

从OpenAI到Google,人机语音交互新技术的挑战与前景

0
分享至

在过去的两天里,OpenAI和Google相继举行了发布会,展示了他们在人机语音对话技术领域的最新进展。两家公司展示的新技术在语音翻译、大模型和语音对话系统方面取得了显著突破,有效解决了以前大家在智能音箱反馈的“人工智障”问题,即智能音箱不智能的问题。然而,这些技术主要还是基于大模型的技术进步,而在声学和语音领域并没有展现出来新的技术突破。实际上,从语音对话、实时转写到同声传译,人机语音交互领域仍然面临两大挑战:实时转写或同声传译的理解断句问题,以及复杂场景下的远场交互精准度问题。


在此之前,我们需要先把语音对话、实时转写和同声传译这三个应用场景讲一下。语音对话、实时转写与同声传译是人机交互领域中的关键应用,它们各自依赖于复杂的科学技术,同时又相互影响,共同推动着人机语音对话技术的边界。

语音对话应用不仅要求机器能够准确理解人类的语音指令,还要求其能够生成自然、流畅且具有上下文连贯性的回应。这依赖于声学、语音和自然语言处理(NLP)的发展,特别是大模型的涌现,现在已经能够理解复杂的语言结构和语境,从而生成接近人类的对话。然而,要达到自然、智能的对话体验,还需要解决个性化对话、情感理解与适应多种语言和文化背景的挑战。

实时转写应用则要求人机系统在极短延迟下将语音转换成文本,这对于会议记录、远程教育等场景尤为重要。它不仅考验着语音识别的准确率,还涉及到实时处理大量数据流的能力,以及在不同语言、方言和口音上的广泛适应性。此外,远场复杂环境噪声的处理和对说话人识别的准确性也是实时转写技术面临的难点。

同声传译是这些应用中要求最高的一种,它要求人机系统即时翻译并同步输出,对语言理解和生成的速度、准确度以及流畅性有极高的要求。这不仅需要强大的语言模型,还需要对时序处理和上下文理解有深刻把握,以确保翻译的准确无误,这对目前的技术来说是一个巨大挑战。例如,翻译中的文化差异、俚语和行业术语的准确转换,以及如何在没有停顿的情况下实现流畅的连续翻译,都是技术发展的关键点。

当然这三种关键应用涉及到了声学、语音和语言三类技术。声学技术,作为语音和语言技术的基石,其重要性在于它直接处理声音信号的捕获和优化,核心目的是提升信号的信噪比,保证信号的有效性。在复杂的现实环境中,声学技术面临的挑战包括但不限于噪声消除、回声抵消和混响处理。噪声消除技术致力于从声音信号中过滤掉非必要的环境声音,提高目标语音的清晰度;回声抵消确保在有回声的环境中,如通过网络电话通话时,双方能进行无障碍交流;而混响处理则是在大空间或有反射表面的环境中减少声音的多重反射,确保原始语音信息的准确传递。这些技术的综合运用,能显著提升录音质量,为后续的语音识别提供高质量的原始数据,是实现高效语音通信和语音处理应用的先决条件。

在声学技术的支撑下,语音技术得以进一步发展,语音技术主要包括语音识别、语音合成、声纹识别和情绪识别。语音识别能够理解并转换连续或断续的语音为文本,这对于构建语音对话、实时转写和同声传译等应用至关重要。语音识别一般分为流式识别和文件识别,流式识别就是连续声音的识别,主要用于实时转写和同声传译,而文件识别就是“你一句我一句”的一句话识别模式,主要用于语音对话。声纹识别可以区分多个说话人,比如在会议场景下的实时转写就要区分不同说话人,否则大模型也无法做好摘要和进一步理解编辑。情绪识别则主要是识别声音的情感特征,比如愤怒、慈祥、温和、严肃等等,当然也可以反向应用于语音合成中的情绪合成,特别是长文本就必须要有情绪合成。语音合成就是将文本转成声音,现在语音合成基本都可以做音色克隆和情绪合成。这两天OpenAI和Google发布会展示的就是语音对话场景的应用,由于大模型和情绪合成的加持,所以就会比2010年乔布斯发布的Siri更加智能和有趣。

与声学和语音技术紧密相连的是语言技术,它涉及自然语言处理(NLP)、机器翻译和文本生成等领域,这些技术能够让机器理解、生成和处理人类语言。随着大模型的兴起,如语言模型的训练,它们能够处理更复杂的语言任务,从简单的问答到创作文学作品,甚至进行科学论文的撰写。当声学、语音和语言技术融合,通过诸如OpenAI和Google开发的语音对话系统,就实现了从简单的语音识别到真正具有对话能力的AI,它们能够理解上下文,进行连续的、富有情感的交流,推动人工智能技术进入一个全新的时代。

大模型的进展给语音对话带来了更智能和更有趣的体验,但是从2010年乔布斯发布Siri以来,声学、语音和语言三类技术的进步始终再交替进行,我们还有很多技术问题没有解决 ,距离人类之间的知识交流还具有相当长的距离。即便在语音对话、实时转写和同声传译领域,人机语音交互领域仍然面临如下的两大挑战。

1、实时转写或同传的理解断句问题

实时转写和同声传译技术是现代语音对话系统的核心组件。这些技术将语音信号转换为文本,或将一种语言的语音实时翻译为另一种语言,从而实现无缝的人机语音交互。然而,如何在极短时间内准确理解并断句是其中的一个关键挑战。

比如在在一场国际演讲中,实时同传技术将演讲者的内容翻译成多种语言。如果人机语音对话系统无法准确断句,听众可能会错过关键信息或误解演讲内容,甚至因为断句问题造成翻译的灾难性结果。还如在一堂多语言在线课程中,实时同传技术帮助不同语言的学生同时理解教师的讲解,同样也是断句问题可能会带来各种误解。这就需要人机语音对话系统快速而准确地断句,以保证翻译内容的清晰和易懂。再如在公司视频会议中,实时转写将记录会议内容。然而,如果不能准确断句,记录可能会变得混乱,进而影响后续的会议纪要和决策。

之所以会出现上述问题,首先就是语音信号的连续性问题,语音信号连续且没有明显的断句点,传统语音识别技术难以在实时处理中准确预测这些断句点,端点检测(VAD)技术目前来看并不能很好的解决这个问题。其次是复杂语境的上下文依赖,对话系统要准确的断句需要理解上下文,特别是长序列的上下文,这对大模型的即时处理能力提出了更高要求。我们也都知道,当前大模型的核心问题除了幻觉问题就是推理延迟问题。最后就是延迟悖论问题,人机语音对话若要提高断句准确性需要累积足够的语音时长进行分析,这自然就会引入延迟,直接影响实时性,但延迟和精准存在相互悖论的问题。

2、复杂场景下远场交互的精准度问题

远场语音交互技术允许用户在远离设备的情况下(一般来说超过一个手臂的距离),通过语音进行控制和交流。然而,在复杂环境中(如嘈杂场所、多人同时讲话等),准确捕捉和理解用户语音依然具有挑战性。这是由于复杂场景的信号噪声比较低,嘈杂环境中的背景噪声会降低语音信号质量,影响识别准确性。还有就是多说话者分离的问题,在多人同时讲话的情况下,人机语音对话系统需要准确区分不同说话者的语音或声纹,以进行分离和识别,但是目前再重叠语音方面处理的效果并不是太好。另外就是回声和混响的问题,远场环境中声音的反射和混响会导致语音信号失真,需要更高级的回声消除和信号增强技术来进行处理。

比如在嘈杂的咖啡馆中,通过智能手机的语音助手查询信息。周围的环境噪声和其他人的讲话可能会导致对话系统无法正确识别用户的语音输入。再如在高速行驶的汽车内,驾驶员通过语音助手导航或拨打电话。车内的引擎噪音和道路噪声会影响系统的准确性,需要对话系统具备强大的噪声抑制和说话者分离能力。另外在家庭聚会中,通过语音助手控制家中设备。然而,背景音乐和多人聊天的噪音可能会干扰系统识别用户的指令,导致误操作。

尽管人机语音对话技术取得了显著进步,但是在实时转写和复杂场景下的远场交互仍然是人机语音对话领域的两大挑战。通过不断优化语言模型、引入多模态融合技术以及采用先进的信号处理和深度学习算法,我们有望在未来克服这些难题,将人机语音对话升级到更自然、更智能的人机语音交互系统。此外,隐私保护、数据安全以及算法的公平性和透明度也是技术发展中不可忽视的重要方面。

参考论文

[1] Xiaoliang Chen et al. "Challenges and Contributing Factors in the Utilization of Large Language Models (LLMs)" (2023). arXiv:2310.13343

[2] Tang, Yun , et al. "Improving Speech Translation by Understanding and Learning from the Auxiliary Text Translation Task." (2021).

[3] Mirsamadi, Seyedmahdad , and J. H. L. Hansen . "A Study on Deep Neural Network Acoustic Model Adaptation for Robust Far-field Speech Recognition." Interspeech 2015.

本文来自陈孝良科学网博客。
链接地址:https://blog.sciencenet.cn/blog-1375795-1434236.html

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
全面洗牌!中国女排公布香港站15人名单:王云蕗落选,许晓婷回归

全面洗牌!中国女排公布香港站15人名单:王云蕗落选,许晓婷回归

热血排球通
2024-06-07 00:43:56
美国部长深表“后悔”:怪我们做得太晚,把所有东西都让给中国了

美国部长深表“后悔”:怪我们做得太晚,把所有东西都让给中国了

乐阳聊军事
2024-06-06 13:05:34
王大雷道歉,张玉宁认错,伊万低头!国足最该道歉的人却拒绝认错

王大雷道歉,张玉宁认错,伊万低头!国足最该道歉的人却拒绝认错

嘴炮体坛
2024-06-07 00:35:07
和低层次的人交往,不要说人话

和低层次的人交往,不要说人话

洞见
2024-06-05 22:05:17
美前财长萨默斯辣评“2024大选”:特朗普当选将大幅推高通胀!

美前财长萨默斯辣评“2024大选”:特朗普当选将大幅推高通胀!

财联社
2024-06-06 17:10:14
不出所料!印度首都新德里将不再适合人类居住,蚊子都被热死了!

不出所料!印度首都新德里将不再适合人类居住,蚊子都被热死了!

史纪文谭
2024-06-06 22:00:40
国足世预赛三消息:伊万霸气摊牌,王振奥有望首发,泰国王牌缺席

国足世预赛三消息:伊万霸气摊牌,王振奥有望首发,泰国王牌缺席

极度说球
2024-06-06 11:19:22
乒乓球萨格勒布赛:男单16强诞生!李尚洙一轮游,张本等人险胜

乒乓球萨格勒布赛:男单16强诞生!李尚洙一轮游,张本等人险胜

全言作品
2024-06-07 02:43:02
又添新“罪证”,吃他汀把命吃没了?他汀是毒药?注意4点放心吃

又添新“罪证”,吃他汀把命吃没了?他汀是毒药?注意4点放心吃

39健康网
2024-06-06 12:00:52
万达集团创始人王健林宣布退出公司并将全部股权转让给中国儒意

万达集团创始人王健林宣布退出公司并将全部股权转让给中国儒意

鹏飞深文
2024-04-22 12:19:28
都打到家门口了,你却问别人为什么而战

都打到家门口了,你却问别人为什么而战

顾礼先生
2024-06-04 15:47:37
商务部:将采取一切必要措施 坚定维护中国企业正当利益

商务部:将采取一切必要措施 坚定维护中国企业正当利益

新京报
2024-06-06 17:09:13
粟裕逝世后,南京军区副司令员为何不愿给楚青提供帮助?

粟裕逝世后,南京军区副司令员为何不愿给楚青提供帮助?

光头哥的头
2024-04-30 09:24:41
为什么医学发达的日本,却叫停了女性接种HPV疫苗?医生说出实情

为什么医学发达的日本,却叫停了女性接种HPV疫苗?医生说出实情

铠甲护士
2024-06-06 14:54:05
抵达北京,王艺迪请2人吃饭,曼昱独自等车,孙颖莎深夜归队

抵达北京,王艺迪请2人吃饭,曼昱独自等车,孙颖莎深夜归队

乐聊球
2024-06-06 11:18:11
幸亏北京早有准备:拜登对大陆摊牌,台高层笑称“我们很安全了”

幸亏北京早有准备:拜登对大陆摊牌,台高层笑称“我们很安全了”

千里持剑
2024-06-05 17:13:21
保密!“艾森豪威尔号”执行严格战场通讯纪律:全员禁止接打电话

保密!“艾森豪威尔号”执行严格战场通讯纪律:全员禁止接打电话

影孖看世界
2024-06-06 21:10:07
清华教授王文湛发声说:凭什么拿我们纳税人的钱去供养留学生!

清华教授王文湛发声说:凭什么拿我们纳税人的钱去供养留学生!

华人星光
2024-06-03 17:29:51
一个家族绝后了意味着什么?评论区炸锅了,网友回复:太真实了!

一个家族绝后了意味着什么?评论区炸锅了,网友回复:太真实了!

有趣的羊驼
2024-06-06 14:26:32
女子趁理发师工作时,伸手摸向敏感部位,网友调侃:这钱真难赚

女子趁理发师工作时,伸手摸向敏感部位,网友调侃:这钱真难赚

看晓天下事
2024-05-26 18:38:25
2024-06-07 05:46:44
白驹谈人机
白驹谈人机
人机交互与认知工程实验室
307文章数 9关注度
往期回顾 全部

科技要闻

马斯克创造人类历史,SpaceX星舰试飞成功

头条要闻

星舰第4次试射成功 马斯克祝贺:取得史诗般成就

头条要闻

星舰第4次试射成功 马斯克祝贺:取得史诗般成就

体育要闻

国足进球功臣捂脸沮丧 伊万表情凝重

娱乐要闻

看这场笑话,经过王一博同意了吗!

财经要闻

理想汽车"撤回"部分裁员 再下调销量目标

汽车要闻

2025年将推10款新车 长安启源7个月累销破10万

态度原创

亲子
数码
时尚
艺术
公开课

亲子要闻

从小就拥有的的血脉压制,姐姐骑坐在妹妹腿上,妹妹情绪稳定!

数码要闻

郭明錤:苹果混合头显Vision Pro出货到非美国市场的时间晚于之前的预期

今年最流行的风格竟然是它?

艺术要闻

穿越时空的艺术:《马可·波罗》AI沉浸影片探索人类文明

公开课

近视只是视力差?小心并发症

无障碍浏览 进入关怀版