网易首页 > 网易号 > 正文 申请入驻

基于分层预测的语音理解模型——在线意义提取的计算策略

0
分享至

语言理解是人类认知能力中的核心功能,它涉及将连续的、变化的声音信号转换为可理解的语言信息。在这一过程中,大脑需要快速、准确地处理这些声音信号,并在多个层次上生成抽象意义。然而,语音信号往往是模糊的且存在歧义,而人类却能灵活应对这种模糊性,并迅速提取有意义的信息。

目前的研究已经表明,语言处理并不仅限于字面信息的分析,而是依赖于语境、背景知识等复杂的信息交互。然而,现有的大部分语言处理模型要么关注于低级的声学信号识别,要么聚焦于较高层次的语言操作,尚未有一个计算框架能够捕捉连续的声学信号到抽象意义的转换过程。因此,如何结合语境和背景知识,在线处理并解析语言中的多层次信息,仍然是一个尚未解决的难题。

本文提出了一种基于分层预测的语音理解模型,通过结合语言和非语言知识,在线提取多层次的信息。该模型通过生成自上而下的预测,并结合自下而上的传入证据,来处理语音信号。非语言上下文的引入使得语义预测能够帮助解析同一单词的多个含义,降低理解中的歧义性。此外,本文展示了如何利用该模型中的明确知识层次来解释神经生理信号的响应,并表明这种分层预测机制在实际处理中能有效减少不确定性和预测误差

该模型通过生成自上而下的预测,融合传入的自下而上证据,使得语音信号中的上下文和语义信息能够得到更好地提取和解释。分层预测在这种情况下不仅是一种推理过程,还作为一种动态利用结构化知识的策略,用于减少外围处理负担,最终实现在线语义提取的目的

研究方法

模型框架

为了探索人类大脑如何实时处理语音并提取多层次的语义信息,研究者们提出了一个基于分层预测的语音理解模型。该模型的核心思想是,语言处理并非完全依赖于自下而上的输入信号,而是通过自上而下的预测机制,从更高级的语义、句法等层次向下传递预测,同时结合从听觉输入中获得的低级信息。通过这样的交替过程,模型能够有效应对语音信号中的不确定性和模糊性。

模型分为五个层次:最高层是语义角色层,接下来是句法结构层、词汇层、音节层和声学信号层。每个层次都有相应的处理任务和传递信息的方式。自上而下的预测是由高层次的语义和句法知识驱动的,低层次的信号通过自下而上的方式反馈给上层,帮助校正预测结果,从而实现实时的语音理解。

图1. 语音及其逆转的生成模型。

表1 模型层次中的因素及其可能的值(状态)

生成模型与反演

模型的核心是一种概率生成模型,它通过语言和非语言的上下文知识生成一个语义角色的序列,并且结合句法规则,将这些语义角色线性化为一系列引理(词汇单位)。每个引理再通过音节生成底层的光谱-时间模式,最后生成连续的语音信号。生成模型的反转过程模拟了大脑如何根据外部输入进行理解,即通过将自上而下的预测与自下而上的信号相结合,推断语音信号的实际意义。

研究者在模型的训练和测试中引入了不同的语境情景,包括网球比赛和扑克游戏等,以测试模型对模糊性语义的处理能力。例如,当遇到“ace”这个词时,模型需要判断它是指网球中的“发球”还是扑克中的“王牌”,这取决于上下文的提示和预测机制的精度。

表2模型中所有可能的句子

语音刺激和实验设计

为了测试模型的有效性,研究者设计了一系列语音刺激实验。实验中,句子的中间部分引入了语义模糊词,而句子的后部分则有时提供消除歧义的线索,有时则保持歧义。实验通过比较模型在不同语境下对这些句子的处理效果,评估它在处理语音信号模糊性和歧义方面的表现。

每个语音刺激由四个引理组成,每个引理有三个音节,每个音节的时长为200毫秒。这些音节被转化为连续的声学信号,并分为六个频率通道进行处理。实验的目标是观察模型在面对不同语境和语义模糊时,如何通过逐层的预测和反向推理,逐步减少不确定性,最终得出正确的语义解释。

数据分析与评估

为了评估模型的有效性,研究者使用了多种信息论度量指标,如Kullback-Leibler散度(KL散度)和熵等。这些度量指标帮助分析了模型在处理语音信号时信息变化的过程,特别是自上而下的预测如何影响自下而上的信息更新。通过这些度量,研究者可以定量评估模型在不同条件下的表现。

模型与神经生理学的对比

为了进一步验证模型的生物合理性,研究者将该模型的输出与已有的神经生理学研究结果进行了对比。这些研究使用了脑电图(EEG)和脑磁图(MEG)技术,记录了受试者在处理类似语义模糊的语音刺激时的大脑反应。通过比较模型预测的信号与实验中观察到的脑电活动,研究者验证了分层预测模型在解释人类大脑处理语音的机制上具有一定的合理性。

研究结果分析

模型在语义模糊中的表现

实验结果表明,该模型能够有效处理语义模糊的语音信号,并在多层次上逐步减少不确定性。例如,在处理“ace”这个模棱两可的词汇时,模型通过结合上层的语义预测和下层的声学信号,能够准确判断“ace”是指网球中的发球还是扑克中的王牌。这一过程体现了自上而下的预测如何通过整合上下文信息,快速消除语义歧义,从而实现高效的语音理解。

此外,研究发现,模型能够在接收到更多信息时逐步修正早期的错误预测。例如,当模型初始根据语境预测“ace”可能是网球中的发球,但随着句子继续展开,并提供了更多与扑克相关的线索时,模型能够灵活调整其预测,将“ace”重新解读为扑克中的王牌。这说明模型不仅能够处理静态的语音输入,还能动态地根据不断变化的上下文做出调整,模拟了人类在自然语言理解中的灵活性。

图2:对于所有模拟,上下文的相对先验被设置为四个可能性{‘扑克游戏’, ‘网球比赛’, ‘夜间派对’, ‘赛车游戏’}的默认值1.5:1:1:1。(A)顶部面板:输入句子A的声学频谱图:“再赢一个王牌就赢得网球比赛”。垂直灰色线条标记了每个词元的偏移量,在这一点上,从词元层面向语义和上下文层面发送更新。

模型的多层次预测机制

通过分析模型的不同层次,研究者发现,较高层次的语义和句法预测能够显著减少低层次音节和声学层次上的处理负担。例如,当模型在高层次上已经预测某个词汇的可能性时,低层次只需要对这些可能性进行进一步验证,而不需要对所有可能的音节进行逐一处理。这一机制大大提高了处理效率,尤其是在语音信号不清晰或含有噪音时,模型仍能保持较好的性能。

这一现象也得到了信息论度量的支持。在高层次预测的指导下,模型在低层次的熵和KL散度显著降低,表明其不确定性减少,处理过程更加高效。相反,当高层次预测无信息时,低层次的熵和散度显著增加,处理时间和计算负担明显加大。

语义预测对低级信息传递的影响

研究表明,语义预测不仅仅影响词汇和句法层面的处理,还对更低层次的音节和声学信号的传递产生了影响。在面对模棱两可的语义时,高层次的语义预测会对低层次的音节预测产生约束。例如,当模型预测一个特定的词汇时,与该词汇相关的音节序列会更早地被激活和确认,而不相关的音节则会被抑制。这种自上而下的预测机制大大提高了模型的处理效率,也与近年来的神经科学研究结果相吻合,即大脑的高层次认知过程能够影响低层次的感知处理。

图3. 语义状态估计对词元和音节状态预测和更新的影响。

模型与GPT-2的对比

为了评估该分层预测模型与当前主流的深度学习模型(如GPT-2)的性能差异,研究者对比了两者在处理语音理解任务中的表现。实验表明,虽然GPT-2在一些语言生成任务中表现优异,但在处理语义模糊和歧义消解方面,GPT-2存在显著的局限性。特别是在需要结合上下文信息和非语言知识进行复杂推理时,GPT-2往往无法给出准确的预测。而该分层预测模型则通过引入多层次的语义和上下文信息,能够更准确地处理这类任务。

表3。例句输入到MEG主题和GPT-2。

图4. 语义属性和GPT-2预测统计在脑磁图对语音反应中的影响。(A)所有58个句子中模糊和不模糊目标的熵分布。(B)在模糊(左)或不模糊(右)目标词之后,解决(蓝色)和未解决(橙色)解决词的惊讶值分布。(C)语义模糊性(左列)和GPT-2预测熵(右列)对目标偏移时脑磁图联合梯度计数据的影响的统计测试结果。

神经生理学的验证

研究者通过对比该模型与人类大脑的神经反应,进一步验证了模型的生物合理性。通过使用脑电图和脑磁图技术,研究发现,人类大脑在处理语义模糊时,确实表现出了类似于模型预测的层次性处理机制。特别是在面对模糊词汇时,大脑的高层次认知区域会首先做出预测,而低层次的感知区域则会根据预测结果进行反馈和调整。这与模型中的分层预测机制高度一致,进一步支持了该模型的理论基础。

结论与展望

该研究通过提出一个基于分层预测的语音理解模型,成功模拟了人类大脑在语音理解中的层次性处理机制。模型不仅能够处理连续的语音信号,还能够通过结合上下文信息和语义预测,动态地应对语义模糊和不确定性。通过这一研究,作者为理解人类语言处理的认知机制提供了一个新的视角,也为未来的自然语言处理模型设计提供了启示。

然而,该模型仍有一些局限性。例如,模型主要关注的是语音理解的单向处理过程,即从输入到理解,而没有考虑语言生成和多方交流的互动过程。此外,模型中的上下文信息和世界知识仍较为简化,未来可以进一步扩展模型,以更好地捕捉人类语言理解中的复杂性。

在未来的研究中,作者建议通过以下几个方向进一步完善该模型:

1. 多模态融合:在实际的语音理解过程中,听者不仅依赖听觉输入,还会结合视觉、触觉等多模态信息。因此,将视觉信息(如说话者的口型运动)融入模型中,能够进一步提高模型在复杂环境下的表现。

2. 语言生成与互动:目前的模型主要聚焦于语言理解,未来可以扩展到语言生成和多方互动的场景。通过结合生成模型,模拟听者如何根据上下文生成语音输出,并与他人进行互动,能够更全面地捕捉人类语言处理的全貌。

3. 学习机制:当前模型的一个局限在于它的知识库是固定的,未来可以引入机器学习机制,使模型能够通过与环境的交互不断学习和更新其内部知识。这将使模型更具灵活性和适应性。

4. 神经生理学验证:进一步通过神经生理学实验验证模型的准确性,特别是探讨模型中的层次性处理机制如何在不同的神经回路中实现,能够为认知神经科学提供新的见解。

通过这些改进和扩展,研究者希望该模型能够成为一个更全面、精确的语言理解工具,不仅为认知科学提供理论支持,也为自然语言处理技术的进步提供实践指导。

仅用于学术分享,若侵权请留言,即时删侵!

欢迎加入脑机接口社区交流群,

探讨脑机接口领域话题,实时跟踪脑机接口前沿。

加微信群:

添加微信:RoseBCI【备注:姓名+行业/专业】。

欢迎来稿

1.欢迎来稿。投稿咨询,请联系微信:RoseBCI

点击投稿:

2.加入社区成为兼职创作者,请联系微信:RoseBCI

一键三连「分享」、「点赞」和「在看」

不错过每一条脑机前沿进展

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
中国没有流浪汉

中国没有流浪汉

文青大叔说
2026-06-02 10:32:31
82年潘汉年恢复名誉,胡均鹤让儿子向上反映:我的事儿该说清楚了

82年潘汉年恢复名誉,胡均鹤让儿子向上反映:我的事儿该说清楚了

史不语
2026-06-02 10:55:03
负债824亿、账上只剩82亿:一群猪,把700亿富豪逼上了悬崖

负债824亿、账上只剩82亿:一群猪,把700亿富豪逼上了悬崖

历史伟人录
2026-05-31 18:28:28
香会上中方发问菲律宾,菲防长语无伦次、答非所问

香会上中方发问菲律宾,菲防长语无伦次、答非所问

环球网资讯
2026-05-31 17:22:34
德国巨头卡了中国30年的空气悬架,被上海嘉定一个镇解决了

德国巨头卡了中国30年的空气悬架,被上海嘉定一个镇解决了

闻识
2026-06-01 02:15:52
彭毕离开泰山就生辉!拜合拉木张英凯都被重用,不换帅继续伤仲永

彭毕离开泰山就生辉!拜合拉木张英凯都被重用,不换帅继续伤仲永

刀锋体育
2026-06-02 09:45:28
英伟达:比亚迪、小米、小马智行等均已采用或正在基于Hyperion平台开发智驾

英伟达:比亚迪、小米、小马智行等均已采用或正在基于Hyperion平台开发智驾

财闻
2026-06-01 13:07:09
从被骂大骗子到全球第一,他为中国熬出又一项核心硬科技

从被骂大骗子到全球第一,他为中国熬出又一项核心硬科技

华商韬略
2026-06-01 10:49:43
明末十大军阀一览表!

明末十大军阀一览表!

寻史者也
2026-06-02 00:47:15
伊能静的二婚也有困境

伊能静的二婚也有困境

情感大头说说
2026-06-02 10:22:39
何超莲晒一家四口全家福,三太陈婉珍脸色蜡黄状态不好,窦骁缺席

何超莲晒一家四口全家福,三太陈婉珍脸色蜡黄状态不好,窦骁缺席

娱乐团长
2026-06-01 21:00:25
最幸福的老年人,就看这10条,一条10分,算算你能得多少分

最幸福的老年人,就看这10条,一条10分,算算你能得多少分

荷兰豆爱健康
2026-06-01 19:40:56
魔术正式任命斯威尼为新帅 他将随马刺打完总决赛

魔术正式任命斯威尼为新帅 他将随马刺打完总决赛

赛场速报局
2026-06-02 00:16:42
2026世界杯小组赛观赛指南(北京时间)

2026世界杯小组赛观赛指南(北京时间)

岳先生悟人间
2026-06-02 08:00:10
母亲葬礼婆家全员缺席,丈夫挂我99通电话,我下令开除他家所有人

母亲葬礼婆家全员缺席,丈夫挂我99通电话,我下令开除他家所有人

千秋文化
2026-05-13 19:39:45
孩子压岁钱账户原有20多万 父母离婚时却只剩40元!母亲称100%花在孩子身上 法院判决:返还22万

孩子压岁钱账户原有20多万 父母离婚时却只剩40元!母亲称100%花在孩子身上 法院判决:返还22万

闪电新闻
2026-06-02 09:38:46
卖了加油站又偷偷抵押,重庆三峡银行2.7亿贷款“三查”严重失职

卖了加油站又偷偷抵押,重庆三峡银行2.7亿贷款“三查”严重失职

法治边角料
2026-06-01 11:40:13
不好笑,日菲要封了中国的出海口?两记重拳打出,菲律宾的天塌了

不好笑,日菲要封了中国的出海口?两记重拳打出,菲律宾的天塌了

谛听骨语本尊
2026-06-01 19:30:05
脑洞大开!美记曝四队大交易,火箭梭哈得到杰伦·布朗,送走小贾

脑洞大开!美记曝四队大交易,火箭梭哈得到杰伦·布朗,送走小贾

体育见习官
2026-06-02 08:30:57
太过现实!NBA毫无温情可言,雷霆输球次日交易球员,不讲情面

太过现实!NBA毫无温情可言,雷霆输球次日交易球员,不讲情面

舞指如飞
2026-06-02 04:15:54
2026-06-02 11:32:49
脑机接口社区 incentive-icons
脑机接口社区
关注脑机前沿,分享脑机技术
223文章数 28关注度
往期回顾 全部

科技要闻

英伟达RTX Spark 很猛,但首批机型不便宜

头条要闻

牛弹琴:伊朗突然发飙 特朗普急了打电话痛骂以色列

头条要闻

牛弹琴:伊朗突然发飙 特朗普急了打电话痛骂以色列

体育要闻

1米74的业余联赛替补,在英超踢中卫

娱乐要闻

奚梦瑶何猷君婚礼曝光 深情热吻甜蜜

财经要闻

锂电“资源墙”高筑 全球性长期博弈开始

汽车要闻

星途神秘新车轮廓曝光 又一款性能SUV要来了?

态度原创

手机
亲子
健康
公开课
军事航空

手机要闻

小屏直屏轻薄手机评测:Reno16为何是潮流影像与性价比的完美答案?

亲子要闻

其实《小王子》里面,藏着大量育儿真相!

干细胞临床研究向患者收费?别踩坑

公开课

李玫瑾:为什么性格比能力更重要?

军事要闻

韩国最大军工企业爆炸 已造成5人死亡

无障碍浏览 进入关怀版