利物浦大学开发的一种新计算机模型能够以一种与人类相似的方式结合视觉和听觉。这个模型受到生物学的启发,可能对人工智能和机器的感知有帮助。
该模型基于一种最早在昆虫中发现的一种大脑功能,帮助它们检测运动。心理学高级讲师切萨雷·帕里塞博士将这一理念进行了改进,创建了一个能够处理现实生活中的音视频信号——如视频和声音——的系统,而不是依赖旧模型中的抽象参数。他的论文已在期刊 eLife 上 发表。
当我们看着某人说话时,我们的大脑会自动把看到的和听到的进行匹配。这可能导致错觉,比如麦戈克效应,声音和嘴唇动作不匹配时会产生一种新的感知,或者腹语师错觉,声音似乎是从木偶而不是表演者那里发出的。这项最新研究提出了一个问题:大脑是怎么知道声音和视觉匹配的?
之前的模型试图解释这一点,因为它们没有直接处理真实的视听信号,所以受到了一定的限制。利物浦大学人口健康研究所的帕里塞博士解释道:“尽管在视听感知方面进行了数十年的研究,我们仍然没有一个能够解决如此简单任务的模型,也就是说,输入一个视频后,判断音频是否会被感知为同步。”
“这一限制揭示了一个更深层次的问题:如果没有可计算的刺激,感知模型在理论上可以捕捉感知的许多方面,但无法进行即使是最简单的现实世界测试。”
帕里塞博士的新模型解决了感官整合领域一个长期以来的挑战。它建立在帕里塞和马克·恩斯特(德国比勒费尔德大学)早期工作的基础上,他们引入了相关性检测的原则,这可能解释了大脑是如何将来自不同感官的信号结合在一起的。
这项工作促成了多感官相关检测器(MCD)的研发,这是一种能够模拟人类对简单视听模式(如闪光和点击声)反应的模型。后来,他们改进了该模型,专注于输入中的微小变化,这些变化是我们如何整合视觉和听觉的关键。
在当前的研究中,Parise 模拟了一组这些检测器,在视觉和听觉空间中像网格一样排列。这个设置使得模型能够处理复杂的现实世界刺激信号。它成功地再现了69个著名实验的结果,这些实验涉及人类、猴子和老鼠。
Parise 博士补充道:“这代表了该领域迄今为止最大规模的模拟。虽然其他模型在过去已经进行了广泛的测试,但没有哪个模型在单一研究中测试过这么多的数据集。”
该模型匹配了不同物种的行为,并且在与领先的贝叶斯因果推断模型相比时表现更好,使用相同数量的可调参数。它还预测了人们在观看视听电影时的注视点,作为一个轻量级的“显著性模型”。
帕里塞认为,该模型在神经科学之外也可能有用。“进化已经通过简单的通用计算解决了声音与视觉的对齐问题,这些计算可以在不同物种和上下文中应用。这里的关键步骤是刺激的可计算性问题:因为该模型直接作用于原始的视听信号,所以可以应用于任何现实世界的材料。”
他补充道:“今天的人工智能系统仍然难以可靠地结合多模态信息,而视听显著性模型则依赖于大型且参数繁重的网络,这些网络是在庞大的标记数据集上训练的。相比之下,MCD晶格是轻量级的、高效的,并且不需要训练。这使得该模型成为下一代应用的有力竞争者。”
帕里塞总结道:“最初作为一种昆虫运动视觉模型,现在解释了人类及其他生物的大脑如何在各种复杂情境中整合声音和视觉。从预测像麦克古克效应和腹语者效应这样的错觉,到推断因果关系,并生成动态的视听显著性图,它为神经科学和人工智能研究提供了新的研究蓝图。”
了解更多信息: Cesare V Parise, 相关性检测作为刺激可计算的视听感知、因果推断和哺乳动物显著性图,eLife (2025). DOI: 10.7554/elife.106122.3
特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.