网易首页 > 网易号 > 正文 申请入驻

当AI遇上心理学:如何让AI的眼神更像人?|AAAI 2025

0
分享至

EyEar的表现比目前最好的基线模型高出15%。

你有没有想过,当我们看到一幅图画并听到相关的描述时,我们的眼睛是如何“自动”跟随声音去寻找画面中的对应物?这看似自然的动作,其背后却隐藏着一套极其复杂的生理与心理机制。而今天,人工智能已经能够在一定程度上模拟这种能力了!

近日,中国人民大学高瓴人工智能学院专注多模态方向的宋睿华团队、擅长AI+物理孙浩与心理学系张登浩合作提出了一项名为 EyEar(Eye moving while Ear listening) 的创新技术,它能够预测人类在听声音同时观看图像时的注视轨迹!这一技术为构建眼神更“像人”的虚拟角色带来了无限可能。该论文已被AAAI 2025接收为口头报告(oral presentation)。

在计算机视觉与人工智能领域,模拟和预测人类的注视轨迹一直是一个至关重要的研究方向。近年来,随着虚拟角色和智能人机交互的快速发展,如何通过更自然的方式让虚拟人物模仿人类的眼动行为成为了热门话题。然而,大多数注视轨迹预测任务主要集中于视觉信息,尽管这些研究为理解人类视觉系统提供了宝贵的洞见,但它们并未充分考虑音频刺激对人类注视行为的影响。为填补这一空白,团队提出了一个全新的任务——Audio Synchronized Viewing:旨在预测人类在听到音频信号的同时,在图像中的注视轨迹。

图 1 任务示意图

1

任务的形式化描述

任务的输入包括一张图像 和一段音频 。使用语音识别工具,可以得到音频中的词语及其在音频中的开始和结束时间:

在此任务中,人类的注视与音频时间戳保持一致。人们倾向于注视某个点,直到听到下一个单词。因此,任务旨在预测每个结束时间的注视点。对于一个图像-音频对 - ,有 条人类注视轨迹:

任务的目标是预测一条注视轨迹:,使其尽可能地接近人类的注视轨迹。

2

方法

为了解决这一新的任务,团队将眼球看作一种弹簧系统,提出了基于物理启发的动力系统的全新学习框架 EyEar (Eye moving while Ear listening)。该框架通过考虑眼球固有运动趋势、视觉显著吸引力以及音频的语义吸引力三大关键因素来预测注视点。此外,团队提出了一个基于概率密度的评分方法,以克服注视轨迹的高度个体差异性,从而提升优化的稳定性和评估的可靠性。

图 2 模型示意图

  1. 创新的物理启发的动力系统:

为了捕捉眼睛的运动特征,团队提出了一种受物理学启发的音频感知动力系统。在动力系统中,存在一种被称为状态的概念,其由一组可确定的实数表示。状态的微小变化对应于这些实数的微小变化。动力系统的演化由一组函数决定,这些函数描述了未来状态如何依赖于当前状态。在这个任务中,状态指代注视位置。以下是动力系统的数学公式(参见模块1):

其中,当前预测的注视点根据前一个注视点,时间间隔,以及运动向量计算得到。具体而言,运动向量的计算公式如下:

团队综合考虑了影响运动向量的三个力的来源。上述公式中的神经网络(MLP)对应于动力系统中的一组函数(由三种力引起的运动分量)。式中的第一项表示由保持在前一个注视点的固有运动趋势的力引起的运动分量,它与任何刺激无关。第二项表示由吸引注视点到图像中最显著的点的力引起的运动分量。通过DeepGaze IIE模型得到。考虑这种力是因为人类的注意力有时可能完全被图像的显著部分所吸引。第三项表示由吸引注视点到音频语义吸引点的力引起的运动分量。这一项考虑了人类在音频刺激下的注意力。直观上,当人类听到一些词语时,他们会关注与之语义相关的部分。最后,可学习的权重参数α衡量人类注意力被不同部分吸引的程度。

2.音频语义吸引点预测:

为了衡量图像区域和听到的词语之间的广泛语义关系并得到准确的音频语义吸引点,团队精心设计了图像分支、音频转录分支以及多模态注意力机制,用于整合不同类型的信息并预测下一个音频语义吸引点。

3.概率密度评分方法:

图 3 概率密度评分方法示意图

由于人的真实注视轨迹具有高度个体差异,模型的优化和评估面临挑战。如图所示,当听到“电脑”时,受试者的注视点集中在电脑上。然而,由于图像中有两台电脑,注视点被分成了两个组。这样的多样化目标使得常用的均方误差(MSE)损失容易受到混淆。在该示例中,两个组之间的中间点会最小化MSE损失,但这并不是我们想要的,因为该点并不对应任何一台电脑。为此,团队提出了一种基于分布的度量方法,称为概率密度评分(PDS),以替代基于点的度量(如欧几里得距离)。首先,通过高斯核密度估计对多个真实注视点形成的分布进行估计(),并将其作为真实分布。其次,对于预测的注视点,通过其在该分布上的概率密度的归一化值来衡量其与真实分布的契合程度:

3

数据集与实验

为支持EyEar框架的开发,研究团队收集了一个包含20,000个注视点的数据集。该数据集收集自8个受试者,在他们听取与图像内容相关的音频描述时,通过眼动追踪设备记录下他们的注视轨迹。与现有的数据集相比,这一数据集不仅具有更长的注视序列和持续时间,还能更好地模拟人类在自然环境中的注视行为。

图 4 数据集比较

通过对比现有的多个基线模型(包括预训练的图文对齐模型、视觉定位模型和注视轨迹预测模型),EyEar框架在所有评估指标上均取得了显著的性能提升。尤其是在PDS(概率密度评分)指标上,EyEar的表现比最好的基线模型高出15%。

图 5 模型性能比较

EyEar不仅能够准确预测注视轨迹,还能模仿人类眼动的自然运动模式,特别是在音频语义的引导下,眼动行为表现得尤为自然。尽管与人类的真实眼动相比,EyEar仍有一定差距,但其在多模态注视轨迹预测任务中的优势是显而易见的。

图 6 模型预测结果

应用示例

4

未来展望

未来,研究团队计划将EyEar框架扩展到视频场景,以进一步模拟真实世界中的视觉与听觉互动。此外,他们还将尝试将开放的音频刺激应用于该框架,探索更多样化的听觉信息对注视行为的影响。

更多内容,点击下方关注:

未经「AI科技评论」授权,严禁以任何方式在网页、论坛、社区进行转载!

公众号转载请先在「AI科技评论」后台留言取得授权,转载时需标注来源并插入本公众号名片。

为什么中国只有一个 DeepSeek?

谁将替代 Transformer?

Andrej Karpathy 最新视频盛赞 DeepSeek:R1 正在发现人类思考的逻辑并进行复现

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
耿同学又爆新料!多所985名校顶刊论文集体沦陷

耿同学又爆新料!多所985名校顶刊论文集体沦陷

网易新闻出品
2026-05-29 19:29:43
新加坡香会取消了中国专场!李显龙没料到,这次中方不陪他们玩了

新加坡香会取消了中国专场!李显龙没料到,这次中方不陪他们玩了

影孖看世界
2026-05-29 23:54:06
离开北京陈盈骏道别,发声喊话,官宣决定,妻子陪同,合同已到期

离开北京陈盈骏道别,发声喊话,官宣决定,妻子陪同,合同已到期

阿晞体育
2026-05-29 21:52:16
五天近12亿,《给阿嬷的情书》被11亿成本大片打败,丢掉全球冠军

五天近12亿,《给阿嬷的情书》被11亿成本大片打败,丢掉全球冠军

影视高原说
2026-05-28 18:59:51
白养了!2儿子非亲生后续:大儿子狂骂姜洪涛,连法官都看不下去

白养了!2儿子非亲生后续:大儿子狂骂姜洪涛,连法官都看不下去

不似少年游
2026-05-29 09:42:48
美国一男子半小时内在纽约连杀四名游民,其中包括一名83岁华裔老人,并致另一受害者重伤,因纽约州已废除死刑,凶手被判40年至终身监禁

美国一男子半小时内在纽约连杀四名游民,其中包括一名83岁华裔老人,并致另一受害者重伤,因纽约州已废除死刑,凶手被判40年至终身监禁

三湘都市报
2026-05-29 09:16:24
特朗普就结束伊朗战事提出条件

特朗普就结束伊朗战事提出条件

新华社
2026-05-29 23:05:06
农村老家空心化到了什么程度?连葬礼的流程也已经极度简化了

农村老家空心化到了什么程度?连葬礼的流程也已经极度简化了

合赞历史
2026-05-29 15:08:34
偷走网红狗后续:村民围堵狗主,派人守村口,偷狗人真容曝光社死

偷走网红狗后续:村民围堵狗主,派人守村口,偷狗人真容曝光社死

奇思妙想草叶君
2026-05-28 19:17:55
老房子可原拆原建,引爆地产股!万科、碧桂园集体涨停!

老房子可原拆原建,引爆地产股!万科、碧桂园集体涨停!

说财猫
2026-05-29 13:46:05
涉案金额过亿,释永信一审被判有期徒刑24年

涉案金额过亿,释永信一审被判有期徒刑24年

界面新闻
2026-05-29 19:31:49
这跟不穿有啥区别?戛纳闭幕式,女星下垂、副乳突出,露的好辣眼

这跟不穿有啥区别?戛纳闭幕式,女星下垂、副乳突出,露的好辣眼

天马幸福的人生
2026-05-26 11:05:02
幼儿园老师,被指用热熔枪烫小女孩嘴唇

幼儿园老师,被指用热熔枪烫小女孩嘴唇

中国新闻周刊
2026-05-29 19:55:07
杭州女子征婚:不要彩礼,能提供5分钟夫妻生活,每月给男人3000

杭州女子征婚:不要彩礼,能提供5分钟夫妻生活,每月给男人3000

谭谈社会
2026-05-28 18:34:27
37岁企业董事长、车手张秀军环塔拉力赛中意外离世,弟弟发声:哥哥开车翻到水坑里溺亡,三个年幼孩子尚不知父亲遇难

37岁企业董事长、车手张秀军环塔拉力赛中意外离世,弟弟发声:哥哥开车翻到水坑里溺亡,三个年幼孩子尚不知父亲遇难

极目新闻
2026-05-29 21:53:30
超级巨大失误!颜骏凌“下蛋”,邦本远射破门,穆斯卡特直挠头

超级巨大失误!颜骏凌“下蛋”,邦本远射破门,穆斯卡特直挠头

奥拜尔
2026-05-29 19:53:26
时隔13年回归!曝63岁穆帅已与皇马签约3年:6月7日官宣 佛爷钦点

时隔13年回归!曝63岁穆帅已与皇马签约3年:6月7日官宣 佛爷钦点

风过乡
2026-05-29 22:44:31
“好怕你俩亲上”,成年礼家长合照出圈,儿子的情结写在脸上

“好怕你俩亲上”,成年礼家长合照出圈,儿子的情结写在脸上

蝴蝶花雨话教育
2026-05-29 00:05:17
还敢去全季酒店过夜吗

还敢去全季酒店过夜吗

不正确
2026-05-28 23:04:54
襄阳“割四赔五”后续!当事人还原真相,父亲曝更多,官方回应

襄阳“割四赔五”后续!当事人还原真相,父亲曝更多,官方回应

180视角
2026-05-29 13:43:46
2026-05-30 03:28:49
AI科技评论 incentive-icons
AI科技评论
点评学术,服务AI
7319文章数 20754关注度
往期回顾 全部

科技要闻

Claude Opus 4.8凌晨突发上线

头条要闻

释永信被判24年 中国佛教协会:完全是咎由自取

头条要闻

释永信被判24年 中国佛教协会:完全是咎由自取

体育要闻

即使是文班亚马,也做不到这件事

娱乐要闻

奚梦瑶何猷君将于6月在法国举行婚礼

财经要闻

近3个月跌超20% 黄金"猴市"下的众生相

汽车要闻

900V+3.2秒破百 领克10+&领克10上市16.99万元起

态度原创

家居
艺术
手机
旅游
公开课

家居要闻

云栖 舒展如流云

艺术要闻

吴湖帆小品册页

手机要闻

自研OS+玄戒+AI大模型,小米18系列,稳了!

旅游要闻

云南文旅数智升级,旅游小镇游客满意度提升超过30%

公开课

李玫瑾:为什么性格比能力更重要?

无障碍浏览 进入关怀版