网易首页 > 网易号 > 正文 申请入驻

当AI遇上心理学:如何让AI的眼神更像人?|AAAI 2025

0
分享至

EyEar的表现比目前最好的基线模型高出15%。

你有没有想过,当我们看到一幅图画并听到相关的描述时,我们的眼睛是如何“自动”跟随声音去寻找画面中的对应物?这看似自然的动作,其背后却隐藏着一套极其复杂的生理与心理机制。而今天,人工智能已经能够在一定程度上模拟这种能力了!

近日,中国人民大学高瓴人工智能学院专注多模态方向的宋睿华团队、擅长AI+物理孙浩与心理学系张登浩合作提出了一项名为 EyEar(Eye moving while Ear listening) 的创新技术,它能够预测人类在听声音同时观看图像时的注视轨迹!这一技术为构建眼神更“像人”的虚拟角色带来了无限可能。该论文已被AAAI 2025接收为口头报告(oral presentation)。

在计算机视觉与人工智能领域,模拟和预测人类的注视轨迹一直是一个至关重要的研究方向。近年来,随着虚拟角色和智能人机交互的快速发展,如何通过更自然的方式让虚拟人物模仿人类的眼动行为成为了热门话题。然而,大多数注视轨迹预测任务主要集中于视觉信息,尽管这些研究为理解人类视觉系统提供了宝贵的洞见,但它们并未充分考虑音频刺激对人类注视行为的影响。为填补这一空白,团队提出了一个全新的任务——Audio Synchronized Viewing:旨在预测人类在听到音频信号的同时,在图像中的注视轨迹。

图 1 任务示意图

1

任务的形式化描述

任务的输入包括一张图像 和一段音频 。使用语音识别工具,可以得到音频中的词语及其在音频中的开始和结束时间:

在此任务中,人类的注视与音频时间戳保持一致。人们倾向于注视某个点,直到听到下一个单词。因此,任务旨在预测每个结束时间的注视点。对于一个图像-音频对 - ,有 条人类注视轨迹:

任务的目标是预测一条注视轨迹:,使其尽可能地接近人类的注视轨迹。

2

方法

为了解决这一新的任务,团队将眼球看作一种弹簧系统,提出了基于物理启发的动力系统的全新学习框架 EyEar (Eye moving while Ear listening)。该框架通过考虑眼球固有运动趋势、视觉显著吸引力以及音频的语义吸引力三大关键因素来预测注视点。此外,团队提出了一个基于概率密度的评分方法,以克服注视轨迹的高度个体差异性,从而提升优化的稳定性和评估的可靠性。

图 2 模型示意图

  1. 创新的物理启发的动力系统:

为了捕捉眼睛的运动特征,团队提出了一种受物理学启发的音频感知动力系统。在动力系统中,存在一种被称为状态的概念,其由一组可确定的实数表示。状态的微小变化对应于这些实数的微小变化。动力系统的演化由一组函数决定,这些函数描述了未来状态如何依赖于当前状态。在这个任务中,状态指代注视位置。以下是动力系统的数学公式(参见模块1):

其中,当前预测的注视点根据前一个注视点,时间间隔,以及运动向量计算得到。具体而言,运动向量的计算公式如下:

团队综合考虑了影响运动向量的三个力的来源。上述公式中的神经网络(MLP)对应于动力系统中的一组函数(由三种力引起的运动分量)。式中的第一项表示由保持在前一个注视点的固有运动趋势的力引起的运动分量,它与任何刺激无关。第二项表示由吸引注视点到图像中最显著的点的力引起的运动分量。通过DeepGaze IIE模型得到。考虑这种力是因为人类的注意力有时可能完全被图像的显著部分所吸引。第三项表示由吸引注视点到音频语义吸引点的力引起的运动分量。这一项考虑了人类在音频刺激下的注意力。直观上,当人类听到一些词语时,他们会关注与之语义相关的部分。最后,可学习的权重参数α衡量人类注意力被不同部分吸引的程度。

2.音频语义吸引点预测:

为了衡量图像区域和听到的词语之间的广泛语义关系并得到准确的音频语义吸引点,团队精心设计了图像分支、音频转录分支以及多模态注意力机制,用于整合不同类型的信息并预测下一个音频语义吸引点。

3.概率密度评分方法:

图 3 概率密度评分方法示意图

由于人的真实注视轨迹具有高度个体差异,模型的优化和评估面临挑战。如图所示,当听到“电脑”时,受试者的注视点集中在电脑上。然而,由于图像中有两台电脑,注视点被分成了两个组。这样的多样化目标使得常用的均方误差(MSE)损失容易受到混淆。在该示例中,两个组之间的中间点会最小化MSE损失,但这并不是我们想要的,因为该点并不对应任何一台电脑。为此,团队提出了一种基于分布的度量方法,称为概率密度评分(PDS),以替代基于点的度量(如欧几里得距离)。首先,通过高斯核密度估计对多个真实注视点形成的分布进行估计(),并将其作为真实分布。其次,对于预测的注视点,通过其在该分布上的概率密度的归一化值来衡量其与真实分布的契合程度:

3

数据集与实验

为支持EyEar框架的开发,研究团队收集了一个包含20,000个注视点的数据集。该数据集收集自8个受试者,在他们听取与图像内容相关的音频描述时,通过眼动追踪设备记录下他们的注视轨迹。与现有的数据集相比,这一数据集不仅具有更长的注视序列和持续时间,还能更好地模拟人类在自然环境中的注视行为。

图 4 数据集比较

通过对比现有的多个基线模型(包括预训练的图文对齐模型、视觉定位模型和注视轨迹预测模型),EyEar框架在所有评估指标上均取得了显著的性能提升。尤其是在PDS(概率密度评分)指标上,EyEar的表现比最好的基线模型高出15%。

图 5 模型性能比较

EyEar不仅能够准确预测注视轨迹,还能模仿人类眼动的自然运动模式,特别是在音频语义的引导下,眼动行为表现得尤为自然。尽管与人类的真实眼动相比,EyEar仍有一定差距,但其在多模态注视轨迹预测任务中的优势是显而易见的。

图 6 模型预测结果

应用示例

4

未来展望

未来,研究团队计划将EyEar框架扩展到视频场景,以进一步模拟真实世界中的视觉与听觉互动。此外,他们还将尝试将开放的音频刺激应用于该框架,探索更多样化的听觉信息对注视行为的影响。

更多内容,点击下方关注:

未经「AI科技评论」授权,严禁以任何方式在网页、论坛、社区进行转载!

公众号转载请先在「AI科技评论」后台留言取得授权,转载时需标注来源并插入本公众号名片。

为什么中国只有一个 DeepSeek?

谁将替代 Transformer?

Andrej Karpathy 最新视频盛赞 DeepSeek:R1 正在发现人类思考的逻辑并进行复现

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
预制菜风波后,西贝一门店称大豆油已全部更换,门店师傅正接受菜品标准培训

预制菜风波后,西贝一门店称大豆油已全部更换,门店师傅正接受菜品标准培训

红星资本局
2025-09-18 21:24:14
小米硬刚苹果,跳过16直推17系列,雷军:全面对标iPhone!

小米硬刚苹果,跳过16直推17系列,雷军:全面对标iPhone!

华尔街见闻官方
2025-09-15 15:29:04
贾国龙携26位同行发视频回应危机,产业协会发声助力西贝

贾国龙携26位同行发视频回应危机,产业协会发声助力西贝

花心电影
2025-09-18 11:03:33
盘点从俞敏洪手里出走的6位大佬,罗翔最让人意外,罗永浩混最差

盘点从俞敏洪手里出走的6位大佬,罗翔最让人意外,罗永浩混最差

户外钓鱼哥阿旱
2025-09-14 12:20:04
穆里尼奥:执教费内巴切是个错误,执教本菲卡意味着回归应有水准

穆里尼奥:执教费内巴切是个错误,执教本菲卡意味着回归应有水准

直播吧
2025-09-18 23:19:14
马斯克畅想:如果我们走出地球,可能会发现大批灭绝的文明!网友:先把地球上的烂摊子收拾好

马斯克畅想:如果我们走出地球,可能会发现大批灭绝的文明!网友:先把地球上的烂摊子收拾好

大白聊IT
2025-09-18 16:50:15
年薪400万!穆帅回归本菲卡,37岁老将主力难保:连续3场失误送礼

年薪400万!穆帅回归本菲卡,37岁老将主力难保:连续3场失误送礼

球场没跑道
2025-09-18 21:03:16
十年前遗弃的氢氟酸致女子踩中去世,涉案人员被控制,律师:未过追诉期,最高判七年

十年前遗弃的氢氟酸致女子踩中去世,涉案人员被控制,律师:未过追诉期,最高判七年

潇湘晨报
2025-09-18 18:03:04
突发!美元大降息箭在弦上,中国楼市即将开启“暴富”模式?

突发!美元大降息箭在弦上,中国楼市即将开启“暴富”模式?

原来仙女不讲理
2025-09-18 11:43:00
当时很多蒙古考察日记中,都提到蒙古人性交不节制,得病者极多

当时很多蒙古考察日记中,都提到蒙古人性交不节制,得病者极多

牛牛叨史
2025-09-17 13:38:18
17岁初三学生宁宇华去世,长得很帅是体育生,打篮球意外摔倒身亡

17岁初三学生宁宇华去世,长得很帅是体育生,打篮球意外摔倒身亡

180视角
2025-09-18 13:09:07
高下立判!郝龙斌反悔引质疑,郑丽文机会来了,第二个卢秀燕出现

高下立判!郝龙斌反悔引质疑,郑丽文机会来了,第二个卢秀燕出现

科普100克克
2025-09-18 20:05:15
没有下限!退伍兵哥发女友合照,结果评论区炸出大瓜,女的不简单

没有下限!退伍兵哥发女友合照,结果评论区炸出大瓜,女的不简单

星河也灿烂
2025-09-18 15:54:40
枯草堆里的那个下午,藏着我们最炽热的青春

枯草堆里的那个下午,藏着我们最炽热的青春

青苹果sht
2025-09-18 05:50:02
英伟达芯片在中国不再受欢迎 监管部门已禁止科技公司采购

英伟达芯片在中国不再受欢迎 监管部门已禁止科技公司采购

cnBeta.COM
2025-09-18 00:02:03
随着周跃龙4-2,小特3-4,英格兰赛8强诞生2席!13位种子选手出局

随着周跃龙4-2,小特3-4,英格兰赛8强诞生2席!13位种子选手出局

球场没跑道
2025-09-18 22:32:14
美的烤箱“远程失控”事件,揭开万物互联的惊悚一面

美的烤箱“远程失控”事件,揭开万物互联的惊悚一面

功夫财经
2025-09-18 08:28:37
A股:股民系好安全带,大资金明牌了,周五将迎来更大级别变盘?

A股:股民系好安全带,大资金明牌了,周五将迎来更大级别变盘?

小嵩
2025-09-18 16:00:21
肥肠再次成为关注焦点!医生发现:常吃肥肠,身体会收获6大好处

肥肠再次成为关注焦点!医生发现:常吃肥肠,身体会收获6大好处

泠泠说史
2025-09-18 13:47:01
曾毅现身老家养病近照曝光!脸上长4个大包,3个月暴瘦20斤好憔悴

曾毅现身老家养病近照曝光!脸上长4个大包,3个月暴瘦20斤好憔悴

娱乐圈圈圆
2025-09-18 11:10:29
2025-09-19 02:47:00
AI科技评论 incentive-icons
AI科技评论
点评学术,服务AI
6928文章数 20685关注度
往期回顾 全部

科技要闻

英伟达50亿美元投资英特尔,但代工免谈

头条要闻

男子给小35岁情人转1340万 妻子:第三者生活极度奢侈

头条要闻

男子给小35岁情人转1340万 妻子:第三者生活极度奢侈

体育要闻

身高170的他,让196的博尔特坐不住了

娱乐要闻

最美央视才女,甩掉孙红雷嫁给张嘉益

财经要闻

起底多校“发臭午餐”供应商绿捷

汽车要闻

女神代言/新增配色/智能升级 26款腾势N9售38.98万起

态度原创

亲子
房产
家居
手机
健康

亲子要闻

汇星海之光 护妇幼健康|2025年“妇幼健康看中国”宣传推进活动大连站即将启幕

房产要闻

好猛!海南楼市,一批王炸楼盘杀出!

家居要闻

多维交集 简意雅情结合

手机要闻

荣耀Magic8再曝,mini和Ultra年后发

内分泌科专家破解身高八大谣言

无障碍浏览 进入关怀版