网易首页 > 网易号 > 正文 申请入驻

杭电脑机协同智能团队:用于细粒度脑语义解码的视觉引导双空间交互网络

0
分享至

近日,杭州电子科技大学脑机协同智能团队最新研究成果“Visual guided Dual-spatial Interaction Network for Fine-grained Brain Semantic Decoding”论文发表在国际TOP学术期刊《IEEE Transactions on Instrumentation and Measurement》上。

文章链接:https://ieeexplore.ieee.org/document/10716707

大脑语义解码在计算机视觉和神经科学领域备受关注,但现有粗粒度解码工作往往忽视了大脑信号的稀疏性问题和深层次隐含语义解析挑战,导致大脑解码能力极大受限。为解决这一问题,本文提出了一种视觉引导的双空间交互网络(VDIN),通过多路径视觉信息引导(包括文本和图像),构建一种细粒度大脑语义解码框架。具体而言,本文首先设计了局部双空间交互模块,借助包含丰富语义信息的文本感知空间,探索大脑与文本之间的显式和隐式语义相关性。同时,该模块利用更高分辨率的图像感知空间,可以有效挖掘大脑与图像之间的多层次语义相关性。在此基础上,本文提出的全局双空间交互模块通过进一步整合并优化局部语义相关性,从而得到综合且全面的全局综合语义表征。这一方法增强了对视觉信息与大脑信号一致性及互补性的建模能力,从而为现有大脑语义解码工作提供了一种可行和可借鉴的更加细粒度且具有更强表达力的大脑语义解码新方案。

研究背景

在计算机视觉与神经科学领域,EEG(脑电图)作为一种非侵入式测量方法,已广泛应用于脑活动分析,特别是在视觉诱发脑活动的研究中。图像作为视觉刺激材料能够引发大脑的相应活动,这些活动通过EEG信号记录下来,如图1所示,EEG信号反映了大脑对视觉刺激的响应,进而可以被解码模型用来提取语义信息。

图1:视觉诱发大脑语义解码任务

尽管脑电信号可以有效学习得到本征语义信息,对于人类的认知过程具有不可替代的价值,但是脑电感知空间的空间分辨率过低,只能通过隐式的方式学习得到较为抽象的语义信息,在极大程度上限制了对语义的深层次解析能力。相比于脑电信号,视觉信号的高分辨率感知空间则能够从多个维度上解析得到丰富的显式语义信息,但无法有效满足现实场景中的复杂语义解析需求。因此,现有语义解码工作的问题在于,如何结合脑电信号的本征语义解析优势以及视觉信号的多维显式语义解析优势,利用视觉信号从多个维度充分引导和激发脑电信号的深层次、本征和综合的语义解析能力,从而提升对于复杂任务的语义理解能力,同时使得未来基于AI的大脑语义解码工作在一定程度上能够摆脱采集设备和复杂框架设计的限制。

为了克服以上问题,本文提出了一种视觉引导的双空间交互网络(VDIN)。该方法通过结合文本和图像的丰富多模态信息,在局部和全局两个层次上和大脑信号进行综合的细粒度语义交互。在局部交互层面上,本文聚焦于如何利用语义丰富的文本感知空间来高效探索大脑信号和文本模态之间的显式和隐式耦合语义相关性,以及利用高分辨率图像感知空间来探索大脑信号和图像模态之间的多层次语义相关性。而全局交互模块则将可以将局部语义信息进一步高效整合为更为综合丰富的全局语义表征,从而得到一种细粒度的大脑和视觉联合语义解码方案。通过这种方法,即使EEG信号的通道较少,模型也能保持较高的鲁棒性,突破了传统方法的局限,为大脑语义解码工作提供一种新的研究视角和解决方案。

研究方法

视觉引导的双空间交互网络(VDIN)通过视觉空间与大脑空间的紧密结合,实现了细粒度的大脑语义解码。首先,对原始图像采用文本描述方法得到对应的文本表示,并利用注意力机制提取显式语义信息。接着,通过卷积神经网络和位置嵌入构建得到高分辨率图像表征空间。对于EEG信号,则采用深度可分离卷积提取时序和跨通道特征,获得大脑空间的隐式语义信息。接着,通过视觉引导的局部语义耦合模块,将高分辨率图像表征空间和语义丰富文本表征空间与大脑感知空间进行多模态语义交互。最后,通过全局语义耦合模块进一步整合局部语义相关性,从而增强大脑和视觉之间的语义一致性和互补性学习,从而突破大脑语义解码的局限性以及提高大脑语义解码的性能。

图2:VDIN模型中的视觉空间与大脑空间双空间交互操作

在训练过程中同时进行视觉引导的局部双空间交互过程和视觉引导的全局双空间交互过程。整体模型训练的损失函数由双空间交互损失和分类损失组成。具体来说,视觉引导的局部交互损失和通过跨模态的语义耦合操作来学习视觉空间(图像和文本)与大脑空间之间的语义相关性,从而优化大脑空间的表示。视觉引导的全局交互损失进一步整合视觉空间和文本空间中的显性和多层次语义相关性,来优化大脑空间的语义表示。同时,分类损失基于模型预测和真实标签之间的差异,使得模型进行更准确的分类。最终,模型的总损失对应于以下公式:

该训练过程通过最小化整体损失来优化模型的学习,以实现更高效的跨模态语义解码。

实验分析

表1: EEGCVPR40数据集上的性能比较

本实验采用了EEGCVPR40数据集来评估所提出的VDIN模型。该数据集包含六个参与者的EEG记录(1000 Hz采样频率,128个EEG通道)和来自ImageNet的视觉刺激图像(40类,每类50张图像)。每个参与者在四个实验中观看500张图像,每张图像的展示时间为0.5秒,生成的EEG数据包含500个数据点(0.5秒 × 1000 Hz)。实验结果表明,VDIN在所有频带(全频带、高伽马、贝塔-伽马)下均超过了EfficienNet-Network模型和EEGClip模型的实验结果。VDIN在全频带对比实验中相较于EfficienNet-Network模型提高了15.97%的性能。此外,为了进一步验证模型的性能,我们通过5-fold、7-fold和10-fold交叉验证对模型进行了评估。实验结果表明,VDIN在10-fold交叉验证下表现最佳。值得注意的是,在只包含69个或99个大脑信号通道数据的情况下,视觉引导下的大脑语义解码结果仍显著优于非视觉引导的大脑语义解码。这表明视觉引导机制在低空间分辨率大脑信号数据(EEG数据)中的有效性。同时,VDIN在不同EEG频带和通道设置下均取得了优异的任务性能,进一步验证了其在大脑和视觉的一致性和互补性分析方面的优势。

结论

本文提出了一种新型的视觉引导双空间交互网络(VDIN),通过视觉语义空间的多层次和综合引导,得到一种细粒度大脑语义解码新方案。与现有方法相比,该方法利用文本空间中的丰富语义解析优势,完成大脑和文本空间之间的显式和隐性语义相关性提取;同时,借助了图像空间的高分辨率优势,高效完成大脑和图像空间的多层次语义相关性挖掘。这种双重引导机制显著提升了大脑表征空间的深层次和本征语义的精准和高效解析能力。因此,所提出的视觉引导下的双空间交互方法为AI驱动下的大脑精准语义解码提供了新的解决方案,使得现有大脑语义解码依赖于高效的视觉感知策略,而非复杂且冗余的架构设计。

作者:唐佳佳,杨宇涛,赵启斌,丁彧,张建海,宋扬,孔万增(通讯作者)

第一作者简介:唐佳佳,博士,杭州电子科技大学讲师,长期从事脑机交互,情感计算,多模态学习等方面的工作。

通讯作者简介:孔万增,博士,杭州电子科技大学二级教授,脑机协同智能技术(科技部)国际联合研究中心副主任,浙江省脑机协同智能重点实验室主任,校党委委员、组织部部长,入选2023、2024年度全球前2%顶尖科学家榜单,谷歌学术引用超4500次,省万人计划科技创新领军人才。长期从事人工智能与模式识别、嵌入式可穿戴计算、脑机交互与认知计算等方面的工作。

仅用于学术分享,若侵权请留言,即时删侵!

欢迎加入脑机接口社区交流群,

探讨脑机接口领域话题,实时跟踪脑机接口前沿。

加微信群:

添加微信:RoseBCI【备注:姓名+行业/专业】。

欢迎来稿

1.欢迎来稿。投稿咨询,请联系微信:RoseBCI

点击投稿:

2.加入社区成为兼职创作者,请联系微信:RoseBCI

一键三连「分享」、「点赞」和「在看」

不错过每一条脑机前沿进展

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
德媒:德国太天真了,我们最大的幻想,就是信了中国是个现代强国

德媒:德国太天真了,我们最大的幻想,就是信了中国是个现代强国

吃货的分享
2026-04-20 18:31:42
“老实人”任重甘愿当接盘侠,迎娶内娱第一海王,网友:天生绝配

“老实人”任重甘愿当接盘侠,迎娶内娱第一海王,网友:天生绝配

橙星文娱
2026-04-20 16:40:14
万斯及美国代表团 将在数小时内抵达巴基斯坦

万斯及美国代表团 将在数小时内抵达巴基斯坦

每日经济新闻
2026-04-20 22:32:54
撤下主力放弃比赛,替补却反败为胜!哈登都看傻了

撤下主力放弃比赛,替补却反败为胜!哈登都看傻了

林子说事
2026-04-21 02:26:26
【张春桥】“只见领袖,不见人民。”王昆丈夫周巍峙对他点名批评

【张春桥】“只见领袖,不见人民。”王昆丈夫周巍峙对他点名批评

年之父
2026-04-21 02:05:03
恭喜!曾春蕾当选,成中国女排接应第一人,江川给她做副手

恭喜!曾春蕾当选,成中国女排接应第一人,江川给她做副手

跑者排球视角
2026-04-20 22:01:45
福原爱官宣三胎仅3天,男方被扒底朝天,前夫江宏杰的做法太体面

福原爱官宣三胎仅3天,男方被扒底朝天,前夫江宏杰的做法太体面

阿纂看事
2026-04-20 14:51:18
1.7万兵力集结,距台湾仅96公里!专家担心:日本可能要军事暴走

1.7万兵力集结,距台湾仅96公里!专家担心:日本可能要军事暴走

消失的电波
2026-04-20 10:21:40
为啥很多人不愿做颈动脉彩超?医生:查一次,能 5 年躲开脑梗

为啥很多人不愿做颈动脉彩超?医生:查一次,能 5 年躲开脑梗

健康科普365
2026-04-18 17:50:03
美国女大学生一句玩笑,面临15年牢狱的指控

美国女大学生一句玩笑,面临15年牢狱的指控

慕容律师
2026-04-21 00:51:17
牡丹江男子拽住跳楼女友整整五分钟,力竭松手女方坠亡,法院判了

牡丹江男子拽住跳楼女友整整五分钟,力竭松手女方坠亡,法院判了

奇思妙想草叶君
2026-04-18 12:15:59
哈兰德:我背上很多抓痕,女朋友不太高兴;父亲教我不能假摔

哈兰德:我背上很多抓痕,女朋友不太高兴;父亲教我不能假摔

懂球帝
2026-04-20 23:25:16
零跑汽车股价闪崩10%,董事长高呼“活下来”!去年单车利润只有1810元…

零跑汽车股价闪崩10%,董事长高呼“活下来”!去年单车利润只有1810元…

深蓝财经
2026-04-20 18:47:13
10年前就开保时捷!方博将不再带货:互联网给我再多钱也不回来了

10年前就开保时捷!方博将不再带货:互联网给我再多钱也不回来了

风过乡
2026-04-20 22:09:47
特朗普:若有突破进展 愿同伊朗高级别领导人会面

特朗普:若有突破进展 愿同伊朗高级别领导人会面

财联社
2026-04-20 21:36:15
震惊世界  美国校园枪击惨案  一共 13 人死亡

震惊世界 美国校园枪击惨案 一共 13 人死亡

那些看得见的老照片
2026-04-20 07:00:08
大S到死都没料到!她走后,真心疼玥儿箖箖竟是被她拉黑的前婆婆

大S到死都没料到!她走后,真心疼玥儿箖箖竟是被她拉黑的前婆婆

情感大头说说
2026-04-20 15:16:32
坑惨宏远,没篮偏要投,7中1+假摔投死球队,球迷:真心菜的不行

坑惨宏远,没篮偏要投,7中1+假摔投死球队,球迷:真心菜的不行

南海浪花
2026-04-20 23:14:36
35岁女子去做私处紧缩,缝针断在肉里,医生徒手掏了半小时没找着

35岁女子去做私处紧缩,缝针断在肉里,医生徒手掏了半小时没找着

离离言几许
2026-04-20 20:53:38
8-1碾压局!中国00后世锦赛爆发,希金斯连赢4局上演惊天逆转

8-1碾压局!中国00后世锦赛爆发,希金斯连赢4局上演惊天逆转

刘哥谈体育
2026-04-21 03:43:15
2026-04-21 05:03:00
脑机接口社区 incentive-icons
脑机接口社区
关注脑机前沿,分享脑机技术
212文章数 27关注度
往期回顾 全部

科技要闻

HUAWEI Pura X Max发布 售价10999元起

头条要闻

19岁女孩挪用自家1700万当"榜一大姐" 亲爹带女儿自首

头条要闻

19岁女孩挪用自家1700万当"榜一大姐" 亲爹带女儿自首

体育要闻

阿森纳已拼尽全力,但你早干嘛去了...

娱乐要闻

《八千里路云和月》田家泰暗杀

财经要闻

利润暴跌7成,字节到底在做什么

汽车要闻

把天门山搬进厂?开仰望U8冲上45度坡的那刻 我腿软了

态度原创

健康
数码
时尚
艺术
公开课

干细胞抗衰4大误区,90%的人都中招

数码要闻

REDMI 显示器 G Pro 27U 2026轻体验:电竞利器 桌面上的“小钢炮”

春天衣服不用准备太多!这几大单品提前备好,百搭实用又不过时

艺术要闻

沙特官宣:全球最大单体建筑,延期十年!网友:又是画饼?

公开课

李玫瑾:为什么性格比能力更重要?

无障碍浏览 进入关怀版