NC最新 | 统一视觉注意力的计算框架：双向循环门控机制如何解决特征绑定难题|前馈|神经元

NC最新 | 统一视觉注意力的计算框架：双向循环门控机制如何解决特征绑定难题

分享至

认知神经科学前沿文献分享

基本信息

Title:Modeling attention and binding in the brain through bidirectional recurrent gating

发表时间:2026-05-05

发表期刊:Nature Communications

影响因子:15.7

获取原文:

1. 添加小助手:PSY-Brain-Frontier即可获取PDF版本

研究背景

当我们注视着眼前复杂的场景时，大脑的视觉系统正面临着一个极其艰巨的挑战：如何从数以百万计的神经元活动中，将属于同一个物体的颜色、形状和运动轨迹准确地“绑定”在一起，并将其与背景区分开来？这个被称为“绑定问题”（binding problem）的谜题，以及与之紧密相关的视觉注意力机制，一直是认知神经科学领域的核心未解之谜。

过去几十年里，研究者们分别在空间注意力、特征注意力以及基于客体的注意力等多个维度积累了丰富的实证数据。然而，当前的计算模型往往是碎片化的。例如，有的模型依赖显著性图，有的依赖时间同步性，还有的依赖选择性路由。我们至今缺乏一个统一的计算框架，能够在一个符合神经生物学规律的网络中，同时解释这些跨越不同尺度的注意力现象。此外，当前主流的人工智能视觉模型高度依赖纯前馈网络，忽略了大脑腹侧视觉流中至关重要的自上而下（top-down）反馈和侧向（lateral）循环处理。

为了打破这一僵局，来自柏林工业大学和宾夕法尼亚大学等机构的研究团队在《Nature Communications》上提出了一种名为“双向循环门控”（bidirectional recurrent gating）的神经启发计算机制。这项研究试图回答一个根本问题：如果我们为神经网络赋予类似大脑视觉皮层的架构约束，并让其在多任务环境中学习，那些复杂的、类人的注意力行为和神经生理特性，是否会自然涌现？

研究核心总结

这项研究并没有为每一种注意力现象单独设计模块，而是构建了一个统一的U-Net变体架构。在这个架构中，自下而上的前馈路径负责提取视觉特征，而自上而下和侧向连接则传递与任务和上下文相关的调节信号。研究者通过一系列精心设计的实验，揭示了该模型在行为、知觉和神经生理三个层面的核心发现。

一、统一架构在多任务学习中展现出全能的注意力行为

研究者首先考察了模型是否具备类似人类的灵活注意力分配能力。通过在包含复杂遮挡和动态噪声的MNIST和COCO组合数据集上进行多任务训练，模型不仅出色地完成了基础的物体识别与分割，还成功执行了视觉搜索、空间线索定向和特征突显（pop-out）等经典注意力任务。

更重要的是，该模型展现出了处理时间动态信息的能力。在目标追踪任务中，模型能够持续将注意力锁定在移动的客体上；而在多目标场景中，模型自发学会了“返回抑制”（inhibition of return），即在扫描完一个物体后，主动抑制对该位置的关注，从而顺利将注意力转移到下一个新物体上。这表明，双向循环门控机制足以支撑视觉系统在空间和时间维度上的复杂过滤与搜索行为。

Fig 1. 展示了双向循环门控模型的核心架构，自下而上的特征提取与自上而下的注意力调节在网络中交汇并相互作用。

Fig 2. 模型在多任务学习范式下的表现，证明了单一网络可以同时掌握空间线索、特征突显和自上而下的视觉搜索。

二、模型自发涌现出与人类高度一致的心理物理学错觉与知觉局限

一个优秀的认知计算模型不仅要能完成任务，还要能复现人类在信息处理时的“局限性”。研究者利用经典的心理物理学范式对模型进行了测试。结果发现，当模型将注意力集中在特定区域时，其对比度阈值显著降低（对比度增益），并且会主观上“认为”被关注区域的刺激对比度更高，这与人类受试者的表现如出一辙。

此外，模型还完美复现了知觉负载理论（Perceptual Load Theory）的核心现象。当视野中的干扰物增加、知觉负载变大时，模型检测目标变化的准确率系统性下降。特别是在无效线索引导注意力的试次中，模型对极其明显的视觉变化视而不见，展现出了典型的“无意视盲”（inattentional blindness）。在经典的Bregman错觉测试中，模型也像人类一样，能够利用可见的遮挡物边界来辅助目标识别，证明了其具备处理边界归属（border-ownership）的能力。

Fig 4. 经典的Bregman错觉测试表明，模型与人类一样，会利用可见的遮挡物边界来辅助目标识别与特征整合。

Fig 7. 心理物理学实验再现，揭示了模型在面对知觉负载增加时，同样会出现类似人类的无意视盲现象。

三、内部神经元发育出类似灵长类视觉皮层的生理特性

为了探究模型内部的计算机制是否具有生物学合理性，研究者打开了网络的“黑箱”，将其内部单元的活动与猕猴视觉皮层的单细胞记录进行了对比。在模拟的曲线追踪（curve-tracing）任务中，模型成功实现了基于客体的注意力分配，其早期层神经元的活动在目标曲线经过其感受野时显著增强，这与猕猴V1区神经元的反应模式高度吻合。

进一步的调谐曲线分析显示，注意力对模型深层神经元的调节是乘性的（multiplicative）。也就是说，注意力仅仅放大了神经元的反应强度，而没有改变其对特定方向的固有偏好（即注意力不变性调谐），这直接呼应了在猕猴V4区观察到的经典生理学现象。此外，在图地分离任务中，模型自发分化出了两类神经元：一类负责纯粹的特征提取，另一类则专门编码物体的边界方向，这为近期关于视觉皮层边界归属编码的生物学发现提供了强有力的计算解释。

Fig 3. | Multitask training on MNIST composites (Part 2/2). Results for a singlemodel trained on seven tasks simultaneously. The ﬁgure includes inp...

Fig 5. | Multitask training on COCO. Results for a single model trained on threetasks simultaneously: a object recognition, b cued perceptual group...

Fig 6. | Feature attention and masking. a The CelebA dataset contains a strongspurious correlation between hair color and sex, which can be exploit...

Fig 11. | Architecture backbone, building blocks, and elements. The terminologyused here follows PyTorch layer conventions. Sequential operations ar...

Fig 12. | Architecture backbone, building blocks and elements. a Detailedarchitecture used for the MNIST experiment. For the MNIST model, we use RNN...

Fig 8. 在曲线追踪任务中，模型早期层神经元的活动在关注目标曲线时显著增强，再现了猕猴V1区的电生理记录。

Fig 9. 神经元调谐曲线分析显示，注意力仅通过乘性增益增强了神经元反应，而未改变其固有的方向选择性偏好，高度契合猕猴V4区的生理记录。

Fig 10. 图地分离任务中的神经元活动表明，网络自发分化出了类似灵长类视觉皮层中负责边界归属编码的特定神经元群。

研究意义

这项工作为认知神经科学和人工智能领域带来了多重启发。首先，在理论层面上，它为“涌现注意力假说”（emergent-attention hypothesis）提供了坚实的机制级证据。研究表明，空间、特征和客体注意力并不需要大脑中存在相互独立的专属模块，它们完全可以通过一个统一的循环门控机制，在任务驱动的局部竞争与全局调节中自然涌现。同时，该模型也强有力地支持了“通过发射率增强实现绑定”的理论。

其次，在方法学上，这项研究为理解视觉系统提供了一个极具潜力的“白盒”替代方案。相比于一味追求性能的纯前馈深度学习模型，这种受脑启发的架构在处理虚假相关性、应对复杂遮挡以及多任务泛化方面展现出了更高的鲁棒性。

当然，研究者也客观指出了当前模型的边界。例如，该模型尚未整合眼跳等显性注意力机制，且其依赖的基于时间的反向传播（BPTT）算法在严格的生物学意义上仍存争议。但瑕不掩瑜，这一框架不仅为未来设计针对视觉认知障碍的计算实验提供了理想的测试床，也为下一代更具灵活性和类人推理能力的AI架构指明了方向。

分享人：饭鸽儿

审核：PsyBrain 脑心前沿编辑部

你好，这里是「PsyBrain 脑心前沿」

专注追踪全球认知神经科学的最尖端突破

视野直击 Nature, Science, Cell 正刊及核心子刊与顶级大刊

每日速递「深度解读」与「前沿快讯」

科研是一场探索未知的长跑，但你无需独行。欢迎加入PsyBrain 学术社群，和一群懂你的同行，共同丈量脑与心智的无垠前沿。

点击卡片进群，欢迎你的到来

一键关注，点亮星标 ⭐ 前沿不走丢！

一键分享，让更多人了解前沿

特别声明：以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布，本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.