PsyBrain 脑心前沿 | 公众号 PSY-Brain_Frontier
一键关注,点亮星标 ⭐️
不错过每日前沿资讯
认知神经科学前沿文献分享
![]()
基本信息:
Title:Top-down perceptual inference shaping the activity of early visual cortex
发表时间:2025.11.14
Journal:Nature Communications
影响因子:15.7
获取原文:
添加小助手:PSY-Brain-Frontier即可获取PDF版本
![]()
![]()
引言
在理解视觉系统时,我们习惯把信息处理看成“自下而上”(bottom-up):光刺激进入视网膜,沿着视通路层层上行,越到高级皮层越抽象。
过去十年,深度学习中的目标导向(goal-directed)判别模型正是沿着这种直觉前进:它们用监督学习去做分类任务,惊人地拟合了灵长类从V1到IT整条腹侧通路的神经反应,并且能合成最能“点燃”某些神经元的图像。
![]()
然而,这类纯前馈模型有两处与生物系统的核心差异:其一,它们需要外部标签信号教导;其二,它们几乎不需要自上而下(top-down)的回馈,而真实的大脑却布满了回返连接。尤其在“困难模式”(遮挡、噪声、模糊)下,灵长类的反应呈现延迟和再入(recurrent)特征,暗示除了前馈之外还有更复杂的计算在介入。
这篇发表在Nature Communications的论文提出并训练了一个分层深度生成模型——Top-Down Variational Autoencoder(TDVAE)来正面回答两个问题:
1)如果不靠标签、只靠自然图像统计,系统能否学到与早期视觉(V1/V2)相匹配的表征?
2)当模型执行分层推断(hierarchical inference)时,自上而下的“上下文先验(contextual priors)”如何塑造低级特征层(V1)的平均反应与噪声相关(noise correlations)?
作者的主张是:视觉并非只在顶层“认出是什么”(分类)才发生推断,而是在每一层都在进行带先验的贝叶斯式整合。更高层(类V2)学到的纹理与上下文,作为先验通过回馈影响低层(类V1):当图像证据不充分或含混时,先验会填补空白,乃至在卡尼萨(Kanizsa)这类错觉刺激上在V1中“虚构”出一条并不存在的边界。
文章不仅在平均放电上重现了多项经典生理学结果,还进一步解释了刺激依赖的噪声相关从何而来——它们正是高层上下文先验在低层采样中的投影。因此,这项工作把 “生成模型—分层推断—上下文先验” 的三角形闭环,完整落地到可与猴子数据逐图逐量对比的细粒度水平,展示了为何大脑要广泛使用自上而下。
更贴近生活的比喻:当你在薄雾中远看一只动物,清晰的边缘与花纹缺失,脑中“斑马应当有条纹”的先验会帮助把零碎线索组织成条纹;当你望见四个“吃掉角的小圆饼”,你会自动“看见”一只白色正方形——这就是上下文先验在不足证据下的“补全”。作者把这种补全与再解释,用一个端到端、无监督训练的生成模型具象化了出来,并且让它在多个“心理物理—电生理—模型”三方对照试验中站住脚。
![]()
![]()
实验设计
作者在自然图像补丁上端到端无监督训练TDVAE:生成部分对Z1-像素采用线性稀疏先验以获得Gabor样基;对Z2-Z1采用多层非线性,以学习纹理等非线性统计;识别部分共享一条前馈路径分别抵达Z1与Z2,并在Z1-INT节点将来自Z2的Top-down与图像证据融合,输出可采样的后验。
训练完成后,作者不用任何对神经数据的拟合参数,直接把Z1/Z2的均值与采样映射为V1/V2反应来做对照:一方面用合成纹理/相位打乱/滤波打乱等刺激考察Z2的纹理编码与Z1的不变性/可分性;另一方面构造Kanizsa错觉与轮廓补全范式,比较真实边/错觉边/不相干对照的Z1反应时程与幅度,并通过“抽掉Z2刺激信息”“把Z2钳制为零”等消融来验证反馈来源;此外,作者用Z1的噪声相关矩阵直接做纹理家族解码,并检验其与信号相关(跨图像均值相关)的一致性,以及在相位/滤波打乱后的下降,最后与猴V1/V2数据逐项对标。
![]()
Fig. 1 | Hierarchical inference in task-independent models.
![]()
核心发现
发现一|Z2学到“紧凑而强”的纹理表征,Z1接近机会水平,与V2/V1遥相呼应
训练后,Z1形成了一个几乎完备的Gabor字典,而Z2没有明显的一阶线性结构,却在二阶/调谐上表现出对方向与波长的选择性。关键在于可线性解码的纹理家族信息:在Z2,纹理解码准确率高达0.876±0.0001,且在多种层级结构变体中稳健;而在Z1,解码接近机会水平(有15个家族,对应~0.067),与猴V1数据一致。进一步的t-SNE可视化显示:Z2的响应在家族层面形成清晰簇团,而Z1则分散——这与猴V2与V1群体数据的模式几乎一一对应(图2e-f)。作者还对照了未训练模型与经典前馈CORnet:未训练模型Z2解码接近0.082,远逊于TDVAE;而CORnet在“Z2样层”解码可达0.977,在“Z1样层”则仍接近机会。这说明:分层生成学习自然会在中层(类V2)形成低维而有力的纹理坐标轴,且这种轴是任务无关地自发涌现的;同时也表明即使判别模型能在高层形成可解码的纹理轴,它们并不阐明上下文先验如何回流影响低层。数据与文字详见图2d-f及相关段落。
![]()
Fig. 2 | Hierarchical representation in Z1 and Z2 learned by TDVAE.
发现二|自上而下先验在V1层产生“错觉边界”,且明显晚现并依赖Z2
在Kanizsa正方形范式中,作者将虚边与单个Z1感受野精准对齐,比较“真实边”“错觉边”“不相干元素”三种条件,并计算Z1的平均反应—线性响应的差异。结果表明:错觉边在Z1引发的反应幅度虽低于真实边,但形态相近,而不相干条件被明显抑制;更关键的是,把Z2的刺激信息移除(采样其先验)或把Z2钳制为零,错觉增益随之消失或显著减弱;而在浅层VAE(无Z2)或前馈目标模型中,几乎看不到稳健的错觉增益。这直接把错觉反应的来源定位到来自Z2的上下文先验。在时序上,作者用“前刺激/早期/晚期”的三阶段采样策略模拟实验中常见的晚现现象,证实错觉增益仅在晚期出现,与猴V1文献一致。整体而言,是否存在并何时出现错觉边,成为区分“有无Top-down推断”的标志。见图4(反应—线性对比与消融)与图5b(时序)。
![]()
Fig. 4 | Contribution of top-down computations to illusory contour responses.
![]()
Fig. 5 | Top-down influences shaping the representation in Z1.
![]()
![]()
Fig. 3 | Optical mapping of causal connectivity and its anatomical organization
发现三|“纹理家族特异”的噪声相关在Z1出现,且与信号相关成对齐;打乱高阶统计会降低特异性,并与猴V1吻合
作者把上下文先验定义为Z2对Z1的分布性约束:当图像上下文变化时,先验也随之变化,从而导致每幅图像都有特定的神经元共激活模式。在模型中,Z1的协方差完全来自Z2引入的上行不确定性(识别后验对Z1本身假设为无相关的Laplace),因此Z1的噪声相关是Top-down的“指纹”。具体发现:① Z1的噪声相关矩阵对不同图像显著不同,可被用来线性解码纹理家族(Z1均值反而不如相关矩阵好);② 对同一对Z1神经元,其信号相关(跨图像的均值相关)在不同纹理家族上呈家族特异,而噪声相关与之成系统性依赖;③ 把纹理做相位打乱或滤波打乱(破坏高阶统计)会显著降低跨图像的噪声相关差异度,与猴V1报道一致。综合这些证据,作者把长期困扰理解的“刺激依赖的噪声相关”规范地解释为:高层上下文先验在低层采样中的投影。见图6及相应文字。
![]()
![]()
Fig. 6 | Contribution of top-down influences to response correlations in Z1.
发现四|Top-down让“Z1也能读出一点纹理”:移除Z2的刺激信息后,Z1的可解码性显著下降
虽然Z1主要编码局部一阶特征,但由于上下文先验回流,在完整TDVAE里,Z1的多神经元均值对纹理家族仍有弱而显著的可解码性(平均准确率0.1943)。当作者把Z2改为不含刺激信息(仅采样其先验)时,这种可解码性降至0.0986,几乎回到机会附近;同样,把纹理做相位打乱,Z1的可解码性也随之显著下降,提示可解码成分来自被Z2捕捉的高阶纹理统计。时间维度上,这种“Z1中出现的高阶痕迹”与错觉、轮廓整合一样,呈晚现。这一结果将“Z2是纹理核心所在”与“Z2的上下文会回写Z1”连成闭环,提出一个重要视角:即使V1看似只处理“局部边”,我们在多神经元维度上依然能读取到高层先验的痕迹。
![]()
结论
这是一篇把“生成模型 + 分层推断 + 上下文先验”落到与灵长类数据量化对表的里程碑式工作,既解释了V2的纹理本质,也解释了V1的错觉与噪声相关从何而来。它提示我们:大脑不是只在顶层做“是什么”的判别,而是在每层都做带先验的解释—这正是回返连接存在的理由。
![]()
展望与应用
未来值得追问的方向:
1)更高层(V4/IT)先验如何继续塑造V1/V2?能否把物体、场景的超越纹理的统计也纳入统一框架?
2)任务与注意如何与“感知先验”在同一推断图中耦合?两者共享通路的证据如何在时空上拆分?
3)再入/侧向与Top-down在时间轴上的分工:遮挡、运动复杂场景下,哪类不确定性靠哪条路?
4)模型目前把Z1-像素视作近似线性,未来能否引入更真实的回路细节(层/列/细胞型)以解释更多亚型反应?
![]()
请打分
这篇刚刚登上Nature Communications的研究,是否实至名归?我们邀请您作为“云审稿人”,一同品鉴。精读全文后,欢迎在匿名投票中打分,并在评论区分享您的深度见解。
前沿交流|欢迎加入认知神经科学前沿交流群!
![]()
核心图表、方法细节、统计结果与讨论见原文及其拓展数据。
分享人:BQ
审核:PsyBrain 脑心前沿编辑部
特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.