PsyBrain 脑心前沿 | 公众号 PSY-Brain_Frontier
一键关注,点亮星标 ⭐️
不错过每日前沿资讯
认知神经科学前沿文献分享
![]()
基本信息:
Title:Structure as an inductive bias for brain–model alignment
发表时间:12.4
Journal:Nature Machine Intelligence(News & Views)
影响因子:23.9
获取原文:
添加小助手:PSY-Brain-Frontier即可获取PDF版本
![]()
![]()
引言
当我们拿起手机刷短视频时,眼睛只是在接收光线,但大脑和算法模型会在背后飞快地“解码”:这是猫还是狗?是自拍还是风景?在人工智能里,卷积神经网络(convolutional neural network, CNN)长期被视为“最像视觉皮层”的架构,而近几年崛起的Vision Transformer(ViT)、MLP-Mixer等新模型,则靠着惊艳的性能不断挑战这个地位。问题来了:
到底是谁更像大脑?是架构本身,还是后天用海量数据“喂”出来的表示?
传统观点认为,只要给模型足够多的图像和标签,训练好之后,不论是 CNN 还是 ViT,内部表征都会与灵长类视觉皮层有不错的一致性。但这篇 News & Views 解读的 Kazemian 等人的工作提出了一个“更挑衅”的问题:
如果我们干脆不训练,只保留随机初始化的网络结构,哪种架构天生更接近大脑?
作者抓住了一个神经科学中非常经典、但在工程上容易被忽略的现象:从视网膜到大脑皮层,信息维度是“猛烈扩张”的——大约一百万个视网膜神经节细胞的信号,要被铺展到数十亿个皮层神经元中去,这种“维度扩张(dimensionality expansion)”被认为是大脑支持丰富表征能力的关键。Kazemian 等人于是把这条生物学线索“移植”到人工网络里:在不训练任何参数的前提下,他们系统地比较 CNN、全连接网络(fully connected network)和 transformer,在最后一层人为增加输出特征的数量,看谁最能预测猴和人的视觉脑响应。
![]()
Fig. 1 | Comparing untrained network architectures and the principle of dimensionality expansion.
这听起来有点像给几个刚出厂、没上过学的小机器人,同样看一堆图片,再问:谁对大脑信号的“直觉”最好?如果答案是 CNN,那么它“像大脑”就不只是因为被大数据调教得好,而是因为架构结构本身就带着强烈的归纳偏好(inductive bias)。
这篇 News & Views 文章在简要介绍实验结果的同时,还把它放回更大的 NeuroAI 版图:从无限宽度网络对应的高斯过程(Gaussian process)理论,到随机 CNN 中天生出现的“人脸单元”,再到我们该如何更谨慎地使用线性回归来衡量“脑–模型对齐”。
![]()
核心发现
1. 未训练 CNN 的结构,就已经比 ViT 更“脑对齐”
最直接的结果是:在维度相同、参数规模对齐的前提下,五层的未训练 CNN 在各个输出维度上都稳定优于未训练的 Vision Transformer 和多层感知机(MLP)。随着最后一层特征数从较小逐步扩展到近百万维,三类模型的脑预测性能都在缓慢上升,但 CNN 的提升幅度最大,甚至逼近经典预训练模型 AlexNet 的水平,而 ViT 和 MLP 的收益有限。News & Views 中 Fig.1 右侧通过“预测响应 vs 实际响应”的相关性示意,直观传达了这种架构差异:相同线性读出、相同数据集下,只有 CNN 在“结构 + 维度扩张”的组合中,真正激活出了与皮层更对齐的随机特征空间。
2. 维度扩张:把视网膜的“生物学窍门”搬进随机网络
这项研究的另一条主线,是把神经系统中的维度扩张原则与深度网络的架构设计对应起来:从视网膜到枕叶皮层,信号经历了空间上的压缩和特征维度上的指数级扩张,而 CNN 中的池化(pooling)与通道数(channels)变化,正好实现了类似的“空间压缩 + 特征扩张”的组合。原文中多组曲线图展示:在不改变前面层结构的情况下,单纯增加 CNN 最后一层的特征数量,就能显著提高对猴子和人类视觉皮层的预测性能;而对 ViT 或全连接网络做同样的维度扩张,收益却非常有限。这说明,维度扩张不是万能药,只有放在卷积这种更接近生物视觉几何约束的架构里,才能真正转化为“脑对齐”的增益。
3. 随机网络中的“先天表征”与随机彩票假说
News & Views 把 Kazemian 等人的结果,与一系列“随机 CNN 的奇妙能力”串联起来:早期经典工作已经发现,V1 皮层部分神经元在视觉经验出现之前就具有方向选择性;相对应地,未经训练的 CNN 中也会自然冒出对人脸或特定物体类别选择性的单元,这被称为“随机彩票(random lottery)假说”——即随机初始化时就暗含着一批幸运的、接近真实任务需求的特征通道。 Kazemian 等人的结果进一步表明:当我们在 CNN 中加入模拟大脑的维度扩张,这些“先天表征”就有了一个更大、更合适的特征舞台,能够在不依赖大规模训练的情况下,与灵长类视觉皮层的活动模式形成更高的一致性。这提示我们:追求生物学真实的神经网络模型,不能只看训练终点,更要关心“随机起点”的结构特性。
4. 线性读出不是万能:脑–模型对齐指标本身也需要“对齐”
文章最后提出了一个很重要、却常被忽略的警告:我们今天衡量“脑–模型对齐”的主流方法——线性回归读出,本身可能是一个“过于强大”的放大镜。由于带正则化的线性读出可以在高维空间中自由重组特征,它有时能把本质上截然不同的表示“挤”到类似的预测精度上,从而让许多并不真正脑样的模型,看起来也同样“brain-like”。News & Views 呼吁,未来的工作需要给这些读出增加更多约束(例如稀疏性、权重非负等),或者直接分析回归权重的分布模式,去区分“由少量关键特征驱动”的真实对齐,和“由大量不相关特征凑出来”的伪对齐。再往前一步,作者指出:在无限宽度极限下,随机网络等价于高斯过程,其核函数直接由架构决定,而这些核在神经科学里正好可以视作表征相似性矩阵——这为从理论上推导“脑对齐核”打开了新路。
![]()
归纳总结和点评
综合来看,这篇 News & Views 通过解读 Kazemian 等人的工作,给 NeuroAI 社区传递了几个清晰的信息:
第一,卷积结构本身就蕴含着强烈的生物学归纳偏好,即便在完全未训练状态下,只要配合类似视网膜到皮层的维度扩张,就能逼近经典任务驱动网络的脑预测水平;
第二,大脑和模型的相似性不能只从终点表现看,更要从结构先验和随机状态出发;
第三,脑–模型对齐的评估工具需要被同样严肃地审视与约束,否则容易被线性读出“带偏”。
在大模型架构百花齐放的今天,这篇文章提醒我们:真正“像大脑”的模型,未必是参数最多或最难训练的那个,而是结构和生物学约束最“对味”的那个——这对未来设计更可解释、更高效的视觉模型和脑机接口,都有重要启示。
![]()
AI 一句话锐评
在一切都想靠“更多数据、更大模型”取胜的时代,这项工作冷静地补了一刀:也许最接近大脑的那一步,不在训练集里,而藏在我们一开始如何写下那几行“卷积 + 池化 + 维度扩张”的架构代码中。
前沿交流|欢迎加入认知神经科学前沿交流群!
![]()
核心图表、方法细节、统计结果与讨论见原文及其拓展数据。
分享人:BQ
审核:PsyBrain 脑心前沿编辑部
特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.