基本信息
Title:Facial gestures are enacted through a cortical hierarchy of dynamic and stable codes
发表时间:2026.1.8
Journal:Science
影响因子:45.8
![]()
引言
我们每天都在“读脸”:对方轻微的嘴角上扬、短促的咂嘴、突然的威胁表情,往往比语言更快传递态度与意图。但一个关键问题长期被忽略:大脑究竟如何生成这些面部手势(facial gestures),而不仅仅是如何感知它们?过去的经典神经心理学框架提出“内侧-外侧双通路”分工:内侧皮层更偏向情绪性表情(socioemotional expressions),外侧额叶更偏向随意运动(volitional movements)。然而,面部动作由大量精细肌肉动态组合,既像“刻板动作”,又能随社交语境灵活变化:它到底更像由皮层精细控制,还是更像皮层只给出“启动信号”、下游亚皮层按模板执行?
为回答这些问题,作者选择在更接近真实社交的条件下研究灵长类面部手势:让猴子在自然istic互动与刺激情境中自发表达手势,同时用高分辨率视频与无标记追踪(markerless tracking)精确量化面部运动学,再把这些行为事件与多脑区单神经元放电对齐。这样做的目的,是把
“手势是否可被离散分类?”
“皮层是否真的参与?”
“不同皮层区到底在编码什么、何时编码?”
这三类问题串成一个闭环,用同一套自然行为数据去检验旧模型、建立新框架。
实验设计与方法逻辑
作者先用自然istic社交范式诱发三类典型手势(threat、lipsmack、chew),以DeepLabCut等无标记追踪量化面部关键点并用PCA/t-SNE验证手势在运动学上可分;随后基于fMRI功能定位(fMRI functional localization)在四个“面部运动网络”脑区(M1、S1、PMv、M3)植入多通道阵列同步记录单元活动,结合单细胞统计(ANOVA/MI)与群体解码(SVM、轨迹分析),再引入PSID从群体动力学中提取与连续运动学相关的成分,并用跨时间泛化(CTG)刻画各区编码稳定性,从而把“编码内容”与“时间策略”同时对齐到同一科学问题上。
核心发现
1)手势先得“像个类别”:自然istic条件下三类面部手势运动学清晰分群
论文首先强调:如果手势要承担沟通功能,接收者必须能把它们当作离散类别识别。作者在Fig.1中用视频同步的面部关键点轨迹,结合PCA与t-SNE显示threat、lipsmack、chew在低维空间形成分离簇,并且从动作开始前的静止姿态到动作期的时间演化都呈现可区分的模板化模式,证明该范式能稳定诱发“可分类的手势”,为后续神经编码分析打下行为学地基。
![]()
Fig. 1. Facial gestures are distinguishable during a naturalistic social paradigm.
2)推翻“情绪在内侧、随意在外侧”的单细胞证据:各区都是混合编码
在Fig.2里,作者把四个面部相关脑区(primary motor cortex, M1;primary somatosensory cortex, S1;ventral premotor cortex, PMv;cingulate motor cortex, M3)同时拉到一张桌上比较:无论是平均放电、选择性强度还是信息量分布,整体差异都不支持“某区专门代表某类手势”。更直接的是,652个神经元中,各区都有大量神经元被手势类型调制(如S1 71%、M1 72%、PMv/M3各约62%),而且并不存在某一区对“社会情绪手势”或“随意咀嚼”细胞的系统性富集——经典双通路的核心预测在这组自然行为单细胞数据上站不住脚。
![]()
Fig. 2. Single-cell activity and selectivity in cortical face motor regions.
3)动作还没开始,大脑已“先选好台词”:手势在起始前1秒即可被群体活动解码
Fig.3把“预备期(premovement)到底是什么”讲得很硬核:作者用线性SVM等群体解码发现,手势类别在多脑区**最早可提前约1秒**从神经群体模式中读出,且不同手势对应的神经轨迹在状态空间里早期就分离、之后沿各自轨道演化;例如lipsmack呈现更旋转的几何结构,而threat与chew更接近线性偏离。关键点在于:这些可分的神经状态出现在没有显著运动学输出之前,提示手势不是纯反射输出,而是包含可被皮层网络提前组织的准备与选择过程。
![]()
Fig. 3. Population encoding of facial gestures.
4)时间尺度决定“分工”:M1/S1偏动态实时控制,M3偏稳定语境表征
Fig.4用PSID(preferential subspace identification)把“与连续运动学真正相关的群体动力学”抽出来:各区都能在单试次水平预测面部运动成分,但M1与S1的运动学解码最强,支持其在细粒度、时刻对时刻的控制作用;而Fig.5的CTG(cross-temporal generalization)进一步揭示“同样能解码手势,但编码策略完全不同”:M3呈现跨−1000到+800 ms的大块稳定泛化(稳定码),S1最贴近对角线(最动态),PMv与M1介于两者之间,且M1在起始点附近出现明显“码切换”。量化指标也一致:S1的DI更高且TGW更短(更动态),M3则DI更低但TGW更长(更稳定),共同构成一条由“实时运动学”走向“稳定状态/语境”的皮层时间层级。
![]()
Fig. 4. Kinematic decoding and distinctive neural correlations during gestures.
![]()
Fig. 5. Stable and dynamic coding of facial gestures across cortex.
归纳总结和点评
这项工作用自然istic社交范式把“面部手势生成”从概念争论推到了可量化、可解码、可对比的层面:
手势在运动学上是可离散分类的;
多皮层区都深度参与且并非按“情绪/随意”简单分区;
手势在动作前已被群体活动提前组织;
更重要的是,不同皮层区通过不同时间尺度的动态/稳定编码形成层级化协同——低阶区(M1/S1)更贴近实时运动控制,高阶/内侧区(M3/PMv)更可能承载可持续的状态变量。整体框架不仅刷新了面部运动控制理论,也为自然交流相关的脑机接口(brain-computer interface, BCI)提供了更贴近真实场景的“可读出目标”。
AI一句话锐评
把“表情”从肌肉动作还原成一套跨皮层、跨时间尺度的编码协作机制——这篇论文真正给面部交流找到了“神经学的组织原则”。
特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.