TiCS | 大脑如何用“闭环”学会做更聪明的决定：眶额皮层 × 感觉皮层|信号|感受器|纹状体|tics

TiCS | 大脑如何用“闭环”学会做更聪明的决定：眶额皮层 × 感觉皮层

分享至

PsyBrain 脑心前沿 | 公众号 PSY-Brain_Frontier

一键关注，点亮星标 ⭐️

不错过每日前沿资讯

认知神经科学前沿文献分享

基本信息：

Title:Orbitofrontal-sensory cortical interactions in learning and adaptive decision-making

发表时间：2025.12.4

Journal:Trends in Cognitive Sciences（TiCS）

影响因子：17.2

获取原文：

添加小助手:PSY-Brain-Frontier即可获取PDF版本

引言

每天早上换一家咖啡店，哪一杯更香、更顺口，会悄悄决定你明天往哪家走——这就是强化学习（reinforcement learning, RL）在生活中的表现。然而，做出“下次去哪儿买”的决定，不只是简单记住味道这么粗糙。大脑需要把气味、口感、杯型、价格、情绪、品牌这些杂乱信息，整合成一个“值不值得再去”的主观价值，还要在环境变了（比如咖啡突然变难喝）时迅速翻盘。

传统观点认为，感觉皮层只是负责“看清、闻清、尝清”，眶额皮层（orbitofrontal cortex, OFC）负责“算账和决策”。但新证据提示，感觉皮层本身也会编码注意（attention）、工作记忆（working memory）、不确定性（perceptual uncertainty）甚至价值相关信息，而 OFC 又通过反馈信号改写感觉皮层的表征。两者更像一个不断互相教学的闭环系统，而不是简单的“前端采集 + 后端决策”。

这篇 TiCS 综述文章以计算强化学习框架为主线，系统梳理了 OFC 与五大感觉系统（视觉、听觉、躯体感觉、嗅觉、味觉）之间的双向连接：

感觉皮层把压缩后的任务信息送给 OFC，帮助构建抽象的任务状态与“认知地图”（cognitive map）；OFC 再把基于价值与任务结构的“教学信号”回送感觉皮层，放大有用特征、重映射价值，让感觉皮层从“被动感受器”升级为“带认知功能的前端模块”。

这不仅改写了我们对感觉皮层的认识，也为理解人脑如何高效学习，以及如何设计更聪明的人工神经网络，提供了新思路。

实验设计与方法逻辑

本文并非单一实验，而是整合解剖追踪、动物电生理、人类 fMRI 以及深度 / 元强化学习（deep/meta-RL）模型等多类证据：

作者先从解剖结构出发，明确 OFC 与各感觉皮层的互惠投射；随后分别梳理自下而上的“感觉→OFC”通路如何提供注意、工作记忆与不确定性信息，自上而下的“OFC→感觉”通路如何实现感知增强与价值重映射；最后在强化学习的计算框架中，把这些结果统一成一个闭环模型，解释大脑如何边感知边学习、边更新任务结构。

核心发现

解剖上：OFC 是连接五大感觉通路的“价值枢纽”

图 1 展示了人类大脑外侧视图中，OFC 与躯体感觉、嗅觉、味觉、视觉和听觉皮层的广泛双向连接：后部 OFC 接收更多来自初级感觉皮层的输入，前部 OFC 更多连接联络区，尤其是与物体 / 面孔识别相关的腹侧视觉通路。这种“从外周到高级”的多级输入，使 OFC 得以整合多模态信息（比如咖啡的味道 + 香气 + 触感），计算跨模态的主观价值，并向下游（如纹状体、海马）输出价值与任务状态信息，从而在解剖上奠定其“价值枢纽”的地位。

Figure 1. Major anatomical connections between sensory cortices and the orbitofrontal cortex (OFC).

感觉→OFC：不仅传“是什么”，还传注意、记忆和不确定性

图 2A 用示意流程总结了感觉皮层送往 OFC 的多条信息流：除传统的感觉特征外，还有自下而上的显著性 / 注意信号（bottom-up attention）、感觉工作记忆表征以及对当前刺激的感知不确定性。这些“预处理后”的高级信号，帮助 OFC更精准地进行奖励预测、价值比较与责任归因（credit assignment）：突出的刺激优先被评估，可维持在感觉工作记忆中的特征更易被正确“记账”，高不确定性则会压低价值信号、推动探索。

Figure 2. Contribution of sensory inputs to value computation and representation learning in the orbitofrontal cortex (OFC).

OFC→感觉：用价值信号直接“调参”感觉皮层

在图 3A 的咖啡例子中，一次令人愉快的体验，会让 OFC 向感觉皮层发送奖励期望与目标导向注意两类自上而下信号：前者提升对与奖励相关特征的响应增益，后者选择性放大与当前目标有关的刺激、抑制无关输入。动物实验进一步显示，OFC 投射到 V1、A1 或嗅皮层时，可以分别抑制无奖刺激、放大奖励相关刺激的神经反应，实现对感觉编码的“价值调谐”；在人类 fMRI 中，则可观察到在反转学习阶段，OFC 与奖相关 S1 区域的功能连接瞬时增强，提示其通过“教学信号”重写感觉-奖励映射。

Figure 3. The orbitofrontal cortex (OFC)–sensory cortex interactions supporting reinforcement-based adaptive learning.

闭环 RL 模型：OFC–感觉皮层协同构建

“任务认知地图”

图 2B 和 3B 合在一起给出一个闭环强化学习框架：感觉皮层将压缩后的任务相关特征（包括不确定性、显著性与近期刺激记忆）送入 OFC，OFC 将其与海马、内嗅皮层等处存储的既往任务状态进行比较——若相似，则更新旧状态；若不同，则创建新状态并附带“探索”加成。这些任务状态构成抽象的认知地图，驱动对未来结果的预测，再通过价值期望与重映射信号回传感觉皮层，持续调整前端表征，实现在不确定、可变环境中的高效学习与灵活决策。

归纳总结和点评

总体来看，本文提出了一个优雅的闭环模型：

感觉皮层不再是被动的“像素工厂”，而是能根据注意、记忆与不确定性进行智能“压缩”的前端；
眶额皮层则在此基础上构建任务状态与认知地图，并通过价值导向的教学信号，塑造感觉皮层对世界的“看法”。

这种双向互动既可以解释动物与人类反转学习、价值驱动注意和感知增强等现象，也为人工智能中的表征学习与元强化学习提供了神经启发。

作为一篇跨解剖、系统神经与计算建模的综述，它在“感觉皮层也很聪明”与“OFC 不只是算钱，更在教别人怎么算”这两个点上，给出了兼具数据基础与理论高度的统一视角，值得做决策与学习研究的读者细细品味。

AI 一句话锐评

这篇文章本质上在说：真正聪明的脑，不是前端感知 + 后端决策，而是让“感觉皮层也会思考、OFC 也会 teach”，把整张大脑网络训练成一个自我更新的闭环强化学习系统。

请打分

这篇刚刚登上TiCS的综述，是否实至名归？我们邀请您作为“云审稿人”，一同品鉴。精读全文后，欢迎在匿名投票中打分，并在评论区分享您的深度见解。

前沿交流|欢迎加入认知神经科学前沿交流群！

核心图表、方法细节、统计结果与讨论见原文及其拓展数据。

分享人：BQ

审核：PsyBrain 脑心前沿编辑部

特别声明：以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布，本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.