Neuron最新：人类如何实现长远目标？决策中脑岛与前额叶的分层规划机制|叶皮层|neuron

Neuron最新：人类如何实现长远目标？决策中脑岛与前额叶的分层规划机制

分享至

PsyBrain 脑心前沿 | 公众号 PSY-Brain_Frontier

一键关注，点亮星标 ⭐️

不错过每日前沿资讯

认知神经科学前沿文献分享

基本信息

Title:The representation and valuation of subgoals in the human brain during model-based hierarchical behavior

发表时间：2026.2.13

发表期刊:Neuron

影响因子：15.0

获取原文：

添加小助手:PSY-Brain-Frontier即可获取PDF版本

研究背景

在日常生活中，规划并执行通向长远目标的复杂序列行为，依赖于将行为划分为结构化的片段。这种认知上的分层组织要求大脑将某些中间状态指定为“子目标”，以此作为完成片段的标志。同时，人类的决策过程不仅依赖对过往经验的直接强化，还会构建关于环境的内部世界模型进行前瞻性规划，即基于模型的强化学习。

然而，以往大多数关于分层行为的计算模型都缺乏对环境知识的表征。如果要在长期的多步骤任务中进行纯粹的基于模型的计算，由于需要考虑海量的状态与动作空间，计算量将变得难以承受，且每一步都需要耗费大量认知资源重新计算价值。理论上，将分层过程与基于模型的过程相融合，通过子目标压缩状态空间，可以有效解决这一低效问题。但是，大脑究竟是如何表征这些内部生成的子目标，以及如何基于这些子目标和对环境的认知来计算决策价值的，此前仍是一个未解之谜。

2026年2月13日，加州理工学院的Grossman等人在《Neuron》期刊上发表了最新研究，通过一项巧妙的序贯子目标决策任务结合功能性磁共振成像技术，首次揭示了人类大脑在执行基于模型的分层行为时的神经与计算机制。

Figure 1. Participants make hierarchical decisions to collect subgoals and complete fares

研究核心总结

为了诱发这种复杂的认知过程，研究人员设计了一款“太空出租车”游戏。在游戏中，被试需要在一个具有概率性状态转移的虚拟宇宙中，按照特定顺序依次收集四个子目标，最终完成一单“生意”以获得金钱奖励。结合计算建模与脑成像，本研究得出了以下核心发现：

行为学证据：基于模型的分层决策

被试的行为反应时间表明，他们并非仅仅针对单步动作做出决策，而是利用对环境统计规律的了解，在概率性的状态转移之上规划一连串的动作序列。研究者采用一种基于模型的分层强化学习模型成功再现了被试的多种行为特征，证明了人类能够利用对任务结构的潜伏学习来指导当前的子目标搜索。

Figure 2. Participants make choices based on the task structure

Figure 3. MB-HRL recapitulates behavior

潜在子目标的神经表征：脑岛与腹内侧前额叶

在分层行为中，大脑必须在脑海中维持当前正在追求的子目标身份，以便在长序列中不迷失方向。通过多体素模式分析，研究者成功在被试处于决策阶段时，从脑岛和腹内侧前额叶皮层的神经活动中解码出了当前的潜在子目标。这种表征贯穿了整个决策和结果接收的试验周期，为引导后续的序贯行为提供了关键的内部参考坐标。

Figure 4. Neural signatures of subgoal processing

Figure 5. Decoding latent subgoal representations during hierarchical behavior

子目标和目标的反馈处理：基底神经节与后扣带回

与获得外部金钱奖励类似，当被试成功收集到子目标时，包括尾状核、壳核和伏隔核在内的基底神经节，以及后扣带回和吻侧前扣带皮层均表现出强烈的正相关激活。这表明大脑的奖赏回路同样负责处理内部指定的中间结构节点，为分层控制提供反馈信号。

Figure 6. Decoding action plans that rely on knowledge of task structure

决策价值的计算机制：内侧额叶皮层的核心作用

在基于模型的分层强化学习模型中，决策变量是将“基于对环境的认知”与“当前子目标”结合后计算得出的。研究发现，大脑内侧额叶皮层的多个区域精确追踪了这些复杂的决策价值信号。具体而言，吻侧前扣带皮层和右侧腹外侧前额叶皮层追踪了各个选项相对的探索加权价值。同时，背内侧额叶皮层和中颞回的神经活动则被证明最好地解释了被试最终选择的探索加权价值。

Figure 7. MB-HRL decision variables are represented in neural activity

综上所述，该研究不仅在行为和计算层面证实了人类可以融合内部世界模型与分层目标设置，更拓展了多个前额叶脑区的功能边界，清晰描绘了大脑如何利用环境知识计算子目标价值以实现长远规划的神经图景。

Abstract

Planning and performing complex, sequential behavior toward distant goals relies on dividing behavior into structured segments. This hierarchical organization requires the brain to designate certain states as subgoals to mark successful segment completion. How the brain represents subgoals and computes decision values as a function of them remains unknown. While most models of hierarchical behavior lack environmental knowledge, decision-making involves planning with an internal world model. Consequently, how the brain integrates hierarchical and model-based processes has yet to be explained. Using a sequential-subgoal decision-making task with functional magnetic resonance imaging (fMRI), we evoked hierarchical, model-based behavior. We decoded the current subgoal in insula and ventromedial prefrontal cortex activity—a critical latent representation for orienting sequential behavior. Using a model-based, hierarchical reinforcement learning model, we identified key decision value signals in the frontal cortex. These findings illuminate neural correlates of subgoals and decision values computed as a function of subgoals and environmental knowledge.

请打分

这篇刚刚登上Neuron的研究，是否实至名归？我们邀请您作为“云审稿人”，一同品鉴。精读全文后，欢迎在匿名投票中打分，并在评论区分享您的深度见解。

前沿交流|欢迎加入认知神经科学前沿交流群！

核心图表、方法细节、统计结果与讨论见原文及其拓展数据。

分享人：饭鸽儿

审核：PsyBrain 脑心前沿编辑部

特别声明：以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布，本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.