Nat Neurosci丨为何女性在某些日子学得更快？美国纽约大学团队揭示雌激素调节奖励预测误差和强化学习机制|信号|大鼠|多巴胺|内源性|敏感性

Nat Neurosci丨为何女性在某些日子学得更快？美国纽约大学团队揭示雌激素调节奖励预测误差和强化学习机制

2025-11-13 21:13:07　来源: 脑声常谈

上海举报

分享至

我们的大脑通过“奖励预测误差”，也就是实际奖励和预期之间的差距来学习什么行为值得重复。这种机制是强化学习的核心，依赖多巴胺信号。过去研究多用外源激素或切除卵巢的方法，但无法真实反映自然周期中激素的动态变化。

基于此，2025年11月11日，美国纽约大学神经科学中心Christine M. Constantinople研究团队在nature neuroscience杂志发表了“Estrogen modulates reward prediction errors and reinforcement learning”揭示了雌激素调节奖励预测误差和强化学习。

外源性17β-雌二醇（效力最强的雌激素）可调节伏隔核核心的多巴胺活动，该区域负责编码奖励预测误差（RPEs）即实际与预期奖励之间的差异。研究发现，内源性17β-雌二醇水平升高后多巴胺介导的RPE增强，行为对先前奖励的敏感性提高，同时伏隔核核心中多巴胺转运体（DAT）表达减少。在奖励状态动态变化的任务中，大鼠会根据预期奖励调整试次启动速度，以权衡努力与收益；其启动时间受伏隔核核心多巴胺信号所反映的RPE调控。17β-雌二醇水平越高，大鼠对奖励状态越敏感，产生的RPE也越大。蛋白质组学证实，17β-雌二醇升高导致DAT表达下调；而敲低中脑雌激素受体则削弱大鼠对奖励状态的敏感性。因此，内源性17β-雌二醇可预测多巴胺再摄取水平和RPE信号并因果性地调控先前奖励对行为的影响。

图一试次启动时间受状态价值与动情周期调控

作者训练大鼠执行一项时间投注任务：通过鼻触中央端口启动试次，根据声音提示预判奖励量（4–64 μL水）并选择等待或放弃。任务包含高、低和混合奖励组，用以操控预期。去趋势分析显示，大鼠在高奖励组启动更快，表明其能灵活调整行为以平衡努力与收益，这一模式在300余只大鼠中稳定存在。

此前研究发现，启动速度受强化学习调控：近期奖励通过奖励预测误差（RPE）更新状态价值，表现为指数衰减的负回归系数（即刚获大奖励后启动更快）。

脑声常谈建立了多个《动物模型构建与行为评估》交流群，群内分享各种经典和前沿的行为范式，共同交流解决动物实验中遇到的棘手问题，避坑少走弯路！有需要的老师可以扫码添加微信进入讨论群！

为探究激素影响，作者追踪雌鼠动情周期，发现17β-雌二醇（E2）；此时大鼠对奖励变化更敏感且最近一次奖励对行为的影响更强。血清E2水平与学习表现正相关且E2波动幅度越大，行为调制越强。动情后期（E2低）表现接近雄鼠，而等待时间不受周期影响，说明激素特异性调节RPE驱动的学习过程。

结果表明，内源性E2自然波动可增强基于RPE的强化学习，可能通过持久的基因组效应实现。研究未评判该调制是否“更优”，而是借助计算模型精确刻画了激素如何动态塑造学习机制。

图二动情前期学习更强，源于大脑对“意外大奖励”反应更灵敏

为检验动情前期是否通过增强RPE来提升强化学习，作者使用一个基于delta规则的强化学习模型预测大鼠的试次启动时间，该模型假设启动越快，状态价值越高。模型成功复现了大鼠对奖励块和近期奖励的敏感性。

接着，研究者用模型估算每只大鼠逐试次的RPE并将其与伏隔核核心多巴胺信号（以曲线下面积AUC衡量）关联。结果发现，RPE在奖励提示线索（即声音提示奖励量时），与理论预期一致。

进一步比较动情前期（高雌激素）和动情后期（低雌激素）发现：动情前期多巴胺对RPE的编码动态范围更大，尤其对大的正向RPE反应更强。

为解释这一现象，作者在模型中引入一个乘性增益参数ϕ，专门放大前10%的大正向RPE。该调整不仅再现了动情前期更强的奖励块敏感性，还准确模拟了其行为转换更快、对历史奖励依赖更强等特征。相比之下，单纯提高学习率无法解释多巴胺对当前奖励提示反应增强的现象。

综上，雌激素高峰（动情前期），这种增强可通过“对大正向RPE施加乘性增益”的计算机制解释且与伏隔核多巴胺实测信号高度吻合。

图三 NAcc多巴胺通过RPE机制调控启动时间

研究发现，大鼠在听到奖励提示音时，NAcc的多巴胺信号越强，下一次试次启动就越快；反之则更慢，两者呈明显负相关。这支持“多巴胺作为RPE更新状态价值并驱动后续行为积极性”的理论。

为验证因果关系，作者在大鼠腹侧被盖区（VTA）表达光敏通道并在NAcc植入光纤，在30%试次的奖励提示音出现时激活多巴胺末梢。光刺激显著加快了启动速度，而对照组无此效应；且等待时间不受影响，说明该多巴胺信号特异性调控启动行为。

这种光刺激相当于人为添加一个固定的正向RPE（即“加性增益”）。行为模型预测：它会提升状态价值，从而加速启动，尤其在低奖励情境下更明显。

综上，在奖励提示出现时，NAcc的多巴胺确实以RPE形式更新预期价值并直接调控动物后续行动的积极性。

图四中脑ERα敲低抑制强化学习

作者发现，动情周期中多种激素波动，但中脑雌激素受体ERα特异性调控强化学习。由于伏隔核的DAT只来自中脑多巴胺神经元，他们假设：雌激素通过结合ERα，调节DAT表达，从而影响学习。

研究者在VTA注射病毒敲低ERα。结果发现，ERα敲低显著削弱大鼠对奖励块的敏感性，程度与雄鼠或动情后期雌鼠相当。行为模型显示，这种变化可通过降低RPE增益参数模拟，说明ERα通过增强历史奖励对行为的影响来促进学习。

有趣的是，动情前期雌鼠饮水减少、试次完成量下降，血清检测证实其口渴感确实减弱且与雌激素水平相关。但通过对启动时间去趋势处理，排除了口渴等全身状态干扰，清晰揭示出雌激素对逐试次学习的独立调控作用。

更重要的是，ERα仅在VTA被敲低后奖励敏感性下降，但饮水行为不受影响，说明强化学习受VTA中ERα介导；体液平衡（如口渴）则由其他机制调控。因此，内源性17β-雌二醇通过不同通路分别调控学习与生理需求，其中对强化学习的作用依赖于中脑ERα。

文章来源

https://doi.org/10.1038/s41593-025-02104-z

脑声小店基于深度科研洞察，专注为动物实验提供"简器械·精实验"解决方案。我们突破高精设备局限，开发手工定制化仪器及配件，通过科研巧思将基础工具转化为创新实验方案。产品涵盖行为学装置、操作辅助工具等，使实验室在保持操作简效的同时，实现精细化数据采集，助力科研人员以创造性思维发掘简易仪器的潜在科研价值。

特别声明：以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布，本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.