![]()
我们的大脑通过“奖励预测误差”,也就是实际奖励和预期之间的差距来学习什么行为值得重复。这种机制是强化学习的核心,依赖多巴胺信号。过去研究多用外源激素或切除卵巢的方法,但无法真实反映自然周期中激素的动态变化。
基于此,2025年11月11日,美国纽约大学神经科学中心Christine M. Constantinople研究团队在nature neuroscience杂志发表了“Estrogen modulates reward prediction errors and reinforcement learning”揭示了雌激素调节奖励预测误差和强化学习。
![]()
外源性17β-雌二醇(效力最强的雌激素)可调节伏隔核核心的多巴胺活动,该区域负责编码奖励预测误差(RPEs)即实际与预期奖励之间的差异。研究发现,内源性17β-雌二醇水平升高后多巴胺介导的RPE增强,行为对先前奖励的敏感性提高,同时伏隔核核心中多巴胺转运体(DAT)表达减少。在奖励状态动态变化的任务中,大鼠会根据预期奖励调整试次启动速度,以权衡努力与收益;其启动时间受伏隔核核心多巴胺信号所反映的RPE调控。17β-雌二醇水平越高,大鼠对奖励状态越敏感,产生的RPE也越大。蛋白质组学证实,17β-雌二醇升高导致DAT表达下调;而敲低中脑雌激素受体则削弱大鼠对奖励状态的敏感性。因此,内源性17β-雌二醇可预测多巴胺再摄取水平和RPE信号并因果性地调控先前奖励对行为的影响。
![]()
图一 试次启动时间受状态价值与动情周期调控
作者训练大鼠执行一项时间投注任务:通过鼻触中央端口启动试次,根据声音提示预判奖励量(4–64 μL水)并选择等待或放弃。任务包含高、低和混合奖励组,用以操控预期。去趋势分析显示,大鼠在高奖励组启动更快,表明其能灵活调整行为以平衡努力与收益,这一模式在300余只大鼠中稳定存在。
此前研究发现,启动速度受强化学习调控:近期奖励通过奖励预测误差(RPE)更新状态价值,表现为指数衰减的负回归系数(即刚获大奖励后启动更快)。
脑声常谈建立了多个《动物模型构建与行为评估》交流群,群内分享各种经典和前沿的行为范式,共同交流解决动物实验中遇到的棘手问题,避坑少走弯路!有需要的老师可以扫码添加微信进入讨论群!
为探究激素影响,作者追踪雌鼠动情周期,发现17β-雌二醇(E2);此时大鼠对奖励变化更敏感且最近一次奖励对行为的影响更强。血清E2水平与学习表现正相关且E2波动幅度越大,行为调制越强。动情后期(E2低)表现接近雄鼠,而等待时间不受周期影响,说明激素特异性调节RPE驱动的学习过程。
结果表明,内源性E2自然波动可增强基于RPE的强化学习,可能通过持久的基因组效应实现。研究未评判该调制是否“更优”,而是借助计算模型精确刻画了激素如何动态塑造学习机制。
![]()
图二 动情前期学习更强,源于大脑对“意外大奖励”反应更灵敏
为检验动情前期是否通过增强RPE来提升强化学习,作者使用一个基于delta规则的强化学习模型预测大鼠的试次启动时间,该模型假设启动越快,状态价值越高。模型成功复现了大鼠对奖励块和近期奖励的敏感性。
接着,研究者用模型估算每只大鼠逐试次的RPE并将其与伏隔核核心多巴胺信号(以曲线下面积AUC衡量)关联。结果发现,RPE在奖励提示线索(即声音提示奖励量时),与理论预期一致。
进一步比较动情前期(高雌激素)和动情后期(低雌激素)发现:动情前期多巴胺对RPE的编码动态范围更大,尤其对大的正向RPE反应更强。
为解释这一现象,作者在模型中引入一个乘性增益参数ϕ,专门放大前10%的大正向RPE。该调整不仅再现了动情前期更强的奖励块敏感性,还准确模拟了其行为转换更快、对历史奖励依赖更强等特征。相比之下,单纯提高学习率无法解释多巴胺对当前奖励提示反应增强的现象。
综上,雌激素高峰(动情前期),这种增强可通过“对大正向RPE施加乘性增益”的计算机制解释且与伏隔核多巴胺实测信号高度吻合。
![]()
图三 NAcc多巴胺通过RPE机制调控启动时间
研究发现,大鼠在听到奖励提示音时,NAcc的多巴胺信号越强,下一次试次启动就越快;反之则更慢,两者呈明显负相关。这支持“多巴胺作为RPE更新状态价值并驱动后续行为积极性”的理论。
为验证因果关系,作者在大鼠腹侧被盖区(VTA)表达光敏通道并在NAcc植入光纤,在30%试次的奖励提示音出现时激活多巴胺末梢。光刺激显著加快了启动速度,而对照组无此效应;且等待时间不受影响,说明该多巴胺信号特异性调控启动行为。
这种光刺激相当于人为添加一个固定的正向RPE(即“加性增益”)。行为模型预测:它会提升状态价值,从而加速启动,尤其在低奖励情境下更明显。
综上,在奖励提示出现时,NAcc的多巴胺确实以RPE形式更新预期价值并直接调控动物后续行动的积极性。
![]()
图四 中脑ERα敲低抑制强化学习
作者发现,动情周期中多种激素波动,但中脑雌激素受体ERα特异性调控强化学习。由于伏隔核的DAT只来自中脑多巴胺神经元,他们假设:雌激素通过结合ERα,调节DAT表达,从而影响学习。
研究者在VTA注射病毒敲低ERα。结果发现,ERα敲低显著削弱大鼠对奖励块的敏感性,程度与雄鼠或动情后期雌鼠相当。行为模型显示,这种变化可通过降低RPE增益参数模拟,说明ERα通过增强历史奖励对行为的影响来促进学习。
有趣的是,动情前期雌鼠饮水减少、试次完成量下降,血清检测证实其口渴感确实减弱且与雌激素水平相关。但通过对启动时间去趋势处理,排除了口渴等全身状态干扰,清晰揭示出雌激素对逐试次学习的独立调控作用。
更重要的是,ERα仅在VTA被敲低后奖励敏感性下降,但饮水行为不受影响,说明强化学习受VTA中ERα介导;体液平衡(如口渴)则由其他机制调控。因此,内源性17β-雌二醇通过不同通路分别调控学习与生理需求,其中对强化学习的作用依赖于中脑ERα。
文章来源
https://doi.org/10.1038/s41593-025-02104-z
脑声小店基于深度科研洞察,专注为动物实验提供"简器械·精实验"解决方案。我们突破高精设备局限,开发手工定制化仪器及配件,通过科研巧思将基础工具转化为创新实验方案。产品涵盖行为学装置、操作辅助工具等,使实验室在保持操作简效的同时,实现精细化数据采集,助力科研人员以创造性思维发掘简易仪器的潜在科研价值。
特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.