网易首页 > 网易号 > 正文 申请入驻

Nature:为何熟能生巧?科学家揭示多巴胺动作预测误差强化学习机制

0
分享至

好书推荐!《动物行为实验指南》电子版pdf,网盘发货

《动物行为实验指南》共674页,涵盖了常见的实验动物,如小鼠、大鼠和斑马鱼,详细描述了每一种行为测试的实验设计、测试设备、实验流程、评估指标、预期结果、常见问题及解决方法、数据分析、模型应用与局限性等各个方面。它通过快速引导,帮助研究人员高效地掌握实验的每个阶段,减少了查阅文献和寻找方法的时间,成为各类科研人员的重要参考资料。 《动物行为实验指南》共计收录了16种动物行为类型,包括焦虑抑郁、学习记忆、痛觉、运动、恐惧、社交、癫痫、操作、成瘾、视觉、痒觉、味觉、嗅觉、睡眠、斑马鱼行为以及常见动物模型等内容。每一类动物行为下,都详细介绍了多个经典的实验范式,涵盖了超过100种实验方法。 www.behaviewer.com

动物的选择行为表现出两种主要倾向:采取曾带来奖励的行为以及重复过去的行为。理论认为,这些策略可能由不同类型的多巴胺能信号所强化:奖励预测误差用于强化基于价值的关联,而基于动作的预测误差则用于强化无价值的重复性关联。

基于此,2025年5月14日,英国伦敦大学Marcus Stephenson-Jones研究团队在Nature杂志发表了“Dopaminergic action prediction errors serve as a value-free teaching signal”揭示了多巴胺能的动作预测误差作为一种无价值的学习信号。

在本文中,作者使用小鼠的听觉辨别任务,发现尾部纹状体与运动相关的多巴胺活动编码了动作预测误差信号。因果操控实验表明,这种预测误差作为一种无价值的教学信号,通过加强重复性的关联来支持学习。计算建模和实验结果表明,仅靠动作预测误差无法支持以奖励为导向的学习;但当其与奖励预测误差系统结合时,能够以无价值的方式巩固稳定的声音–动作关联。总体而言,作者的研究显示存在两种类型的多巴胺能预测误差信号,它们协同工作以支持学习过程,分别在纹状体的不同区域强化不同类型的行为关联。

图一 TS对促进学习和完成听觉辨别任务的执行是必要的

在COT任务(自发起始的双选一抉择范式)中,小鼠通过将鼻子探入中央端口来启动试验从而触发由一系列重叠的纯音组成的听觉刺激。它们根据刺激中主要包含的是低频(5–10千赫)还是高频(20–40千赫)声音,选择左侧或右侧的奖励端口。与先前的研究结果一致,在训练有素的小鼠中,使用蝇蕈醇对尾部纹状体进行双侧失活会损害任务表现。在尾部纹状体,对其中任一类型的纹状体投射神经元进行单侧光遗传学失活,也会对小鼠的选择产生相反且显著的影响。这些结果表明,尾部纹状体对于执行已学会的行为是必要的,并且两类投射神经元对听觉引导的选择产生了相反的作用。为了测试尾部纹状体是否也参与任务的学习过程,作者在训练前对尾部纹状体进行了损毁,尾部纹状体的损伤导致了学习能力的下降,降低了学习速度和最终达到的表现水平。为了探究学习缺陷并非由于小鼠无法依据已建立的声音–动作关联采取行动,向尾部纹状体注射了一种 NMDA 受体拮抗剂,在训练期间注射时则显著损害了学习能力。此外,损毁投射到尾部纹状体的多巴胺神经元也重现了尾部纹状体整体损伤的效果。尾部纹状体多巴胺缺失的小鼠在学习过程中表现出缺陷,但它们从中央端口移动到选择端口所花的时间,以及两次试验之间的时间均未受到影响。总体而言,尾部纹状体及其多巴胺能输入对于促进学习和执行听觉辨别任务都是必需的。

图二 TS多巴胺释放与对侧运动相关

为了理解TS中多巴胺在任务中的作用,作者使用多巴胺sensor对其动态进行了监测。TS中的多巴胺反应在时间上与从中央端口出发的对侧运动相关,这与腹侧纹状体(VS)中奖励反应形成对比。为了区分与重叠行为事件相关的多巴胺反应,将线性回归模型应用于训练早期获得的光度测量数据。该模型包括三种事件类型:提示(进入中央端口)、选择(离开中央端口)和结果(进入侧端口)。VS的反应最能被“结果”内核解释,反映了对奖励的强烈反应以及在未获得奖励试验中的信号下降。相比之下,TS表现出极小的结果相关多巴胺活动。与其他研究一致,在背外侧纹状体后部(pDLS)记录到了多巴胺能的奖励反应,该区域位于TS前方,且不明显接受初级听皮层的神经支配。TS中最强的多巴胺反应是与对侧运动锁定的活动,这种反应也出现在小鼠从侧端口返回中央端口的过程中。VS中与运动相关的活动较弱,且对侧与同侧动作之间没有显著差异。这些结果表明,VS中的多巴胺活动显著编码了奖励结果,与奖励预测误差(RPE)一致;而TS中的多巴胺活动则编码了运动信息。为了确认TS中的多巴胺活动与声音无关,作者在一些试验中省略了提示音并发现反应没有显著差异。为了评估任务依赖性,在小鼠探索旷场时记录了TS的多巴胺活动。与任务中记录的结果一致,TS多巴胺在对侧运动期间增加,其信号随运动幅度变化。转向角度与TS多巴胺显著相关,而在VS中并未观察到这种相关性。这些结果进一步证实,TS多巴胺编码了与运动相关的信息。为了判断是否存在对声音刺激的额外感觉反应,训练小鼠完成一个变式任务:当它们从侧端口返回中央端口以启动下一次试验时播放声音。在这个任务版本中,多巴胺对声音没有显著反应,但对从中央端口出发的对侧定向运动的反应仍然存在。此外,在小鼠自由探索旷场时播放声音提示,也没有引发显著反应。这些结果进一步表明,记录到的TS多巴胺信号与运动有关,而不是由声音引发的。

图三 TS多巴胺释放强化状态–动作关联

为了确定TS的多巴胺信号是否可以作为一种教学信号,作者在任务的不同阶段进行了光遗传学刺激诱导TS多巴胺释放。为了模拟内源性的、与运动相关的TS多巴胺信号,在小鼠更倾向于做出对侧选择的试验中,在中央选择端口进行单侧刺激。在实验过程中,这种刺激引发了显著的对侧行为偏向。这种偏向随着实验进程逐渐发展,符合其可能影响学习的预期,并且可以在一个人为刺激动作预测误差(APE)的模型中重现。光遗传学刺激并不直接影响行为选择,因为在个别受到刺激的试验中并未观察到选择偏向。在选择时刻对VS进行多巴胺刺激也没有显著影响,同样地,在选择结果发生时对TS或VS进行多巴胺刺激也未产生明显效果。在一个自由选择范式中,TS多巴胺刺激并未引发选择偏向,但在刺激VS多巴胺释放时,小鼠显著偏向于被刺激的那一侧端口。最后,在实时位置偏好实验中,TS多巴胺刺激没有表现出奖赏性或厌恶性效应。这些结果表明,TS多巴胺释放能够像计算模型所预测的那样强化状态–动作关联,但不强化状态–结果关联。其他理论认为,与运动相关的多巴胺可能促进动作启动或调节正在进行的行为。然而,在开放场地中进行闭环光遗传学刺激后,并未影响小鼠的运动概率,也不会在其运动时改变其运动参数。这些发现进一步支持了TS多巴胺活动的作用是强化状态–动作关联而不是影响正在进行的动作。既然TS多巴胺刺激能够强化状态–动作关联,进一步研究内源性的TS多巴胺释放是否也具有类似功能。使用了一个逻辑回归模型,用以根据前一试验中的多巴胺反应和当前试验的感官不确定性来预测选择重复的概率。结果显示这两个因素都与选择重复呈显著正相关,表明当TS多巴胺反应较强、感官不确定性较高时,小鼠更有可能重复之前的选择。相比之下,VS中的奖励相关多巴胺反应大小与选择偏向无关。这些结果表明,在做出选择的时间点上,与运动相关的多巴胺作为一种无价值的教学信号,在TS中强化了刺激–动作关联,使得小鼠在听到听觉刺激时更倾向于重复过去采取过的动作。这些发现表明,更大的TS多巴胺信号会使小鼠更倾向于重复先前的状态–动作关联,并表现出更相似的运动轨迹。

总结

作者在此展示TS中的运动相关多巴胺活动作为一种教学信号,能够强化状态-动作之间的关联。TS中的多巴胺活动编码了一种动作预测误差(APE),即在特定状态下所执行的动作与预期动作之间的差异。这种无价值属性的信号教会小鼠重复过去采取的动作。单独而言,仅靠这个无价值系统(APE→TS)本身,并不能支持基于奖赏的学习;但当它与经典的奖赏预测误差(RPE)系统结合时,就能够学习模仿并存储带有价值引导的状态-动作关联。综上所述,存在两种类型的多巴胺预测误差,它们在纹状体的不同区域中协同作用以支持学习过程,分别强化不同类型的状态-动作关联。这两种预测误差:动作预测误差和奖赏预测误差共同作用,使得学习机制更为完善和灵活。

文章来源

https://doi.org/10.1038/s41586-025-09008-9

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
历史第二!梅西冲击任意球之王:仅逊儒尼尼奥,连续19年破门太神

历史第二!梅西冲击任意球之王:仅逊儒尼尼奥,连续19年破门太神

李喜林篮球绝杀
2026-06-29 14:01:13
美国FCC扩大中国禁令!

美国FCC扩大中国禁令!

EETOP半导体社区
2026-06-28 12:39:01
中央宣传部 中央政法委 最高人民法院 中央台办等 关于印发《关于深化“总对总” 多元化纠纷解决机制改革的意见》的通知

中央宣传部 中央政法委 最高人民法院 中央台办等 关于印发《关于深化“总对总” 多元化纠纷解决机制改革的意见》的通知

清朗天空
2026-06-29 13:42:34
李梦凭什么站到这个高度?全亚洲唯一受邀球员:两百万美金加股权

李梦凭什么站到这个高度?全亚洲唯一受邀球员:两百万美金加股权

林子说事
2026-06-29 18:22:28
温网公开赛:中国选手2胜2负,郑钦文吴易昺出局

温网公开赛:中国选手2胜2负,郑钦文吴易昺出局

老癘体育解说
2026-06-30 06:20:55
MLCC龙头股否认搭上英伟达,股价年内已狂飙近400%

MLCC龙头股否认搭上英伟达,股价年内已狂飙近400%

21世纪经济报道
2026-06-29 23:55:41
“敢讹我就捅死你”,女司机把人撞成重伤,持刀冲进医院猛捅伤者

“敢讹我就捅死你”,女司机把人撞成重伤,持刀冲进医院猛捅伤者

易玄
2026-06-27 22:47:19
日本队后悔吗?轻视激出近年最强巴西队!库尼亚伸出5个手指回怼

日本队后悔吗?轻视激出近年最强巴西队!库尼亚伸出5个手指回怼

足球大腕
2026-06-30 05:51:48
震惊了!坐飞机,发现了一名超像豆包的空姐

震惊了!坐飞机,发现了一名超像豆包的空姐

微微热评
2026-06-25 12:35:51
英媒:每天大约100万美元,波士顿因开销过高而取消球迷节

英媒:每天大约100万美元,波士顿因开销过高而取消球迷节

懂球帝
2026-06-29 18:20:17
整容失败不可怕,一股姨味才尴尬!52岁苏有朋给所有男星提了个醒

整容失败不可怕,一股姨味才尴尬!52岁苏有朋给所有男星提了个醒

史行途
2026-06-27 15:14:20
看完这5点分析,巴西对日本,胜负还用猜吗,直接告诉你答案

看完这5点分析,巴西对日本,胜负还用猜吗,直接告诉你答案

生活新鲜市
2026-06-29 13:28:18
泽连斯基施压下,俄强硬派促普京出王牌,定海神针受重用

泽连斯基施压下,俄强硬派促普京出王牌,定海神针受重用

半身Naked
2026-06-30 06:28:33
蒋介石败退时特意带走3个女人,个个风华绝代,后来都怎样了

蒋介石败退时特意带走3个女人,个个风华绝代,后来都怎样了

历史图鉴
2026-06-29 23:38:19
1-2惨遭逆转绝杀,球员赛后发声,森保一:日本目标世界第1

1-2惨遭逆转绝杀,球员赛后发声,森保一:日本目标世界第1

吴猖旅行ing
2026-06-30 05:29:10
北青:佛得角足协副主席称计划与中国队热身,对中国表达感谢

北青:佛得角足协副主席称计划与中国队热身,对中国表达感谢

懂球帝
2026-06-27 19:46:20
今晚开始!央一央八爱奇艺等4部王炸剧来袭!众星云集,先追哪部

今晚开始!央一央八爱奇艺等4部王炸剧来袭!众星云集,先追哪部

小椰的奶奶
2026-06-30 01:19:29
黎巴嫩真主党真不经打:经营近二十年的博福特岭,几小时就陷落

黎巴嫩真主党真不经打:经营近二十年的博福特岭,几小时就陷落

民间马后炮
2026-06-29 01:51:44
马杜埃凯:我们非常重视点球;为上演绝杀的马丁内利高兴

马杜埃凯:我们非常重视点球;为上演绝杀的马丁内利高兴

懂球帝
2026-06-30 05:50:08
2-1逆转!结束24年等待!世界杯第2个16强诞生,巴西绝杀亚洲第一

2-1逆转!结束24年等待!世界杯第2个16强诞生,巴西绝杀亚洲第一

侃球熊弟
2026-06-30 01:36:53
2026-06-30 07:51:00
脑声常谈 incentive-icons
脑声常谈
专注动物神经科学与行为学实验
2129文章数 78关注度
往期回顾 全部

科技要闻

杀疯了!深圳一天出两家200亿具身智能公司

头条要闻

巴西补时绝杀逆转日本晋级16强 安切洛蒂尽显调整水准

头条要闻

巴西补时绝杀逆转日本晋级16强 安切洛蒂尽显调整水准

体育要闻

日本众将掩面痛哭 连续3届先破门却被逆转

娱乐要闻

跟风电影《给阿公的牛肉丸》开机

财经要闻

万达广场批量易主 多位投资人正式入局

汽车要闻

全新宝马iX3长轴版将于成都车展预售 四季度交付

态度原创

健康
本地
时尚
家居
公开课

狂吃“糯叽叽”小心肠梗阻!

本地新闻

贵州小城的新目标:举办“村超”世界杯!

好特别的白色造型,太高级了

家居要闻

传奇筑 日常诗

公开课

李玫瑾:为什么性格比能力更重要?

无障碍浏览 进入关怀版