![]()
很多时候,我们以为自己是在思考之后才学会某种行为。但从神经科学的角度看,学习往往发生得更早,也更隐秘。
当一个选择带来好结果,它更可能再次出现;当一个行为导致不利后果,它逐渐被抑制。
这种从反馈中调整行为的过程,被称为强化学习(reinforcement learning)。它并不是某种高阶推理,而是连接经验、行动与未来选择的基本机制。
在神经科学中,强化学习并不是从计算机科学“照搬”来的概念。相反,它最早来自对动物行为的观察:奖励不仅带来愉悦感,更重要的是,它会改变行为的概率。正是这一点,让奖励成为塑造决策的关键力量。
从“被奖励”到“做选择”
早期心理学家很早就注意到,如果一个行为产生令人满意的结果,它会在未来更频繁地出现。久而久之,人们甚至提出一种激进的观点:所有行为,都是为了获得奖励或避免惩罚。
这一思想在行为主义时代被推到极致。通过精心控制奖励出现的方式——比如间隔多久、需要付出多少努力——研究者发现,行为可以被系统性地塑造。动物并不需要理解规则本身,只要反馈足够稳定,行为模式就会逐渐成形。
真正让“学习”与“决策”交汇的,是当环境中出现了多个可选项。当个体不再只是重复一个动作,而是在不同选项之间分配时间和精力,选择本身就成为研究对象。
在这些多选项任务中,一个令人着迷的现象反复出现:个体往往不会把所有行为都压到回报最高的选项上。相反,它们会在不同选项之间分配选择次数,而且分配比例往往接近各选项获得奖励的比例。这种现象被称为匹配行为。它描述了行为如何随回报分布而变化,却并不解释行为为何如此。
更耐人寻味的是,在大多数实验中,个体表现出的并不是“完美匹配”,而是一种偏离——它们对高回报选项的选择不够极端,对低回报选项的尝试反而更多。这种现象被称为欠匹配。
从结果上看,这似乎并不完全“理性”。如果目标是最大化回报,为什么不更坚决地选择更好的选项?
大脑在做全局计算吗?
一个重要的转折在于,人们开始意识到:也许问题不在“结果是否最优”,而在大脑如何在时间中做决定。
在现实世界中,回报是随机的、嘈杂的,真正的回报率需要很长时间才能估计清楚。如果要判断“长期来看这样做是否更好”,大脑必须保留大量历史信息,并进行复杂计算。这在生物系统中并不容易实现。
相反,如果大脑采用的是一种局部规则——在当下偏向最近回报更高的选项——那么欠匹配反而是自然结果。每一次选择,都是基于近期经验的权衡,而不是对整体结构的精确把握。
从这种局部选择规则出发,长期统计上的匹配行为会自然涌现,而无需大脑明确追求“最优解”。
当研究者把目光投向大脑时,这一假设开始获得支持。在灵长类动物的实验中,神经元的活动不仅与选择本身有关,还会随选项的回报历史发生系统性变化。
某些神经区域中的神经元,其放电强度会反映某个选项在近期“有多值得选”。这种信号并不是一次性计算出的,而是通过对奖励历史的持续整合逐步形成。
重要的是,这种整合并不是无限的。较新的结果影响更大,较久远的结果逐渐衰减。这意味着,大脑对世界的估计始终是动态的、带有遗忘的。
学习信号来自哪里?
要让估计发生改变,大脑需要一个关键信号:当结果与预期不一致时,系统必须“知道自己错了”。
这正是预测误差的核心思想。预测误差并不只是“得到了多少奖励”,而是“实际结果与预期之间的差异”。如果结果比预期好,估计上调;如果更差,估计下调。
在大脑中,某些神经系统的活动模式,与这种误差信号高度一致。它们在结果超出预期时短暂增强,在结果落空时被抑制。这种信号并不是为了制造快感,而是为了驱动学习,让连接发生改变。
随着时间维度被引入,预测误差也不再局限于结果出现的那一刻,而是逐渐提前,转移到那些预示未来结果的线索上。这一现象,为更连续的学习模型提供了基础。
正是在这样的背景下,研究者开始借助计算机科学中的强化学习框架,对这些过程进行形式化描述。在这一框架中,个体被视为一个与环境互动的“代理”,通过行动获得反馈,并试图在时间中最大化回报。
这些模型提供了一种清晰的语言,用来描述学习、选择和更新的关系。但它们并不等同于大脑的真实实现方式。某些算法在数学上优雅,却可能难以在嘈杂、有限的神经系统中实现。
事实上,动物的行为往往偏离这些“理想模型”。它们会更新未被选择的选项,会表现出选择惯性,会在探索与利用之间摇摆。这些特征并非噪声,而是生物系统在现实约束下的产物。
从神经科学的角度看,强化学习更像是一种视角,帮助我们理解:经验如何塑造行为,反馈如何改变选择,以及学习如何嵌入决策本身。
它提醒我们,所谓“理性”,并不意味着完美计算;所谓“学习”,也不意味着稳定收敛。在真实的大脑中,学习总是在有限信息、不确定环境和生物约束下展开。而正是在这种不完美中,行为才显得如此真实。
在「神经现实 x Noetex Academy」新一期的决策神经科学课程中,你将进一步了解神经科学如何研究强化学习。在达特茅斯学院神经科学教授Alireza Soltani带领下,你将进入生物、认知和计算三个层级,探寻决策机制的神经基础,以及它如何启发经济学、认知科学和人工智能等领域的发展。
![]()
![]()
![]()
![]()
![]()
![]()
特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.