强化学习：我们如何被奖励塑造行为|知识库|神经科学

强化学习：我们如何被奖励塑造行为

分享至

来源：Noetex Academy

很多时候，我们以为自己是在思考之后才学会某种行为。但从神经科学的角度看，学习往往发生得更早，也更隐秘。

当一个选择带来好结果，它更可能再次出现；当一个行为导致不利后果，它逐渐被抑制。

这种从反馈中调整行为的过程，被称为强化学习（reinforcement learning）。它并不是某种高阶推理，而是连接经验、行动与未来选择的基本机制。

在神经科学中，强化学习并不是从计算机科学“照搬”来的概念。相反，它最早来自对动物行为的观察：奖励不仅带来愉悦感，更重要的是，它会改变行为的概率。正是这一点，让奖励成为塑造决策的关键力量。

从“被奖励”到“做选择”

早期心理学家很早就注意到，如果一个行为产生令人满意的结果，它会在未来更频繁地出现。久而久之，人们甚至提出一种激进的观点：所有行为，都是为了获得奖励或避免惩罚。

这一思想在行为主义时代被推到极致。通过精心控制奖励出现的方式——比如间隔多久、需要付出多少努力——研究者发现，行为可以被系统性地塑造。动物并不需要理解规则本身，只要反馈足够稳定，行为模式就会逐渐成形。

真正让“学习”与“决策”交汇的，是当环境中出现了多个可选项。当个体不再只是重复一个动作，而是在不同选项之间分配时间和精力，选择本身就成为研究对象。

在这些多选项任务中，一个令人着迷的现象反复出现：个体往往不会把所有行为都压到回报最高的选项上。相反，它们会在不同选项之间分配选择次数，而且分配比例往往接近各选项获得奖励的比例。这种现象被称为匹配行为。它描述了行为如何随回报分布而变化，却并不解释行为为何如此。

更耐人寻味的是，在大多数实验中，个体表现出的并不是“完美匹配”，而是一种偏离——它们对高回报选项的选择不够极端，对低回报选项的尝试反而更多。这种现象被称为欠匹配。

从结果上看，这似乎并不完全“理性”。如果目标是最大化回报，为什么不更坚决地选择更好的选项？

大脑在做全局计算吗？

一个重要的转折在于，人们开始意识到：也许问题不在“结果是否最优”，而在大脑如何在时间中做决定。

在现实世界中，回报是随机的、嘈杂的，真正的回报率需要很长时间才能估计清楚。如果要判断“长期来看这样做是否更好”，大脑必须保留大量历史信息，并进行复杂计算。这在生物系统中并不容易实现。

相反，如果大脑采用的是一种局部规则——在当下偏向最近回报更高的选项——那么欠匹配反而是自然结果。每一次选择，都是基于近期经验的权衡，而不是对整体结构的精确把握。

从这种局部选择规则出发，长期统计上的匹配行为会自然涌现，而无需大脑明确追求“最优解”。

当研究者把目光投向大脑时，这一假设开始获得支持。在灵长类动物的实验中，神经元的活动不仅与选择本身有关，还会随选项的回报历史发生系统性变化。

某些神经区域中的神经元，其放电强度会反映某个选项在近期“有多值得选”。这种信号并不是一次性计算出的，而是通过对奖励历史的持续整合逐步形成。

重要的是，这种整合并不是无限的。较新的结果影响更大，较久远的结果逐渐衰减。这意味着，大脑对世界的估计始终是动态的、带有遗忘的。

学习信号来自哪里？

要让估计发生改变，大脑需要一个关键信号：当结果与预期不一致时，系统必须“知道自己错了”。

这正是预测误差的核心思想。预测误差并不只是“得到了多少奖励”，而是“实际结果与预期之间的差异”。如果结果比预期好，估计上调；如果更差，估计下调。

在大脑中，某些神经系统的活动模式，与这种误差信号高度一致。它们在结果超出预期时短暂增强，在结果落空时被抑制。这种信号并不是为了制造快感，而是为了驱动学习，让连接发生改变。

随着时间维度被引入，预测误差也不再局限于结果出现的那一刻，而是逐渐提前，转移到那些预示未来结果的线索上。这一现象，为更连续的学习模型提供了基础。

正是在这样的背景下，研究者开始借助计算机科学中的强化学习框架，对这些过程进行形式化描述。在这一框架中，个体被视为一个与环境互动的“代理”，通过行动获得反馈，并试图在时间中最大化回报。

这些模型提供了一种清晰的语言，用来描述学习、选择和更新的关系。但它们并不等同于大脑的真实实现方式。某些算法在数学上优雅，却可能难以在嘈杂、有限的神经系统中实现。

事实上，动物的行为往往偏离这些“理想模型”。它们会更新未被选择的选项，会表现出选择惯性，会在探索与利用之间摇摆。这些特征并非噪声，而是生物系统在现实约束下的产物。

从神经科学的角度看，强化学习更像是一种视角，帮助我们理解：经验如何塑造行为，反馈如何改变选择，以及学习如何嵌入决策本身。

它提醒我们，所谓“理性”，并不意味着完美计算；所谓“学习”，也不意味着稳定收敛。在真实的大脑中，学习总是在有限信息、不确定环境和生物约束下展开。而正是在这种不完美中，行为才显得如此真实。

在「神经现实 x Noetex Academy」新一期的决策神经科学课程中，你将进一步了解神经科学如何研究强化学习。在达特茅斯学院神经科学教授Alireza Soltani带领下，你将进入生物、认知和计算三个层级，探寻决策机制的神经基础，以及它如何启发经济学、认知科学和人工智能等领域的发展。

阅读最新前沿科技趋势报告，请访问欧米伽研究所的“未来知识库”

https://wx.zsxq.com/group/454854145828

未来知识库是“ 欧米伽未来研究所”建立的在线知识库平台，收藏的资料范围包括人工智能、脑科学、互联网、超级智能，数智大脑、能源、军事、经济、人类风险等等领域的前沿进展与未来趋势。目前拥有超过8000篇重要资料。每周更新不少于100篇世界范围最新研究资料。欢迎扫描二维码或访问https://wx.zsxq.com/group/454854145828进入。

特别声明：以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布，本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.