网易首页 > 网易号 > 正文 申请入驻

强化学习:我们如何被奖励塑造行为

0
分享至


很多时候,我们以为自己是在思考之后才学会某种行为。但从神经科学的角度看,学习往往发生得更早,也更隐秘。

当一个选择带来好结果,它更可能再次出现;当一个行为导致不利后果,它逐渐被抑制。

这种从反馈中调整行为的过程,被称为强化学习(reinforcement learning)。它并不是某种高阶推理,而是连接经验、行动与未来选择的基本机制

在神经科学中,强化学习并不是从计算机科学“照搬”来的概念。相反,它最早来自对动物行为的观察:奖励不仅带来愉悦感,更重要的是,它会改变行为的概率。正是这一点,让奖励成为塑造决策的关键力量。

从“被奖励”到“做选择”

早期心理学家很早就注意到,如果一个行为产生令人满意的结果,它会在未来更频繁地出现。久而久之,人们甚至提出一种激进的观点:所有行为,都是为了获得奖励或避免惩罚。

这一思想在行为主义时代被推到极致。通过精心控制奖励出现的方式——比如间隔多久、需要付出多少努力——研究者发现,行为可以被系统性地塑造。动物并不需要理解规则本身,只要反馈足够稳定,行为模式就会逐渐成形。

真正让“学习”与“决策”交汇的,是当环境中出现了多个可选项。当个体不再只是重复一个动作,而是在不同选项之间分配时间和精力,选择本身就成为研究对象。

在这些多选项任务中,一个令人着迷的现象反复出现:个体往往不会把所有行为都压到回报最高的选项上。相反,它们会在不同选项之间分配选择次数,而且分配比例往往接近各选项获得奖励的比例。这种现象被称为匹配行为。它描述了行为如何随回报分布而变化,却并不解释行为为何如此。

更耐人寻味的是,在大多数实验中,个体表现出的并不是“完美匹配”,而是一种偏离——它们对高回报选项的选择不够极端,对低回报选项的尝试反而更多。这种现象被称为欠匹配。

从结果上看,这似乎并不完全“理性”。如果目标是最大化回报,为什么不更坚决地选择更好的选项?

大脑在做全局计算吗?

一个重要的转折在于,人们开始意识到:也许问题不在“结果是否最优”,而在大脑如何在时间中做决定

在现实世界中,回报是随机的、嘈杂的,真正的回报率需要很长时间才能估计清楚。如果要判断“长期来看这样做是否更好”,大脑必须保留大量历史信息,并进行复杂计算。这在生物系统中并不容易实现。

相反,如果大脑采用的是一种局部规则——在当下偏向最近回报更高的选项——那么欠匹配反而是自然结果。每一次选择,都是基于近期经验的权衡,而不是对整体结构的精确把握。

从这种局部选择规则出发,长期统计上的匹配行为会自然涌现,而无需大脑明确追求“最优解”。

当研究者把目光投向大脑时,这一假设开始获得支持。在灵长类动物的实验中,神经元的活动不仅与选择本身有关,还会随选项的回报历史发生系统性变化

某些神经区域中的神经元,其放电强度会反映某个选项在近期“有多值得选”。这种信号并不是一次性计算出的,而是通过对奖励历史的持续整合逐步形成。

重要的是,这种整合并不是无限的。较新的结果影响更大,较久远的结果逐渐衰减。这意味着,大脑对世界的估计始终是动态的、带有遗忘的。

学习信号来自哪里?

要让估计发生改变,大脑需要一个关键信号:当结果与预期不一致时,系统必须“知道自己错了”。

这正是预测误差的核心思想。预测误差并不只是“得到了多少奖励”,而是“实际结果与预期之间的差异”。如果结果比预期好,估计上调;如果更差,估计下调。

在大脑中,某些神经系统的活动模式,与这种误差信号高度一致。它们在结果超出预期时短暂增强,在结果落空时被抑制。这种信号并不是为了制造快感,而是为了驱动学习,让连接发生改变。

随着时间维度被引入,预测误差也不再局限于结果出现的那一刻,而是逐渐提前,转移到那些预示未来结果的线索上。这一现象,为更连续的学习模型提供了基础。

正是在这样的背景下,研究者开始借助计算机科学中的强化学习框架,对这些过程进行形式化描述。在这一框架中,个体被视为一个与环境互动的“代理”,通过行动获得反馈,并试图在时间中最大化回报

这些模型提供了一种清晰的语言,用来描述学习、选择和更新的关系。但它们并不等同于大脑的真实实现方式。某些算法在数学上优雅,却可能难以在嘈杂、有限的神经系统中实现。

事实上,动物的行为往往偏离这些“理想模型”。它们会更新未被选择的选项,会表现出选择惯性,会在探索与利用之间摇摆。这些特征并非噪声,而是生物系统在现实约束下的产物。

从神经科学的角度看,强化学习更像是一种视角,帮助我们理解:经验如何塑造行为,反馈如何改变选择,以及学习如何嵌入决策本身

它提醒我们,所谓“理性”,并不意味着完美计算;所谓“学习”,也不意味着稳定收敛。在真实的大脑中,学习总是在有限信息、不确定环境和生物约束下展开。而正是在这种不完美中,行为才显得如此真实。

在「神经现实 x Noetex Academy」新一期的决策神经科学课程中,你将进一步了解神经科学如何研究强化学习。在达特茅斯学院神经科学教授Alireza Soltani带领下,你将进入生物、认知和计算三个层级,探寻决策机制的神经基础,以及它如何启发经济学、认知科学和人工智能等领域的发展。







特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
图赫尔:非常高兴能够续约,邀请到来时我毫不犹豫地答应了

图赫尔:非常高兴能够续约,邀请到来时我毫不犹豫地答应了

懂球帝
2026-02-12 18:21:07
中国的社零增速,已经连降了6个月,转负甚至就在眼前

中国的社零增速,已经连降了6个月,转负甚至就在眼前

子业一说财经
2025-12-23 15:21:31
比赌博还狠的“隐形毒药”,正慢慢掏空中国家庭,无数人被它拖垮

比赌博还狠的“隐形毒药”,正慢慢掏空中国家庭,无数人被它拖垮

千秋文化
2026-02-10 20:55:47
64岁陈庭威现状:定居广州住豪宅,至今未婚,越老越帅一点不油腻

64岁陈庭威现状:定居广州住豪宅,至今未婚,越老越帅一点不油腻

查尔菲的笔记
2026-02-11 13:26:47
2026年的春运,长途大巴结结实实给了“智能时代”一记耳光

2026年的春运,长途大巴结结实实给了“智能时代”一记耳光

老特有话说
2026-02-09 23:34:10
外交部:中美元首通话中 特朗普总统再次表达了4月访华的愿望

外交部:中美元首通话中 特朗普总统再次表达了4月访华的愿望

财联社
2026-02-12 15:26:07
最令大龄剩女崩溃的一瞬间在什么时候?看网友的评论引起万千共鸣

最令大龄剩女崩溃的一瞬间在什么时候?看网友的评论引起万千共鸣

夜深爱杂谈
2026-01-10 22:27:12
广州地块这条新线,明天正式开通!

广州地块这条新线,明天正式开通!

房地产导刊
2026-02-12 16:32:37
精明如安吉也走眼,全明星内线打3场就报销,爵士如释重负

精明如安吉也走眼,全明星内线打3场就报销,爵士如释重负

大飞说篮球
2026-02-13 00:54:21
变天!Seedance2.0全网刷屏,短剧成本暴跌九成,主播饭碗悬了!

变天!Seedance2.0全网刷屏,短剧成本暴跌九成,主播饭碗悬了!

川渝视觉
2026-02-11 16:50:08
为何中国军力吓不倒日本,石破茂说得一针见血,还会走老路的

为何中国军力吓不倒日本,石破茂说得一针见血,还会走老路的

瑛派儿老黄
2025-12-02 21:11:13
14年湖北妈妈肾衰竭,移植7岁儿子的肾,得救后:孩子,你安心走

14年湖北妈妈肾衰竭,移植7岁儿子的肾,得救后:孩子,你安心走

奇思妙想生活家
2026-02-12 20:02:31
拉爵言论引发争议,曼联官方声明:我们坚持平等、多元与包容

拉爵言论引发争议,曼联官方声明:我们坚持平等、多元与包容

懂球帝
2026-02-13 00:53:07
U17国足抽好签!媒体人热议:重返世少赛稳了,印尼人崩溃了

U17国足抽好签!媒体人热议:重返世少赛稳了,印尼人崩溃了

奥拜尔
2026-02-12 15:51:54
官宣!24小时连换三人,欧冠双冠王换帅,新帅英超首秀面对利物浦

官宣!24小时连换三人,欧冠双冠王换帅,新帅英超首秀面对利物浦

嗨皮看球
2026-02-12 16:03:26
伊朗政权生存逻辑:靠反美立权,用贫穷维稳,道歉只是演戏

伊朗政权生存逻辑:靠反美立权,用贫穷维稳,道歉只是演戏

老马拉车莫少装
2026-02-12 17:38:03
降落伞失灵,法国翼装飞行冠军坠亡!

降落伞失灵,法国翼装飞行冠军坠亡!

新欧洲
2026-02-12 19:51:16
美日台联手科技合围,高市下黑手卡中国脖子,这招比稀土还厉害!

美日台联手科技合围,高市下黑手卡中国脖子,这招比稀土还厉害!

安珈使者啊
2026-02-11 14:24:01
除夕当天,家里这3个地方千万别熄灯!老辈人传下的“引财方”

除夕当天,家里这3个地方千万别熄灯!老辈人传下的“引财方”

小陆搞笑日常
2026-02-08 17:24:09
着急求援,日本军工截瘫,高市派人赴美,先废中国王炸

着急求援,日本军工截瘫,高市派人赴美,先废中国王炸

阿讯说天下
2026-02-12 16:39:22
2026-02-13 03:03:00
神经现实
神经现实
大脑,心智,认知
2428文章数 25483关注度
往期回顾 全部

科技要闻

10倍速的一夜:三大模型春节前的暗战

头条要闻

钟南山:会用证据让全世界服气

头条要闻

钟南山:会用证据让全世界服气

体育要闻

31岁首次参加冬奥,10年前她是个水管工

娱乐要闻

《惊蛰无声》违规抢占排片遭影院控诉

财经要闻

“影子万科”如何掘金万科?

汽车要闻

开212 T01柴油版去穿越 连牧马人都跟不上

态度原创

数码
教育
本地
旅游
军事航空

数码要闻

英伟达App更新,搞定Optimus MUX显卡切换难题

教育要闻

AI替代人并不可怕,只需掌握这三条

本地新闻

下一站是嘉禾望岗,请各位乘客做好哭泣准备

旅游要闻

五大顶流萌团C位出道 上海全新文旅IP“海上萌主”春节亮相

军事要闻

美国新交付F35隐身战机没雷达

无障碍浏览 进入关怀版