网易首页 > 网易号 > 正文 申请入驻

强化学习:我们如何被奖励塑造行为

0
分享至


来源:Noetex Academy

很多时候,我们以为自己是在思考之后才学会某种行为。但从神经科学的角度看,学习往往发生得更早,也更隐秘。

当一个选择带来好结果,它更可能再次出现;当一个行为导致不利后果,它逐渐被抑制。

这种从反馈中调整行为的过程,被称为强化学习(reinforcement learning)。它并不是某种高阶推理,而是连接经验、行动与未来选择的基本机制

在神经科学中,强化学习并不是从计算机科学“照搬”来的概念。相反,它最早来自对动物行为的观察:奖励不仅带来愉悦感,更重要的是,它会改变行为的概率。正是这一点,让奖励成为塑造决策的关键力量。

从“被奖励”到“做选择”

早期心理学家很早就注意到,如果一个行为产生令人满意的结果,它会在未来更频繁地出现。久而久之,人们甚至提出一种激进的观点:所有行为,都是为了获得奖励或避免惩罚。

这一思想在行为主义时代被推到极致。通过精心控制奖励出现的方式——比如间隔多久、需要付出多少努力——研究者发现,行为可以被系统性地塑造。动物并不需要理解规则本身,只要反馈足够稳定,行为模式就会逐渐成形。

真正让“学习”与“决策”交汇的,是当环境中出现了多个可选项。当个体不再只是重复一个动作,而是在不同选项之间分配时间和精力,选择本身就成为研究对象。

在这些多选项任务中,一个令人着迷的现象反复出现:个体往往不会把所有行为都压到回报最高的选项上。相反,它们会在不同选项之间分配选择次数,而且分配比例往往接近各选项获得奖励的比例。这种现象被称为匹配行为。它描述了行为如何随回报分布而变化,却并不解释行为为何如此。

更耐人寻味的是,在大多数实验中,个体表现出的并不是“完美匹配”,而是一种偏离——它们对高回报选项的选择不够极端,对低回报选项的尝试反而更多。这种现象被称为欠匹配。

从结果上看,这似乎并不完全“理性”。如果目标是最大化回报,为什么不更坚决地选择更好的选项?

大脑在做全局计算吗?

一个重要的转折在于,人们开始意识到:也许问题不在“结果是否最优”,而在大脑如何在时间中做决定

在现实世界中,回报是随机的、嘈杂的,真正的回报率需要很长时间才能估计清楚如果要判断“长期来看这样做是否更好”,大脑必须保留大量历史信息,并进行复杂计算。这在生物系统中并不容易实现。

相反,如果大脑采用的是一种局部规则——在当下偏向最近回报更高的选项——那么欠匹配反而是自然结果每一次选择,都是基于近期经验的权衡,而不是对整体结构的精确把握。

从这种局部选择规则出发,长期统计上的匹配行为会自然涌现,而无需大脑明确追求“最优解”。

当研究者把目光投向大脑时,这一假设开始获得支持。在灵长类动物的实验中,神经元的活动不仅与选择本身有关,还会随选项的回报历史发生系统性变化

某些神经区域中的神经元,其放电强度会反映某个选项在近期“有多值得选”。这种信号并不是一次性计算出的,而是通过对奖励历史的持续整合逐步形成。

重要的是,这种整合并不是无限的。较新的结果影响更大,较久远的结果逐渐衰减。这意味着,大脑对世界的估计始终是动态的、带有遗忘的。

学习信号来自哪里?

要让估计发生改变,大脑需要一个关键信号:结果与预期不一致时,系统必须“知道自己错了”。

这正是预测误差的核心思想。预测误差并不只是“得到了多少奖励”,而是“实际结果与预期之间的差异”。如果结果比预期好,估计上调;如果更差,估计下调。

在大脑中,某些神经系统的活动模式,与这种误差信号高度一致它们在结果超出预期时短暂增强,在结果落空时被抑制。这种信号并不是为了制造快感,而是为了驱动学习,让连接发生改变。

随着时间维度被引入,预测误差也不再局限于结果出现的那一刻,而是逐渐提前,转移到那些预示未来结果的线索上这一现象,为更连续的学习模型提供了基础。

正是在这样的背景下,研究者开始借助计算机科学中的强化学习框架,对这些过程进行形式化描述。在这一框架中,个体被视为一个与环境互动的“代理”,通过行动获得反馈,并试图在时间中最大化回报

这些模型提供了一种清晰的语言,用来描述学习、选择和更新的关系。但它们并不等同于大脑的真实实现方式。某些算法在数学上优雅,却可能难以在嘈杂、有限的神经系统中实现。

事实上,动物的行为往往偏离这些“理想模型”它们会更新未被选择的选项,会表现出选择惯性,会在探索与利用之间摇摆。这些特征并非噪声,而是生物系统在现实约束下的产物。

从神经科学的角度看,强化学习更像是一种视角,帮助我们理解:经验如何塑造行为,反馈如何改变选择,以及学习如何嵌入决策本身

它提醒我们,所谓“理性”,并不意味着完美计算;所谓“学习”,也不意味着稳定收敛。在真实的大脑中,学习总是在有限信息、不确定环境和生物约束下展开。而正是在这种不完美中,行为才显得如此真实。

在「神经现实 x Noetex Academy」新一期的决策神经科学课程,你将进一步了解神经科学如何研究强化学习。在达特茅斯学院神经科学教授Alireza Soltani带领下,你将进入生物、认知和计算三个层级,探寻决策机制的神经基础,以及它如何启发经济学、认知科学和人工智能等领域的发展。

阅读最新前沿科技趋势报告,请访问欧米伽研究所的“未来知识库”

https://wx.zsxq.com/group/454854145828


未来知识库是“ 欧米伽 未来研究所”建立的在线知识库平台,收藏的资料范围包括人工智能、脑科学、互联网、超级智能,数智大脑、能源、军事、经济、人类风险等等领域的前沿进展与未来趋势。目前拥有超过8000篇重要资料。每周更新不少于100篇世界范围最新研究资料。 欢迎扫描二维码或访问https://wx.zsxq.com/group/454854145828进入。

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
本菲卡后卫达尔:维尼修斯进球后有些不尊重我们和本菲卡球迷

本菲卡后卫达尔:维尼修斯进球后有些不尊重我们和本菲卡球迷

懂球帝
2026-02-18 07:43:06
人大代表两会怒批:深圳1553栋超高层,家里须备好“自救神器”!

人大代表两会怒批:深圳1553栋超高层,家里须备好“自救神器”!

匹夫来搞笑
2026-02-17 20:16:29
葡体主席谈波尔图盘外招:偷毛巾这种事,只有在非洲才看得见

葡体主席谈波尔图盘外招:偷毛巾这种事,只有在非洲才看得见

懂球帝
2026-02-18 18:52:05
银行内部实话:存款达这个金额,会被系统盯上

银行内部实话:存款达这个金额,会被系统盯上

小陆搞笑日常
2026-02-10 03:30:26
16.18亿!广州海珠惊现250米超高层安置房,55层地标级回迁房来了

16.18亿!广州海珠惊现250米超高层安置房,55层地标级回迁房来了

科学发掘
2026-02-18 15:56:48
揪心!谷爱凌脑出血休克,癫痫发作濒死边缘,母亲泪崩曝细节

揪心!谷爱凌脑出血休克,癫痫发作濒死边缘,母亲泪崩曝细节

古事寻踪记
2026-02-06 07:13:45
巴拿马变天,大清算开始了!真正的大国力量,有人根本一无所知!

巴拿马变天,大清算开始了!真正的大国力量,有人根本一无所知!

阿钊是个小小评论员
2026-02-18 19:33:03
本菲卡官方发布视频:皇马球员不可能听到他们说的内容

本菲卡官方发布视频:皇马球员不可能听到他们说的内容

懂球帝
2026-02-18 11:47:14
36岁便慷慨就义的瞿秋白,建国后毛主席为何会有 “以后少纪念他” 这样的评价?

36岁便慷慨就义的瞿秋白,建国后毛主席为何会有 “以后少纪念他” 这样的评价?

桃烟读史
2025-12-31 21:38:26
俄罗斯至今都想不到,这场打了四年的俄乌战争,正在打掉自己国运

俄罗斯至今都想不到,这场打了四年的俄乌战争,正在打掉自己国运

安安说
2026-01-14 14:27:23
纽约期银失守72美元/盎司,日内跌7.73%

纽约期银失守72美元/盎司,日内跌7.73%

每日经济新闻
2026-02-17 23:12:21
一口气刷完,Netflix新剧太狗血了

一口气刷完,Netflix新剧太狗血了

来看美剧
2026-02-18 19:04:38
金牌榜乱套了!4金5银9铜仅排第10,中国队仍然0金,最大黑马曝光

金牌榜乱套了!4金5银9铜仅排第10,中国队仍然0金,最大黑马曝光

观察鉴娱
2026-02-17 16:37:12
“00后”陈某某被押赴刑场 执行死刑

“00后”陈某某被押赴刑场 执行死刑

闪电新闻
2026-02-07 16:53:35
广东深圳,一男子一夜之间,49亿身家蒸发,导致负债10亿他立马

广东深圳,一男子一夜之间,49亿身家蒸发,导致负债10亿他立马

网络易不易
2026-02-18 16:00:09
黄一鸣回应公开孩子父亲身份:你不给抚养费,我就用你的流量赚钱

黄一鸣回应公开孩子父亲身份:你不给抚养费,我就用你的流量赚钱

生命之泉的奥秘
2026-02-18 13:21:24
砸2.2亿!金螳螂建总部大楼,长得像一本本堆起来的书!

砸2.2亿!金螳螂建总部大楼,长得像一本本堆起来的书!

GA环球建筑
2026-02-18 14:02:15
梦幻联动,德约科维奇祝贺谷爱凌奥运成就

梦幻联动,德约科维奇祝贺谷爱凌奥运成就

懂球帝
2026-02-18 15:07:08
这6种隔夜菜太危险,宁可倒掉也别吃!

这6种隔夜菜太危险,宁可倒掉也别吃!

极目新闻
2026-02-17 20:17:46
宋喆近况曝光,今隐居县城太落魄,判若两人,前妻杨慧过上新生活

宋喆近况曝光,今隐居县城太落魄,判若两人,前妻杨慧过上新生活

丰谭笔录
2026-01-08 07:20:07
2026-02-18 20:59:00
人工智能学家 incentive-icons
人工智能学家
人工智能领域权威媒体
4541文章数 37406关注度
往期回顾 全部

科技要闻

怒烧45亿,腾讯字节阿里决战春节

头条要闻

5位新能源车主春运开车出行 特斯拉车主:电车更好开

头条要闻

5位新能源车主春运开车出行 特斯拉车主:电车更好开

体育要闻

夺银被问丢金,谷爱凌回击外媒:很荒谬

娱乐要闻

6大卫视春晚收视出炉 北京台稳居第一

财经要闻

面条火腿香菇酱!上市公司这些年请你吃

汽车要闻

量产甲醇插混 吉利银河星耀6甲醇插混版申报图

态度原创

家居
本地
亲子
手机
公开课

家居要闻

中古雅韵 乐韵伴日常

本地新闻

春花齐放2026:《骏马奔腾迎新岁》

亲子要闻

大一女学生怀孕生娃后续:带着孩子回家过年,她和娃都收到了红包

手机要闻

表现惨淡!2025年2000-4000元价位段品牌份额出炉:苹果仅1.3%

公开课

李玫瑾:为什么性格比能力更重要?

无障碍浏览 进入关怀版