网易首页

注册免费邮箱

网易首页 > 网易号 > 正文申请入驻

强化学习：我们如何被奖励塑造行为

2026-02-11 23:15:51　来源: 神经现实

北京举报

0

分享至

很多时候，我们以为自己是在思考之后才学会某种行为。但从神经科学的角度看，学习往往发生得更早，也更隐秘。

当一个选择带来好结果，它更可能再次出现；当一个行为导致不利后果，它逐渐被抑制。

这种从反馈中调整行为的过程，被称为强化学习（reinforcement learning）。它并不是某种高阶推理，而是连接经验、行动与未来选择的基本机制。

在神经科学中，强化学习并不是从计算机科学“照搬”来的概念。相反，它最早来自对动物行为的观察：奖励不仅带来愉悦感，更重要的是，它会改变行为的概率。正是这一点，让奖励成为塑造决策的关键力量。

从“被奖励”到“做选择”

早期心理学家很早就注意到，如果一个行为产生令人满意的结果，它会在未来更频繁地出现。久而久之，人们甚至提出一种激进的观点：所有行为，都是为了获得奖励或避免惩罚。

这一思想在行为主义时代被推到极致。通过精心控制奖励出现的方式——比如间隔多久、需要付出多少努力——研究者发现，行为可以被系统性地塑造。动物并不需要理解规则本身，只要反馈足够稳定，行为模式就会逐渐成形。

真正让“学习”与“决策”交汇的，是当环境中出现了多个可选项。当个体不再只是重复一个动作，而是在不同选项之间分配时间和精力，选择本身就成为研究对象。

在这些多选项任务中，一个令人着迷的现象反复出现：个体往往不会把所有行为都压到回报最高的选项上。相反，它们会在不同选项之间分配选择次数，而且分配比例往往接近各选项获得奖励的比例。这种现象被称为匹配行为。它描述了行为如何随回报分布而变化，却并不解释行为为何如此。

更耐人寻味的是，在大多数实验中，个体表现出的并不是“完美匹配”，而是一种偏离——它们对高回报选项的选择不够极端，对低回报选项的尝试反而更多。这种现象被称为欠匹配。

从结果上看，这似乎并不完全“理性”。如果目标是最大化回报，为什么不更坚决地选择更好的选项？

大脑在做全局计算吗？

一个重要的转折在于，人们开始意识到：也许问题不在“结果是否最优”，而在大脑如何在时间中做决定。

在现实世界中，回报是随机的、嘈杂的，真正的回报率需要很长时间才能估计清楚。如果要判断“长期来看这样做是否更好”，大脑必须保留大量历史信息，并进行复杂计算。这在生物系统中并不容易实现。

相反，如果大脑采用的是一种局部规则——在当下偏向最近回报更高的选项——那么欠匹配反而是自然结果。每一次选择，都是基于近期经验的权衡，而不是对整体结构的精确把握。

从这种局部选择规则出发，长期统计上的匹配行为会自然涌现，而无需大脑明确追求“最优解”。

当研究者把目光投向大脑时，这一假设开始获得支持。在灵长类动物的实验中，神经元的活动不仅与选择本身有关，还会随选项的回报历史发生系统性变化。

某些神经区域中的神经元，其放电强度会反映某个选项在近期“有多值得选”。这种信号并不是一次性计算出的，而是通过对奖励历史的持续整合逐步形成。

重要的是，这种整合并不是无限的。较新的结果影响更大，较久远的结果逐渐衰减。这意味着，大脑对世界的估计始终是动态的、带有遗忘的。

学习信号来自哪里？

要让估计发生改变，大脑需要一个关键信号：当结果与预期不一致时，系统必须“知道自己错了”。

这正是预测误差的核心思想。预测误差并不只是“得到了多少奖励”，而是“实际结果与预期之间的差异”。如果结果比预期好，估计上调；如果更差，估计下调。

在大脑中，某些神经系统的活动模式，与这种误差信号高度一致。它们在结果超出预期时短暂增强，在结果落空时被抑制。这种信号并不是为了制造快感，而是为了驱动学习，让连接发生改变。

随着时间维度被引入，预测误差也不再局限于结果出现的那一刻，而是逐渐提前，转移到那些预示未来结果的线索上。这一现象，为更连续的学习模型提供了基础。

正是在这样的背景下，研究者开始借助计算机科学中的强化学习框架，对这些过程进行形式化描述。在这一框架中，个体被视为一个与环境互动的“代理”，通过行动获得反馈，并试图在时间中最大化回报。

这些模型提供了一种清晰的语言，用来描述学习、选择和更新的关系。但它们并不等同于大脑的真实实现方式。某些算法在数学上优雅，却可能难以在嘈杂、有限的神经系统中实现。

事实上，动物的行为往往偏离这些“理想模型”。它们会更新未被选择的选项，会表现出选择惯性，会在探索与利用之间摇摆。这些特征并非噪声，而是生物系统在现实约束下的产物。

从神经科学的角度看，强化学习更像是一种视角，帮助我们理解：经验如何塑造行为，反馈如何改变选择，以及学习如何嵌入决策本身。

它提醒我们，所谓“理性”，并不意味着完美计算；所谓“学习”，也不意味着稳定收敛。在真实的大脑中，学习总是在有限信息、不确定环境和生物约束下展开。而正是在这种不完美中，行为才显得如此真实。

在「神经现实 x Noetex Academy」新一期的决策神经科学课程中，你将进一步了解神经科学如何研究强化学习。在达特茅斯学院神经科学教授Alireza Soltani带领下，你将进入生物、认知和计算三个层级，探寻决策机制的神经基础，以及它如何启发经济学、认知科学和人工智能等领域的发展。

特别声明：以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布，本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐

热点推荐

2026年，大模型训练的下半场属于「强化学习云」

机器之心Pro 2026-01-12 14:03:47
0 跟贴 0
AGILE：自监督+交互式强化学习助力VLMs感知与推理全面提升

机器之心Pro 2025-10-20 18:30:03
0 跟贴 0

百望股份创始人、董事长、CEO陈杰：AI缺的不只是算力，还有“真值”|2026商业新愿景

经济观察报 2026-02-12 23:56:04
0 跟贴 0

又一个华人做的AI爆了！不玩生图、不做视频，堪称AI版陌陌

雷科技 2026-02-12 22:37:10
4 跟贴 4
马斯克谈Seedance 2.0：发展速度太快

财联社 2026-02-12 13:40:07
4 跟贴 4

华大集团CEO尹烨：拥有了海量的基因数据和强大的AI算力后，我们究竟能解决什么问题？|2026商业新愿景

经济观察报 2026-02-13 00:06:12
0 跟贴 0

Waymo部署新一代自动驾驶系统扩大在美国的领先优势

财联社 2026-02-13 01:06:14
0 跟贴 0
这一个Tab键，我愿意单独付费：Cursor在线强化学习优化代码建议

机器之心Pro 2025-09-15 10:35:28
14 跟贴 14

VinciCoder：多模态统一代码生成框架和视觉反馈强化学习

机器之心Pro 2025-11-17 14:12:38
0 跟贴 0
日本态度强硬反击，美国察觉局势后，果断做出明智决策

苍穹搞笑 2026-02-12 14:57:15
2 跟贴 2
涠洲岛网红鲸鱼被撞，规则形同虚设，谁来护它周全？

记者田甜 2026-02-11 19:15:11
9 跟贴 9
无人机杀疯了：人类第一次跟算法打仗

吕喆有话说 2026-02-10 16:01:20
4 跟贴 4
百万年前的爱因斯坦，为何带不动部落里的普通人？一个连接考古学与神经科学的大一统理论

追问Nextquestion 2026-02-12 07:31:10
0 跟贴 0
故氏发现蚩姹大招隐藏机制，训练营测试攻击方式不同伤害能差几千

王者荣耀其海 2026-02-08 17:42:50
5 跟贴 5
玉渊谭天：奉劝法国别酒不醉人人自醉

北京日报 2026-02-12 08:22:18
6048 跟贴 6048
别再怕你导师了！科学搞定他的底层逻辑

生物学霸 2025-09-09 22:02:30
0 跟贴 0
女人的直觉有多准？网友：第一眼觉得这人不行那是真的不行

夜深爱杂谈 2026-02-12 18:55:13
3 跟贴 3
DeepSeek更新后被吐槽变冷变傻：比20年前的青春伤感文学还让人尴尬！业内人士：这一版本类似于极速版，牺牲质量换速度

每日经济新闻 2026-02-13 00:42:18
0 跟贴 0
第一个面临消失的职业，不是幼师，不是快递员，而是这三种工作？

南风不及你温柔 2026-02-13 02:08:05
0 跟贴 0
孩子坠入湍急冰河母亲急得也跳入：从神经科学看母爱

陌生的你我 2026-02-12 08:01:06
0 跟贴 0
为什么朱雨玲不能参加三大赛？这源自两条规则，看完瞬间明白了！

榻榻米搞笑 2026-02-11 09:19:46
1 跟贴 1
导师朋友圈点赞后秒取消，研究生脑补一出大戏：是手滑还是故意的？

生物学霸 2025-10-12 17:12:27
0 跟贴 0
当孩子说讨厌学习时，他的大脑正在发生什么

经济观察报 2025-08-23 11:04:08
0 跟贴 0
一杯奶茶，要花你多少生命？｜真实时薪的算法

开心呱呱笑呀 2026-02-12 06:12:55
0 跟贴 0
为什么意识无法被“拆解”？数学给出了答案

质子视界 2026-02-12 13:07:26
0 跟贴 0
踢出国际组织？特朗普话音刚落，中方打出明牌，伊朗收到“歼20”

史智文道 2026-02-12 22:13:35
0 跟贴 0
闫妮这微醺感没谁了，演完了都没搞清楚规则，一举动全场都笑翻！

雅儿姐在遛弯 2026-02-10 01:18:50
1 跟贴 1
把海外网友晃瞎的神秘大模型，还是中国制造

差评XPIN 2026-02-13 00:07:09
2 跟贴 2
U17国足与日本队同组

北京晚报 2026-02-12 16:36:03
1187 跟贴 1187
美国对双座五代机曾不屑一顾，中国造出歼20S后，承认规则变了

君清talk 2026-02-10 16:57:01
0 跟贴 0
报告：近六成日企计划今年扩大或维持对华投资

第一财经资讯 2026-02-12 11:01:30
2844 跟贴 2844
德国俱乐部回应“樊振东是否将续约”

浙江之声 2026-02-12 15:24:55
150 跟贴 150
2月12日看点：短道速滑再演“中韩大战”

文汇报 2026-02-12 04:06:17
193 跟贴 193
女子和男友生气，直接给自己气成模型了，男友差点笑进ICU

甜心萌物酱i 2026-02-08 16:31:24
0 跟贴 0
有些人容易哭泣的心理学原因

心理咨询师陈实 2026-02-11 22:05:03
0 跟贴 0
用seedance2模型一小时手搓地狱尖兵战争大片

小朋友手工 2026-02-11 03:29:04
0 跟贴 0
春运第一周58条中日航线取消全部航班

第一财经资讯 2026-02-12 03:20:29
893 跟贴 893
长江和记：邀请巴拿马就港口问题磋商

界面新闻 2026-02-12 18:41:33
705 跟贴 705
理解意识的尽头是什么？

神经现实 2026-02-09 21:00:30
0 跟贴 0
中国运动员头部冲下摔倒本人晒照回应伤情

封面新闻 2026-02-12 12:45:20
202 跟贴 202

图赫尔：非常高兴能够续约，邀请到来时我毫不犹豫地答应了

图赫尔：非常高兴能够续约，邀请到来时我毫不犹豫地答应了

懂球帝

2026-02-12 18:21:07

中国的社零增速，已经连降了6个月，转负甚至就在眼前

中国的社零增速，已经连降了6个月，转负甚至就在眼前

子业一说财经

2025-12-23 15:21:31

比赌博还狠的“隐形毒药”，正慢慢掏空中国家庭，无数人被它拖垮

比赌博还狠的“隐形毒药”，正慢慢掏空中国家庭，无数人被它拖垮

千秋文化

2026-02-10 20:55:47

64岁陈庭威现状：定居广州住豪宅，至今未婚，越老越帅一点不油腻

64岁陈庭威现状：定居广州住豪宅，至今未婚，越老越帅一点不油腻

查尔菲的笔记

2026-02-11 13:26:47

2026年的春运，长途大巴结结实实给了“智能时代”一记耳光

2026年的春运，长途大巴结结实实给了“智能时代”一记耳光

老特有话说

2026-02-09 23:34:10

外交部：中美元首通话中特朗普总统再次表达了4月访华的愿望

外交部：中美元首通话中特朗普总统再次表达了4月访华的愿望

财联社

2026-02-12 15:26:07

最令大龄剩女崩溃的一瞬间在什么时候？看网友的评论引起万千共鸣

最令大龄剩女崩溃的一瞬间在什么时候？看网友的评论引起万千共鸣

夜深爱杂谈

2026-01-10 22:27:12

广州地块这条新线，明天正式开通！

广州地块这条新线，明天正式开通！

房地产导刊

2026-02-12 16:32:37

精明如安吉也走眼，全明星内线打3场就报销，爵士如释重负

精明如安吉也走眼，全明星内线打3场就报销，爵士如释重负

大飞说篮球

2026-02-13 00:54:21

变天！Seedance2.0全网刷屏，短剧成本暴跌九成，主播饭碗悬了！

变天！Seedance2.0全网刷屏，短剧成本暴跌九成，主播饭碗悬了！

川渝视觉

2026-02-11 16:50:08

为何中国军力吓不倒日本，石破茂说得一针见血，还会走老路的

为何中国军力吓不倒日本，石破茂说得一针见血，还会走老路的

瑛派儿老黄

2025-12-02 21:11:13

14年湖北妈妈肾衰竭，移植7岁儿子的肾，得救后：孩子，你安心走

14年湖北妈妈肾衰竭，移植7岁儿子的肾，得救后：孩子，你安心走

奇思妙想生活家

2026-02-12 20:02:31

拉爵言论引发争议，曼联官方声明：我们坚持平等、多元与包容

拉爵言论引发争议，曼联官方声明：我们坚持平等、多元与包容

懂球帝

2026-02-13 00:53:07

U17国足抽好签！媒体人热议：重返世少赛稳了，印尼人崩溃了

U17国足抽好签！媒体人热议：重返世少赛稳了，印尼人崩溃了

奥拜尔

2026-02-12 15:51:54

官宣！24小时连换三人，欧冠双冠王换帅，新帅英超首秀面对利物浦

官宣！24小时连换三人，欧冠双冠王换帅，新帅英超首秀面对利物浦

嗨皮看球

2026-02-12 16:03:26

伊朗政权生存逻辑：靠反美立权，用贫穷维稳，道歉只是演戏

伊朗政权生存逻辑：靠反美立权，用贫穷维稳，道歉只是演戏

老马拉车莫少装

2026-02-12 17:38:03

降落伞失灵，法国翼装飞行冠军坠亡！

降落伞失灵，法国翼装飞行冠军坠亡！

新欧洲

2026-02-12 19:51:16

美日台联手科技合围，高市下黑手卡中国脖子，这招比稀土还厉害！

美日台联手科技合围，高市下黑手卡中国脖子，这招比稀土还厉害！

安珈使者啊

2026-02-11 14:24:01

除夕当天，家里这3个地方千万别熄灯！老辈人传下的“引财方”

除夕当天，家里这3个地方千万别熄灯！老辈人传下的“引财方”

小陆搞笑日常

2026-02-08 17:24:09

着急求援，日本军工截瘫，高市派人赴美，先废中国王炸

着急求援，日本军工截瘫，高市派人赴美，先废中国王炸

阿讯说天下

2026-02-12 16:39:22

大脑，心智，认知

2428文章数 25483关注度

往期回顾全部

科技要闻

10倍速的一夜：三大模型春节前的暗战

头条要闻

钟南山：会用证据让全世界服气

头条要闻

钟南山：会用证据让全世界服气

体育要闻

31岁首次参加冬奥，10年前她是个水管工

娱乐要闻

《惊蛰无声》违规抢占排片遭影院控诉

财经要闻

“影子万科”如何掘金万科？

汽车要闻

开212 T01柴油版去穿越连牧马人都跟不上

态度原创

+arrTaiduYuanC[i].tag+' | '+arrTaiduYuanC[i].title+'
\

数码

教育

本地

旅游

军事航空

数码要闻

英伟达App更新，搞定Optimus MUX显卡切换难题

教育要闻

AI替代人并不可怕，只需掌握这三条

本地新闻

下一站是嘉禾望岗，请各位乘客做好哭泣准备

旅游要闻

五大顶流萌团C位出道上海全新文旅IP“海上萌主”春节亮相

军事要闻

美国新交付F35隐身战机没雷达

© 1997-2026 网易公司版权所有 About NetEase | 公司简介 | 联系方法 | 招聘信息 | 客户服务 | 隐私政策 | 不良信息举报 Complaint Center | 廉正举报 | 侵权投诉

无障碍浏览进入关怀版