网易首页 > 网易号 > 正文 申请入驻

Nature重磅:人类对大脑多巴胺机制理解错了!?

0
分享至

本文经AI新媒体量子位(公众号 ID:QbitAI)授权转载,转载请联系出处。

人工智能,往往从人类思维方式中获取灵感。

但现在反过来了!

人工智能的进步,已经能够为揭秘大脑如何学习提供启发。

这是来自DeepMind的最新研究,刚登上Nature,研究证明:

分布式强化学习,也就是AlphaGo的顶级版Alpha Zero和AlphaStar背后的核心技术,为大脑中的奖赏通路如何工作提供了新解释。

如此结论,也让DeepMind创始人哈萨比斯非常激动,发表推文表示:

我们在机器学习方面的研究,能够重新认识大脑的工作机制,这是非常令人兴奋的!

他当然有理由兴奋。

从长远来看,这也证明了DeepMind提出的算法与大脑运作逻辑相似,也就意味着能够更好地拓展到解决复杂的现实世界问题上。

而且一直以来,哈萨比斯的目标就是打造通用人工智能。

Alpha系列背后利器:分布式强化学习

强化学习,就是让智能体在一个未知的环境中,采取一些行动,然后收获回报,并进入下一个状态。

而时间差分学习(temporal difference learning,TD)算法,可以说是强化学习的中心。

它是一种学习如何根据给定状态的未来值,来预测价值的方法。

算法会将新的预测和预期进行比较。

如果发现两者不同,这个“时间差分”就会把旧的预测调整到新的预测中,让结果变得更加准确。

当未来不确定时,未来的回报可以表示为一种概率分布。有些可能是好的结果(蓝绿色),有些结果可能是不好的(红色)。

一个特定的行为所带来的未来奖励数量,通常是未知且随机。在这种情况下,标准的TD算法学习去预测的未来回报是平均的。

分布式强化学习则是更复杂的预测方式,会预测所有未来奖励的概率分布

那人类大脑的多巴胺奖赏机制是怎么样的呢?

然后研究的雏形就在DeepMind研究人员的脑海中生根了。

不研究不知道,一研究真的“吓一跳”。

过去,人们认为多巴胺神经元的反应,应该都是一样的。

有点像在一个诗唱班,每个人唱的都是一模一样的音符。

但研究小组发现,单个多巴胺的神经元似乎有所不同——所呈现的积极性是多样的。

于是研究人员训练小鼠执行一项任务,并给予它们大小各异且不可预测的奖励。

他们从小鼠腹侧被盖区域(Ventral tegmental area,控制多巴胺向边缘和皮质区域释放的中脑结构)中发现了“分布式强化学习”的证据。

这些证据表明,奖励预测是同时并行地由多个未来结果表示的。

这和分布式机器学习的原理也太像了吧?

解释大脑多巴胺系统

实验运用了光识别技术来记录小鼠大脑中腹侧被盖区中单个多巴胺神经元的反应。

腹侧被盖区富含多巴胺与5-羟色胺神经,是两条主要的多巴胺神经通道的一部分

基于强化学习理论,研究假设大脑存在多巴胺的奖赏预测误差(RPE)。

一个信号会引起一个奖赏预测,当奖赏预测低于分布的均值时,会引起负的RPE,而较大的奖励会引起正的RPE。

在一般强化学习中,获得的奖励幅度低于平均值分布将引起消极(负)的RPE,而较大的幅度将引出积极(正)的RPE(如上图a左所示)。

在分布式强化学习中,每个通道都携带不同的RPE价值预测,不同通道的积极程度不同。

这些值的预测反过来又为不同的RPE信号提供了参考点。在最后的结果上,一个单一的奖励结果可以同时激发积极(正)的RPE和消极的RPE(如上图a右所示)。

记录结果显示,小鼠大脑的多巴胺神经元反转点根据积极程度的不同而不同。符合分布式强化学习的特点(如上图b所示)。

为了验证神经元反应多样性不是随机的,研究者做了进一步验证。

将随机地将数据分成两半,并在每一半中独立地估计反转点。结果发现其中一半的反转点与另一半的反转点是相关的。

为了进一步了神经元对奖赏预测的处理方式。研究者给神经元进行了三种不同的信号刺激。

分别是10%、50%、90%的奖赏概率,并同时记录了四个多巴胺神经元的反应。

每条轨迹都是对三种线索之一的平均反应,零时是开始时间。

结果显示,一些细胞将50%的线索编码为90%的线索,而另一些细胞同时将10%的线索编码为10%的线索。

最后 ,研究者还进行了验证,试图从多巴胺细胞的放电率来解码奖赏分布。

通过进行推理,成功地重建了一个与老鼠参与的任务中奖励的实际分配相匹配的分配。

初步验证了小鼠的大脑分布式强化学习机制,给研究员带来了更多的思考:

是什么电路或细胞级机制导致了不对称的多样性?
不同的RPE通道是如何与相应的奖励预测在解剖学上结合?

这些大脑的谜团都有待于进一步了解。

而且这一研究结果也验证了之前多巴胺分布对成瘾和抑郁等精神障碍机制影响的假说。

有理论认为,抑郁症和双相情感障碍都可能涉及关于未来的负面情绪。

这些情绪与未来的负面预测偏差有关,偏差则可能来自于RPE coding28、29中的不对称。

但更多的意义,则是对当前机器学习技术发展的激励。

DeepMind 神经科学研究负责人Matt Botvinick说:“当我们能够证明大脑使用的算法,与我们在人工智能工作中使用的算法类似时,这将增强我们的信心。”

跨学科研究团队的成果

这篇论文中一共有3位共同一作,也是跨学科团队的研究成果。

排在第一位的是Will Dabney,DeepMind的高级研究科学家。

Will Dabney

本科毕业于美国奥克拉荷马大学,在马萨诸塞大学阿默斯特分校获得了博士学位。

在加入DeepMind之前,曾在亚马逊的Echo团队工作过。

2016年加入DeepMind。

第二位共同一作是Zeb Kurth-Nelson,他是DeepMind的研究科学家。

Zeb Kurth-Nelson

博士毕业于明尼苏达大学,2016年加入DeepMind。

第三位共同一作是Naoshige Uchida,来自于哈佛大学,是分子和细胞生物学教授。

Naoshige Uchida

此外,DeepMind创始人哈萨比斯也在作者之列。

他一直都希望,能够通过人工智能的突破也将帮助我们掌握基础的科学问题。

而现在的研究发现,他们致力的研究方向,竟然能够给人们研究大脑带来启发,无疑坚定了他们的研究信心。

One More Thing

就在这篇论文登上Nature的同时,DeepMind还有另外一篇研究出现了同一期刊上。

它就是DeepMind在2018年12月问世的AlphaFold,一个用人工智能加速科学发现的系统。

仅仅基于蛋白质的基因序列,就能预测蛋白质的3D结构,而且结果比以前的任何模型都要精确。

DeepMind称,这是自己在科学发现领域的第一个重要里程碑,在生物学的核心挑战之一上取得了重大进展。

截止到现在,DeepMind提出Alpha系列,从AlphaGo,到AlphaZero,再到AlphaStar,以及现在的AlphaFold,一门4子,全上了Nature。

唉…顶级研究机构的快乐,就是这么朴实无华,且枯燥。

https://www.nature.com/articles/s41586-019-1924-6

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
有没有人敢爆自己的瓜?网友:确定玩这么大吗?

有没有人敢爆自己的瓜?网友:确定玩这么大吗?

夜深爱杂谈
2026-02-18 20:55:58
沙滩上的绝美女神

沙滩上的绝美女神

疾跑的小蜗牛
2026-05-29 21:33:27
真要豪赌!掘金、绿军酝酿大交易,默里联手塔图姆,FMVP奔赴丹佛

真要豪赌!掘金、绿军酝酿大交易,默里联手塔图姆,FMVP奔赴丹佛

大卫的篮球故事
2026-06-29 22:22:36
目睹妈妈跳楼,12岁女儿报完案,从同一窗口跃下,就因为辅导作业…

目睹妈妈跳楼,12岁女儿报完案,从同一窗口跃下,就因为辅导作业…

犀利辣椒
2026-06-28 06:21:43
高考交卷只剩25分钟,她突然举手:“我要换答题卡!”全场惊呆,却提供了养孩子新思路……

高考交卷只剩25分钟,她突然举手:“我要换答题卡!”全场惊呆,却提供了养孩子新思路……

二胎妈妈圈
2026-06-26 00:24:09
世界杯日记(十八) 从9到2,亚洲还是那个弱鸡亚洲?

世界杯日记(十八) 从9到2,亚洲还是那个弱鸡亚洲?

白国华
2026-06-29 11:43:10
历史性突破!美以黎签署三方达成一致,共同打击真主党武装力量

历史性突破!美以黎签署三方达成一致,共同打击真主党武装力量

以色列计划Pro
2026-06-27 20:16:08
原来这就是升米恩斗米仇!网友:替别人养孩子,怎么都养不熟!

原来这就是升米恩斗米仇!网友:替别人养孩子,怎么都养不熟!

另子维爱读史
2026-06-29 21:27:43
金顺凯骨折至少休战两个月,申花仅剩两中卫如何保级?

金顺凯骨折至少休战两个月,申花仅剩两中卫如何保级?

生活新鲜市
2026-06-29 18:16:00
安徽入室抢劫案,母亲被嫌疑人蹂躏三小时,死前哀求他别吵醒女儿

安徽入室抢劫案,母亲被嫌疑人蹂躏三小时,死前哀求他别吵醒女儿

历史品鉴仓
2026-06-11 17:19:50
金融业降薪潮冲击楼市,房价承压下行

金融业降薪潮冲击楼市,房价承压下行

谭谈财经
2026-06-28 19:35:46
李谷一道出实情,揭晓宋祖英走上高位的真相,观众:原来如此!

李谷一道出实情,揭晓宋祖英走上高位的真相,观众:原来如此!

动物奇奇怪怪
2026-06-29 18:46:04
《问心 2》大结局伏笔揭晓:林逸与周筱风决裂是刻意伪装,潜伏卧底搜集盛年贪腐证据

《问心 2》大结局伏笔揭晓:林逸与周筱风决裂是刻意伪装,潜伏卧底搜集盛年贪腐证据

喜欢历史的阿繁
2026-06-29 17:56:43
女子高铁上求助,男生拒绝帮搬行李,于是发文网暴,反遭网友骂惨

女子高铁上求助,男生拒绝帮搬行李,于是发文网暴,反遭网友骂惨

谭谈社会
2026-06-28 16:38:04
电影《四渡》票房破7000万

电影《四渡》票房破7000万

界面新闻
2026-06-28 10:55:42
80后的离婚率真的太吓人了!

80后的离婚率真的太吓人了!

微微热评
2026-06-22 05:58:58
整容失败不可怕,一股姨味才尴尬!52岁苏有朋给所有男星提了个醒

整容失败不可怕,一股姨味才尴尬!52岁苏有朋给所有男星提了个醒

史行途
2026-06-27 15:14:20
世界杯:巴西vs日本、德国vs巴拉圭、荷兰vs摩洛哥,三场解析!

世界杯:巴西vs日本、德国vs巴拉圭、荷兰vs摩洛哥,三场解析!

生活新鲜市
2026-06-29 19:11:55
建议停课、停业!河南一地发布暴雨红色预警

建议停课、停业!河南一地发布暴雨红色预警

大象新闻
2026-06-29 20:58:02
中国海军最大软肋:军舰一旦打光导弹,就只能沦为海上的废铁?

中国海军最大软肋:军舰一旦打光导弹,就只能沦为海上的废铁?

史智文道
2026-06-29 19:43:32
2026-06-29 23:03:00
脑科学世界
脑科学世界
国内领先的脑科学资讯自媒体
2908文章数 9028关注度
往期回顾 全部

科技要闻

杀疯了!深圳一天出两家200亿具身智能公司

头条要闻

小米SU7加速向左偏减速向右偏 车主维权近1年4S店松口

头条要闻

小米SU7加速向左偏减速向右偏 车主维权近1年4S店松口

体育要闻

他和伊朗队,再次赢得全世界的尊重

娱乐要闻

跟风电影《给阿公的牛肉丸》开机

财经要闻

万达广场批量易主 多位投资人正式入局

汽车要闻

全新宝马iX3长轴版将于成都车展预售 四季度交付

态度原创

房产
手机
艺术
时尚
公开课

房产要闻

你敢想?海口房地产投资,暴跌5成!

手机要闻

屏幕反人类,但AI绝了!酷派小方块上手:没法当主力机用

艺术要闻

他爱上自己的缪斯,把她画成女神,却眼睁睁看着她死去

夏天穿的裙子,越“花”越好看!

公开课

李玫瑾:为什么性格比能力更重要?

无障碍浏览 进入关怀版