网易首页 > 网易号 > 正文 申请入驻

Science | 从碳基到硅基的进化共鸣:多智能体强化学习重演生物社会合作的神经策略

0
分享至


来源:生物探索

引言

在这个充满竞争的自然界中,我们常被灌输“适者生存”的丛林法则。然而,当我们回望人类文明的基石,或者观察狼群的围猎、大象的互助,会发现另一个同样古老且强大的法则:合作。合作不仅仅是两两个体物理距离的接近,它是一场发生在两个大脑之间精密复杂的“双人舞”。

但是,这种舞蹈是如何编排的?当我和你为了一个共同的目标协同行动时,我的大脑里究竟发生了什么?我如何预判你的行动?我的神经元是如何不仅编码“我”,还学会了编码“你”?

为了解开这个谜题,研究人员进行了一项令人印象深刻的跨学科研究。他们不仅窥探了小鼠在通过合作获取奖励时的大脑活动,还在人工智能系统中复现了这一过程。这项发表于1月1日的Science,“Neural basis of cooperative behavior in biological and artificial intelligence systems”,为我们揭示了合作行为背后那惊人相似的神经计算原理。


独行快,众行远:一场精心设计的“双鼠游戏”

要研究合作,首先得定义合作。在野外,合作稍纵即逝且充满干扰。因此,研究人员在实验室里搭建了一个巧妙的舞台。

这是一个被透明隔板一分为二的盒子。隔板中间有孔,允许两边的小鼠通过视觉、嗅觉甚至触觉进行交流。规则很简单:两只小鼠必须在极短的时间窗口内,同时用鼻子触碰各自区域的传感器(Nose-poke),才能获得美味的水作为奖励。如果只有一只老鼠触碰,或者两只老鼠触碰的时间差太大,谁也喝不到水。

这并非易事。起初,时间窗口被设定为宽裕的3秒,但随着训练的深入,这个窗口被无情地压缩到1.5秒,最终缩短至0.75秒。这意味着,只要有一方稍有迟疑,合作就会失败。

数据告诉我们,这绝非随机的巧合。在经历了漫长的训练后,76%的小鼠配对表现出了显著高于随机水平的合作成功率。研究人员通过“乱序重排”(Shuffling)的方法构建了随机模型——即如果两只老鼠互不理睬,只是按照自己的节奏乱点,它们碰巧成功的概率是多少。结果显示,经过训练的小鼠,其不仅成功率远超随机水平,而且失误率(Miss trials)大幅下降。

更有趣的是,在这些成功的小鼠中,约有41%被归类为“高表现组”(High-performance pairs)。它们不仅配合默契,而且随着训练的进行,它们两次触碰之间的时间差越来越短。在最后的训练阶段,这些“高表现组”在0.75秒的严苛窗口下展现出了惊人的同步性,仿佛它们之间有一条看不见的神经连线。

但是,这真的是“合作”吗?还是只是两只老鼠各自学会了听到某个声音就冲过去?

为了验证这一点,研究人员做了一系列巧妙的控制实验。

首先,他们把那块透明的隔板换成了不透明的实心隔板。视觉线索被切断了。结果立竿见影:成功合作的次数骤降,而单方尝试却无法获得奖励的“失误”次数激增。这说明,看到伙伴,是合作的关键。

其次,他们设计了“单边合作”(Unilateral cooperation)实验。在这个版本中,一只老鼠(老鼠A)无论何时触碰都能得到奖励,而另一只(老鼠B)必须配合老鼠A的节奏才能得到奖励。如果合作只是简单的模仿,那么老鼠B完全可以跟着老鼠A做。但结果显示,在这种不对等的关系中,老鼠B的合作表现远不如双方都需要合作时那么好。

这有力地证明了:真正的合作,需要双方都意识到“共同利益”的存在,并据此主动调整自己的行为。

无声的交流:策略的进化

如果我们将镜头拉近,逐帧分析这些高表现小鼠的行为,会发现它们进化出了一套复杂的社交策略。这不仅仅是简单的条件反射,而是一场无声的战术交流。

利用先进的姿态追踪算法(SLEAP),研究人员捕捉到了三个关键的行为模式:

1. 靠近 (Approach)
小鼠会有意识地向隔板靠近,进入对方的视野范围。

2. 等待 (Waiting)
这是最令人着迷的行为。当一只小鼠先到达触碰口时,它没有急着行动,而是停下来,在“社交区”等待伙伴的到来。数据显示,这种等待行为在训练过程中大幅增加,且主要发生在触碰前的2秒内。这种“克制”是合作成功的基石。

3. 互动 (Interaction)
两只小鼠会隔着隔板头对头,仿佛在确认眼神。在训练初期,这种互动往往发生在相距较远、角度各异的情况下(约180度面对面)。但随着默契的增加,它们互动时的角度变成了更有效率的120度左右——既能保持眼神交流,又能随时转身去触碰传感器。

数据显示,这种“互动”行为在训练过程中增加了158.9%。更重要的是,这些行为并非漫无目的。相比于失败的尝试,在那些成功的合作之前,小鼠表现出了更明显的等待和互动。

这告诉我们,合作不是一个瞬间的动作,而是一个包含预判、抑制冲动和即时通讯的连续过程。

大脑中的指挥官:前扣带回皮层 (ACC)

这套复杂的战术是在哪里被指挥的?研究人员将目光锁定在了前扣带回皮层(Anterior Cingulate Cortex, ACC)。这个脑区在人类中就已知与情绪、决策和社交密切相关。

利用微型显微钙成像技术(Microendoscopic calcium imaging),研究人员记录了17对小鼠在进行合作任务时,ACC区域内 12,798 个神经元的活动。

一幅壮观的神经交响乐展现在眼前。

首先,他们发现了专门编码“结果”的神经元。有些神经元只在合作成功(Correct poke)时放电,有些则只在失败(Miss poke)时放电。有趣的是,随着训练的深入,那些代表“成功”的神经元比例逐渐增加,而且这与小鼠的合作表现呈现出明显的正相关。换句话说,大脑正在通过增强“成功”的信号来固化合作的记忆。

但更令人兴奋的发现在于社交信息的编码。

“我”与“你”的神经表征
在ACC中,研究人员不仅找到了表征“我在哪”(Self position)的神经元,更找到了大量表征“你在哪”(Partner position)的神经元。

当隔板变成不透明时,那些编码“你在哪”的神经元活动几乎消失了(减少了76.05%),而编码“我在哪”的神经元受到的影响则小得多。这一发现至关重要——它意味着小鼠的大脑中构建了一个关于伙伴位置的动态地图。而且,这部分表征伙伴位置的神经信号越强,小鼠的合作表现就越好,它们也更倾向于展现出“等待”的行为。

“行动”与“克制”的决策信号
最精彩的部分在于决策。合作的本质往往在于何时行动(Proceed),以及何时按兵不动(Hold)。

研究人员发现,ACC中的神经元群准确地编码了这两类截然相反的决策:

• Hold(保持):当我到了,但你还没到,我必须克制自己不去触碰。
• Proceed(行动):当我们都到了,现在的时机完美,我们要一起行动。

随着训练的进行,小鼠大脑中正确发出“Hold”和“Proceed”信号的次数显著增加,而错误的决策信号(比如伙伴没来就盲目行动)则大幅减少。解码分析显示,我们可以仅通过观察神经元的活动,就能预判小鼠是决定等待还是决定行动。

这表明,ACC不仅仅是在被动地记录位置,它更是在整合了“我”和“你”的信息后,主动计算并发出战术指令的指挥中心。

破坏引擎:当ACC停止工作

相关性并不等于因果性。为了证明ACC是合作行为的必要条件,研究人员使用了化学遗传学(DREADDs)和光遗传学(Optogenetics)技术来“沉默”这个脑区。

当通过注射药物(CNO)抑制ACC的神经活动时,小鼠的合作成功率出现了明显的下降。这并不是因为它们不想喝水了(它们尝试触碰的总次数并没有减少),也不是因为它们运动能力受损(在旷场实验中它们跑得很欢),更不是因为它们变得自闭了(在三箱社交实验中它们依然对同类感兴趣)。

真正受损的,是它们的协调能力

数据显示,抑制ACC后,小鼠成功配合的那个极短的时间窗口(Poke interval)变长了,变得不再精准。更关键的是,那些支撑合作的策略性行为——“靠近”、“等待”和“互动”,其持续时间都显著缩短了。

光遗传学实验提供了更精确的时间分辨率。研究人员发现,只有在合作发生前的决策阶段(Decision-making period)抑制ACC,才会导致合作失败;而在合作动作完成后再抑制,则毫无影响。

这无可辩驳地证明了:ACC是处理实时社会信息、做出合作决策的关键枢纽。没有它,两只老鼠可能依然是个体层面的运动健将,但绝不再是默契的合作伙伴。

硅基的镜像:AI眼中的合作世界

如果说生物大脑的演化花费了数百万年才习得合作,那么在代码构建的世界里,人工智能是否会重演这一过程?

研究人员构建了一个多智能体强化学习(MARL)环境。这相当于一个数字版的“双鼠游戏”:两个AI智能体(Agent)在一个8x8的网格世界中移动,它们同样需要观察环境,移动到一个随机出现的“触碰点”,并在极短的时间窗(2个时间步长)内同时到达,才能获得奖励。

每个智能体都配备了一个循环神经网络(RNN),这是一种具有记忆功能的网络结构,类似于大脑的短期记忆。

令人惊讶的趋同进化发生了。

行为层面的重演:
起初,AI智能体只是笨拙地随机探索。但随着训练次数的增加(约4000次迭代后),它们不仅学会了合作,而且发展出了与小鼠惊人相似的策略。
数据展示了这一点:在合作模式下,AI智能体展现出了明显的“等待”行为。当一个智能体发现自己离目标更近,而伙伴还很远时,它会主动停下来,甚至向后退,以此来缩短双方到达目标的时间差(Synchronization correction)。这种主动的等待行为与它们最终的合作表现呈显著正相关。

神经层面的重演:
当我们打开这些AI智能体的“黑盒子”,观察它们神经网络内部的运作时,发现了与小鼠ACC极度相似的编码模式。
研究人员在人工神经网络的隐藏层(Hidden layer)中,同样找到了专门负责编码“自我位置”和“伙伴位置”的单元(Units)。而且,就像在小鼠脑中一样,当剥夺了AI观察伙伴的能力(类似于不透明隔板实验)时,这些编码伙伴信息的单元活跃度大幅下降,合作行为也随之崩塌。

更进一步,AI的网络中也自发涌现出了负责“Hold”(我近你远,我要等)和“Proceed”(我们都近,一起冲)的决策单元。

为了验证这些单元的功能,研究人员像在小鼠脑中做实验一样,在代码中进行了“消融”(Ablation)实验。

• 当删除了编码“Proceed”的单元时,AI智能体的总触碰次数暴跌了73%,它们变得犹豫不决,无法执行合作。
• 当删除了编码“Hold”的单元时,虽然触碰次数没有减少,但“失误率”(Miss trials)大幅上升。它们失去了等待的耐心,变成了鲁莽的独行侠。

殊途同归的智慧

这项研究最为迷人之处,在于它搭建了一座连接碳基生物与硅基智能的桥梁。

在生物大脑中,为了生存,ACC进化出了整合自身与他人信息、抑制冲动、精准决策的能力。而在人工智能中,为了最大化奖励函数,神经网络在没有任何预设规则的情况下,自发地“发明”了几乎完全相同的计算策略。

这不仅揭示了合作行为的神经生物学本质——它依赖于对伙伴状态的实时监测和基于此的自我抑制;同时也暗示了,无论是由蛋白质构成的神经元,还是由代码构成的数学节点,在面对“如何协作”这个古老难题时,智慧似乎总是指向同一个解。

在这个日益复杂和互联的世界里,理解这种连接的本质,或许比以往任何时候都更加重要。无论是在实验室的笼子里,在服务器的机架上,还是在人类社会的互动中,合作的奇迹,正是在这无数次的“等待”与“同行”中悄然发生。

参考文献

Jiang M, Gu L, Ma M, Li Q, Kao JC, Hong W. Neural basis of cooperative behavior in biological and artificial intelligence systems. Science. 2026 Jan;391(6780):eadw8151. doi: 10.1126/science.adw8151. Epub 2026 Jan 1. PMID: 40997206; PMCID: PMC12575003.

阅读最新前沿科技趋势报告,请访问欧米伽研究所的“未来知识库”

https://wx.zsxq.com/group/454854145828


未来知识库是“ 欧米伽 未来研究所”建立的在线知识库平台,收藏的资料范围包括人工智能、脑科学、互联网、超级智能,数智大脑、能源、军事、经济、人类风险等等领域的前沿进展与未来趋势。目前拥有超过8000篇重要资料。每周更新不少于100篇世界范围最新研究资料。 欢迎扫描二维码或访问https://wx.zsxq.com/group/454854145828进入。

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
6年了,郭麒麟的反击几乎断送了朱亚文的演艺生涯

6年了,郭麒麟的反击几乎断送了朱亚文的演艺生涯

小熊侃史
2025-12-25 11:24:12
日媒:河野洋平要求高市“尽快纠正错误”

日媒:河野洋平要求高市“尽快纠正错误”

参考消息
2026-01-09 19:16:01
国运来了挡都挡不住!中国探测出10万亿宝藏,战略价值远超想象

国运来了挡都挡不住!中国探测出10万亿宝藏,战略价值远超想象

趣文说娱
2026-01-08 18:27:26
2026开年王炸级新车来了!8.98万起买到210KM长续航+云辇-C

2026开年王炸级新车来了!8.98万起买到210KM长续航+云辇-C

大侠上车
2026-01-10 07:06:56
“性萧条”才是这个时代真正的危机

“性萧条”才是这个时代真正的危机

深蓝夜读
2025-09-24 16:00:09
羽毛球马来西亚公开赛|石宇奇、王祉怡晋级决赛

羽毛球马来西亚公开赛|石宇奇、王祉怡晋级决赛

北青网-北京青年报
2026-01-10 19:51:03
26年央视春晚导演官宣彩排!小品领军人物确认回归,终于等到这天

26年央视春晚导演官宣彩排!小品领军人物确认回归,终于等到这天

瓜汁橘长Dr
2026-01-08 10:51:52
1967年溥仪因病离世,妻子李淑贤为独吞丈夫遗产,打了10年的官司

1967年溥仪因病离世,妻子李淑贤为独吞丈夫遗产,打了10年的官司

兴趣知识
2025-12-23 02:38:10
日本巨头中国工厂停产,3.5万员工铁饭碗破灭

日本巨头中国工厂停产,3.5万员工铁饭碗破灭

似水流年忘我
2025-12-08 10:56:29
顺差一万亿美元你知道是啥概念不?放200年前八国联军早到家门口

顺差一万亿美元你知道是啥概念不?放200年前八国联军早到家门口

沈言论
2025-12-21 11:50:03
没有这种食物,你的肌肉将消失!医生:60岁后恢复肌力的7种食物

没有这种食物,你的肌肉将消失!医生:60岁后恢复肌力的7种食物

健康之光
2026-01-04 09:31:45
金·卡戴珊太放得开,裙子勒出褶皱都要穿小码,沙漏身材欣赏不来

金·卡戴珊太放得开,裙子勒出褶皱都要穿小码,沙漏身材欣赏不来

心灵得以滋养
2026-01-10 12:28:56
3-2 1-0!张华晨一剑封喉!英博击败津门虎 黄紫昌+1米95中锋进球

3-2 1-0!张华晨一剑封喉!英博击败津门虎 黄紫昌+1米95中锋进球

刀锋体育
2026-01-10 20:14:48
别墅是中产返贫的最大陷阱!过来人血泪总结:别墅的四大硬伤

别墅是中产返贫的最大陷阱!过来人血泪总结:别墅的四大硬伤

流苏晚晴
2026-01-02 17:56:17
伊朗危险,5架俄罗斯大运抵达:法军开火了,击落2架以色列无人机

伊朗危险,5架俄罗斯大运抵达:法军开火了,击落2架以色列无人机

壹知眠羊
2026-01-09 11:31:52
12胜10负!我对杨瀚森很满意,斯帅赛后承认事实,还提到了亚当斯

12胜10负!我对杨瀚森很满意,斯帅赛后承认事实,还提到了亚当斯

巴叔GO聊体育
2026-01-10 16:44:10
为拍视频滞留斑马线跳舞,上海警方通报:4人被处罚

为拍视频滞留斑马线跳舞,上海警方通报:4人被处罚

上观新闻
2026-01-10 16:24:10
赵露思直播卖货动作幅度太大露出内裤,遭质疑博流量,太败好感!

赵露思直播卖货动作幅度太大露出内裤,遭质疑博流量,太败好感!

桑葚爱动画
2026-01-02 19:46:41
人社部表态!2026养老金或继续上涨,为何1955年以前出生更受益?

人社部表态!2026养老金或继续上涨,为何1955年以前出生更受益?

好贤观史记
2026-01-10 10:11:56
儿子自杀六年后,母亲在人体展看到具剥皮尸体,秒认出:那是我儿子

儿子自杀六年后,母亲在人体展看到具剥皮尸体,秒认出:那是我儿子

新欧洲
2025-11-28 21:21:41
2026-01-10 21:28:49
人工智能学家 incentive-icons
人工智能学家
人工智能领域权威媒体
4463文章数 37371关注度
往期回顾 全部

科技要闻

传DeepSeek准备第二次震惊全世界

头条要闻

特朗普宣称“不需要国际法” 联合国秘书长表态

头条要闻

特朗普宣称“不需要国际法” 联合国秘书长表态

体育要闻

怒摔水瓶!杜兰特30+12 难阻火箭遭双杀

娱乐要闻

吴速玲曝儿子Joe是恋爱脑

财经要闻

这不算诈骗吗?水滴保诱导扣款惹众怒

汽车要闻

宝马25年全球销量246.3万台 中国仍是第一大市场

态度原创

房产
亲子
本地
数码
公开课

房产要闻

66万方!4755套!三亚巨量房源正疯狂砸出!

亲子要闻

阿钟的小毛驴糖果小故事

本地新闻

云游内蒙|“包”你再来?一座在硬核里酿出诗意的城

数码要闻

雷神MIX GAMING 2迷你主机,竟能实现4K 120帧游戏体验

公开课

李玫瑾:为什么性格比能力更重要?

无障碍浏览 进入关怀版