Breaking the jar:
Why NeuroAI needs embodiment
![]()
在众多卡通超级反派中,忍者神龟的死敌克朗(Krang)是神经科学家的最爱。一场离奇的意外后,克朗的身体被剥夺,只剩下一个浸泡在脑脊液中的大脑。失去行动能力的克朗请求他的超级反派同伴施莱德(Shredder)为他打造一个新的脑机接口和双足机器人骨架。这个重获新生的机器人克朗与施莱德联手对抗忍者神龟,企图征服地球。
就像《忍者神龟》的创作者们一样,神经科学家常常抽象地认为大脑可以脱离身体而独立存在。他们将大脑建模为一台存在于纯粹思维领域的计算机器,接收输入并发送抽象的信息流。
然而,这种“大脑装在罐子里”的世界观忽略了一个简单的事实:大脑和神经系统是与它们所栖息的身体共同进化的。
事实上,协调身体运动是大脑功能的终极目标。大脑本身并不直接与外部世界相连,而是通过身体。它接收的感觉输入仅限于感觉器官传递的信息,其行动也仅限于肌肉和其他执行器。因此,身体的生物力学特征和限制都已融入大脑的功能之中。动物的运动方式也决定了它们如何获取新的感觉信息。最终,克朗需要一个机械躯体来实施他的邪恶计划。动画片并没有详细阐述如何调整双足人造躯体以使其能够被克朗的爬行动物大脑控制,但其背后必然蕴含着某种精密的工程技术(或是数百万年的进化)。
因此,具身性是指大脑功能不可避免地受到身体的影响。虽然这并非神经科学领域的新概念,但神经科学家在研究特定大脑子系统,尤其是高级“认知”功能时,往往忽略了具身性视角。幸运的是,在蓬勃发展的神经人工智能领域,具身性正日益受到关注。例如,2023年,安东尼·扎多尔及其合作者提出了具身图灵测试;2024年,美国国立卫生研究院的脑神经人工智能研讨会也以具身性为核心主题。
本文探讨了具身智能的三个关键特征,这些特征也是动物大脑所特有的:反馈、生物力学和模块化。我们认为,充分考虑这三个特征将有助于构建真实大脑功能的计算模型,并促进人工神经网络的设计,使其超越大规模生成随机词的局限,高效地完成现实世界的任务。
01
反馈
Feedback
首先,反馈是生物神经网络普遍存在的特征。信息单向流动的前馈模型,例如从视网膜到外侧膝状体再到初级视觉皮层,因其易于解释而广受欢迎。但这类模型仅在非常狭窄的范围内有效,更多时候只是幻想或一厢情愿的想法;例如,外侧膝状体的大部分输入并非来自视网膜,而且这些输入中包含来自初级视觉皮层的显著反馈。生物系统几乎总是依赖于持续且多尺度的反馈:动物与不断变化的物理环境相互作用,神经回路高度依赖于循环连接,相互关联的器官会根据其他器官的反馈调整自身功能,细胞也会通过基因调控反馈机制进行自我修饰。将大脑视为被动的计算引擎,试图理解(即形成对世界的“表征”)世界,这种观点否认了动物行动并对外部世界产生影响的本质能动性。
02
生物力学
Biomechanical Features
其次,了解每个特定生物体的生物力学特征对于理解其内部神经系统的功能至关重要。例如,观看这段鳟鱼的视频:它的身体在水流中起伏,然后逆流而上,游向一块小石头。这种看似灵巧的自然行为,实际上却是由一条刚刚死去的鱼完成的。因此,这种“行为”并不需要任何神经活动,完全是由石头脱落的涡流与鱼体生物力学之间的相互作用产生的。一些神经科学家可能会对此感到困惑。但我们更乐观的观点是,利用生物体的机械智能可以简化非线性神经控制的需求。
03
模块化
Modular
第三,大脑具有高度模块化的特性。尽管我们提倡整合式方法,但深入研究大脑和肌肉骨骼系统的特定部分也具有不可否认的价值。然而,这些模块最终需要相互连接。另一种理解模块化的方式是将其视为瓶颈。例如,在视网膜中,视网膜神经节细胞是唯一将输出发送到其他成像视觉系统的细胞,而运动控制回路最终汇聚到运动神经元的共同输出,这些运动神经元与肌肉形成突触。这些瓶颈定义了模块,使得我们可以构建每个模块的计算模型,这些模型彼此之间相互连接,并由此产生虚拟动物的整体行为。重要的是,不同子系统的模型可以采用不同的分辨率,并从不同的数据中进行学习。
理解这三个特点有助于神经科学家从具身视角构建研究框架,但研究具身大脑的愿景与实际应用之间仍然存在鸿沟。毕竟,神经动力学已经足够复杂,我们现在是否还需要对非线性肌肉骨骼动力学进行建模?将膀胱模型与纹状体模型整合起来究竟有多迫切?我们必须做出选择。幸运的是,综合生物数据集和人工智能方法的融合使这些选择变得稍微容易一些。科学家们正在开发(并共享)生物力学上逼真的动物全身模型,包括大鼠、小鼠和果蝇。目前,大多数已发表的模型仍然相当基础——本质上只是身体的骨骼——但包括我们自己在内的许多合作团队正在努力添加生物学上逼真的肌肉和传感器。
这种新兴的虚拟动物模型与以往几代生物力学模型最大的区别在于它们与大脑模型的兼容性。我们可以将大脑模型视为“控制器”,它们能够规划和执行行为,同时对来自环境的感官刺激做出反应。目前,用于模拟虚拟动物的主流软件平台是MuJoCo,它是一个物理引擎,可以模拟骨骼、肌肉和肌腱的生物力学。由于 MuJoCo 的开发初衷之一是促进机器人领域的研究,因此其核心功能包括处理动态身体部位与环境之间的复杂接触力,以及学习控制器以协调所需的身体运动。现在,一款名为 MuJoCo-MJX 的 JAX 加速实现使得拥有 GPU 计算资源的研究人员能够轻松地训练全身虚拟动物。
![]()
MuJoCo
即便如此,一些未来的功能对于该平台或其他神经物理模拟平台而言仍将是受欢迎的补充。例如,一个灵活的接口,用于在与生物力学闭环的环境中对具有循环结构的神经元网络进行建模和微调,将加速构建完全集成的神经力学模型。此外,快速模拟非刚性生物力学(例如流固耦合、可变形骨骼元件以及相互滑动的肌肉致动器)的能力,将进一步拓展我们在神经功能、肌肉骨骼动力学和自然行为交叉领域进行研究的能力。
具身认知视角也有助于构建神经人工智能领域一个快速发展的新兴方向——动物大脑和行为的基础模型。基础模型的核心思想是收集大量动物在各种情境下的神经活动和视频记录,然后训练神经网络模型来预测动物对任意输入的神经活动和行为反应。我们认为,如果这类研究要对生物学有所裨益,就必须仔细考察每只动物的身体,而不仅仅是追踪身体上的关键点和其他行为的总体指标。人工神经网络或许能够学会控制游泳,但它实现这一目标的方式可能与鱼脑的运作方式截然不同——毕竟,即使是死鱼也能逆流而上。毕竟,大脑并不直接控制膝盖、肘部和肩部的位置;它控制的是肌肉,肌肉产生力量来移动身体并展现行为。
软件工具、开放数据集和协作科学文化的融合,使得现在成为探索神经人工智能具身认知的绝佳时机。我们有望更深入地了解神经系统如何控制行为,并从更具动物行为学的角度看待人工智能——在这种视角下,大脑不再被孤立于世,而是存在于它进化而来感知和控制的身体之中。正如忍者神龟的武术导师兼养父斯普林特大师所言:“创造性的思维必须与自律的身体相平衡。”
文章来源:The Transmitted
文章作者:Bing Wen Brunton,John Tuthill
特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.