Reinforcement Learning for Active Matter
活性物质的强化学习
https://arxiv.org/pdf/2503.23308
![]()
活性物质是指由自我驱动实体组成的系统,这些实体消耗能量以产生运动,表现出复杂的非平衡动力学,挑战了传统模型。随着机器学习的快速发展,强化学习(RL)已成为应对活性物质复杂性的一个有前景的框架。这篇综述系统地介绍了RL在引导和控制活性物质系统中的应用,重点关注两个关键方面:单个活性粒子的最佳运动策略和活性群体集体动力学的调节。我们讨论了使用RL来优化单个活性粒子的导航、觅食和运动策略。此外,还研究了RL在调节集体行为中的应用,强调了其在促进活性群体的自组织和目标导向控制中的作用。这项研究为RL如何推进对活性物质的理解、操控和控制提供了宝贵的见解,为生物系统、机器人技术和医学科学等领域的未来开发铺平了道路。
I. 引言
活性物质是指具有内在推进机制的系统,使它们能够将能量转化为运动。这些系统,从微观的自我推进粒子(如细菌)到较大规模的动物群体和受生物启发的机器人群体,表现出显著偏离平衡系统的行为,这是由于持续的能量输入。活性物质的理论模型,如活性布朗粒子(ABP)模型和连续理论方法,已被开发出来解释这些异常行为。例如,单个活性粒子表现出短时间超扩散和长时间菲克扩散,这可以通过在朗之万方程中引入持久速度项来捕捉。同样,集体行为,如活性晶体的形成或运动诱导的相分离,可以通过ABP模型有效建模和描述。虽然这些模型为理解活性物质的丰富现象提供了框架,但它们主要侧重于解释观察到的行为,而不是提供主动引导或控制这些动态的方法。
基于对活性物质的理解,引导或控制其动态的能力在一系列应用中具有重要意义。控制单个活性粒子的运动允许在自主导航、资源搜索和高效运动等任务中进行精确操作,特别是在不确定性条件下。这些能力在微观机器人技术、生物医学工程和其他领域至关重要,其中控制单个粒子可以推动药物输送、纳米级制造和环境感知的进步。在更大规模上,活性物质系统中集体行为的调节使群体动态能够协调执行集体运输、自适应材料和分布式计算等任务。这种控制可能导致机器人技术、环境监测甚至智能材料开发领域的创新,这些材料能够适应不断变化的外部条件。因此,实现对活性物质中个体和集体动态的有效控制对于推进各个科学领域的实际应用至关重要。
鉴于活性物质非平衡性质带来的挑战,强化学习(RL)已成为优化和引导其行为的强大工具。RL提供了一个强大的框架,通过与环境的互动学习,使系统能够适应并发现导航、任务分配和协调等任务的最优策略。与传统控制方法不同,这些方法通常依赖于预定义的模型或外部输入,RL通过试错学习策略促进自主决策。这种实时适应和优化的能力使RL特别适合活性物质系统的复杂性,因为它允许它们不断调整以适应动态和不可预测的环境。通过将RL应用于活性物质系统,研究人员可以开发策略,引导单个粒子通过不确定条件,并控制大规模活性群体在集体任务中的协调。因此,将RL整合到活性物质的研究中,不仅加深了我们的理解,而且为需要操控和优化复杂系统的实际应用提供了一条路径。鉴于这些基础,本综述系统总结了RL技术在活性物质研究中的整合。本文组织如下: 第二节提供了活性物质和RL的概述。 第三节检查单个活性粒子的最佳运动策略,涵盖点对点导航问题、觅食策略和运动策略,说明RL如何在不确定环境中优化运动和决策。第四节专注于活性群体的集体动态调节,其中RL被应用于促进活性粒子的自组织和群体行为的目标导向控制。最后,我们在第五节结束综述,突出关键见解并为这一新兴领域的未来研究提出有希望的方向。
II. 活性物质和强化学习的概述
在探讨将强化学习(RL)应用于活性物质系统之前,我们首先概述活性物质和RL的关键概念。II.A节介绍了活性物质的基础方面,涵盖其各种类型、非平衡行为和推进机制。II.B节随后转向RL,概述其核心概念以及它如何使系统通过与环境的互动学习最优行为。
A. 活性物质
活性物质指的是能够将能量转化为运动的系统,由内在的推进机制驱动。这些系统跨越了广泛的规模和类型,从像自我推进的胶体粒子和细菌这样的微观实体,到动物群体和受生物启发的机器人群体这样的较大规模结构。与趋于达到平衡的被动系统不同,活性物质系统持续消耗能量并表现出非平衡行为,如自我推进、运动诱导的相分离和新兴的集体动态。
活性物质有多种类型,典型的例子如图1所示。人工活性胶体,如Janus粒子和化学驱动的微型游泳者,通常在实验室设计,并通过外部场或化学反应表现出受控运动。微生物系统,如细菌或藻类,依赖于自然推进机制,如鞭毛或纤毛,响应环境线索进行运动。在更大尺度上,动物群体,如鱼群或鸟群,表现出由局部互动驱动的集体行为,导致没有集中控制的协调运动。同样,受生物启发的机器人群体模仿这些自然系统,使用一系列自主代理集体执行任务。
![]()
活性物质的行为本质上是非平衡的,由于持续的能量输入。单个活性粒子经常表现出异常扩散。例如,活性粒子在短时间可以表现出超扩散,其中它们的位移随时间线性增长得更快,而在长时间则表现出菲克扩散,其中它们的运动转变为标准增强扩散。活性物质系统中的集体动态也表现出非平衡行为,如群体形成、模式创建和运动诱导的相分离,其中粒子或代理之间的局部互动产生全局模式。
这些非平衡现象突显了与平衡系统的关键区别,其中波动通常被平均化,系统趋于达到稳定状态。相比之下,活性物质系统表现出持续波动,并可以自组织成由内部能量消耗驱动的动态结构或模式。
B. 强化学习
强化学习(RL)是一类强大的机器学习算法,使代理能够通过与环境的互动学习最优行为。在RL中,代理在环境中采取行动,以奖励或惩罚的形式接收反馈,并旨在最大化其随时间的累积奖励。与监督学习不同,监督学习中模型是在标记数据上进行训练的,而RL在试错范式下运行,其中代理不断探索不同的行动以发现最有效的策略。
RL通常使用马尔可夫决策过程(MDP)进行建模,它为决策问题提供了一个数学框架。如图2所示,MDP由一组状态S、一组动作A、一个转移函数P(s'|s, a),定义了在状态s中采取动作a后转移到状态s'的概率,以及一个奖励函数R(s, a),它给出了在状态s中采取动作a后立即收到的奖励。RL代理的目标是学习一个策略π(a|s),将状态映射到动作,以一种最大化随时间的累积奖励,通常测量为回报。这个回报通常计算为未来奖励的总和,通常由一个因子γ折现,表示代理对即时奖励相对于远期奖励的偏好。
RL算法通常可以分为基于价值、基于策略和演员-评论家方法。在基于价值的方法(如Q学习)中,代理学习一个价值函数,估计每对状态-动作对的预期回报。深度Q网络(DQN)通过使用深度神经网络来近似Q值函数,使RL能够应用于复杂、高维的状态空间。在基于策略的方法中,代理直接学习一个策略函数,将状态映射到动作,而无需学习显式价值函数。一种流行的策略优化方法是近端策略优化(PPO),它确保更新不会偏离先前策略太远,提高稳定性和样本效率。另一方面,演员-评论家方法结合了基于价值和基于策略方法的优点。这里使用两个模型:一个用于估计价值函数(评论家),另一个用于估计策略(演员)。例如,A2C(优势演员-评论家)是一种常用的演员-评论家方法,通过考虑优势函数来提高演员学习效率,该函数衡量在给定状态下采取特定行动相对于平均行为的相对收益。
这些RL算法为复杂环境中的学习提供了多种方法,并已成功应用于广泛的科学任务。在接下来的章节中,我们将讨论这些算法在活性物质系统中的应用。
III. 单个活性粒子的最优运动策略
在本节中,我们探讨了如何应用RL来优化单个活性粒子的运动策略。如图3所示,这包括检查三个关键方面:点对点导航问题,专注于不确定环境中的最优路径规划;觅食策略,其中RL用于增强资源的搜索和收集;以及运动策略,旨在优化活性粒子的运动方式,包括速度、方向、粒子配置和其他因素的决策,以实现有效的门控规划和对环境波动的适应性响应。
![]()
A. 点对点导航问题
点对点导航问题涉及引导代理从初始位置到环境中的目标位置的任务,该环境受到诸如洋流、风或其他动态因素的影响。该问题的目标是在考虑各种约束(如时间、能量消耗或系统稳定性)的情况下识别最有效路径。解决此问题的传统方法通常依赖于多种成熟技术,包括最优控制理论、动态规划和几何方法如芬勒几何。这些方法旨在通过提供明确的控制策略来最小化旅行时间或能量消耗,指导代理在环境中的移动。
然而,在活性物质系统中,这些传统方法由于环境异质性、随机扰动和活性粒子的非平衡性质而面临局限性。这突显了对能够考虑活性物质系统中固有的不确定性和复杂性的更适应性方法的需求。
鉴于传统方法的局限性,RL为单个活性粒子的点对点导航问题提供了一个有前景的解决方案,因为它能够适应动态和不确定的环境。与传统方法不同,RL允许活性粒子通过试错学习最优导航策略,根据实时反馈调整其动作。这种灵活性使RL能够克服环境异质性和活性物质系统的特征非平衡动态带来的挑战。
基于这些期望,S. Colabrese等人的开创性研究调查了RL在优化周期性涡流中重力微游动器导航策略中的应用。研究人员在数值实验中应用Q学习算法,使微游动器能够根据局部流动信息自主调整其游泳方向,允许它们最大化其垂直位移。结果表明,这些智能微游动器能够通过试错学习近优导航策略,有效逃避流动诱导的捕获区域并利用“流体电梯”效应实现更高效的上升。这种基于RL的方法显著优于传统被动重力策略,后者通常无法克服强涡区域和剪切流区的挑战。此外,研究表明,微游动器表现出对流场变化的适应性,突显了RL在优化变化环境中的导航策略方面的多功能性。
随后,M. Nasiri等人引入了一种深度RL方法,使用A2C算法,在模拟的二维力场和流场中引导活性粒子朝向目标。通过将环境离散化为网格世界表示,他们的方法避免了奖励塑造的需要,允许活性粒子仅从经验中渐近学习近优路径,并复制已知分析解的更简单设置。此外,它成功处理了更具挑战性的场景,包括高斯随机势场,其中经典路径规划算法经常失败。在另一项代表性的模拟工作中,M. Putzke等人采用仅依赖于距离和目标方位的表格Q学习算法,展示了活性粒子通过势垒、均匀流、泊肃叶流和涡流进行的时优导航。值得注意的是,他们的结果在中等方向噪声下保持稳健,表明Q学习可以在现实条件下保持高性能。
在这些进展之后,S. Muiños-Landín等人通过在真实实验条件下实施RL应用扩展了其应用。如图4(b)所示,他们的研究展示了基于RL的导航控制在水环境中通过自热泳推进的人工金纳米粒子涂层微游动器的可行性。与模拟代理不同,这些微游动器面临重大挑战,包括布朗运动、反馈延迟和外部噪声。为了解决这些问题,研究人员设计了一个离散网格世界框架,并采用Q学习算法引导微游动器通过激光诱导推进朝向设计目标。尽管其微观环境的随机性,微游动器成功地仅通过与环境的互动学习最优导航策略,显示了RL在现实世界活性物质系统中的稳健性。这一实验验证标志着在现实世界中将强化学习与活性粒子控制整合的重要一步,弥合了理论模型与物理实现之间的差距。
![]()
除了上述研究外,表I中还可以找到一系列其他基于RL的单个活性粒子点对点导航问题的工作。综合来看,这些工作拓宽了RL在活性物质系统中导航的范围,强调了RL处理非平衡环境复杂性的能力。现有算法的进一步细化和实验反馈的更深入整合可能会进一步推进该领域。潜在的发展方向包括设计自适应奖励结构以处理多目标任务(例如平衡速度和能量效率)以及扩展到多代理系统,其中大量活性粒子协调实现共享目标。这些发展对于实现RL驱动的导航在微观和宏观尺度上的稳健、现实世界应用至关重要。
![]()
B. 觅食策略
觅食策略指的是生物体为了从环境中定位和获取资源而采用的一系列行为和决策过程。与通常涉及从已知起点到目标目的地的点对点导航问题不同,觅食要求个体寻找并收集通常分散、变化多端和不确定的资源。在自然界中,觅食行为可以在各种尺度上观察到,从微生物寻找营养物质到动物在广阔而复杂的环境中寻找食物。
解决觅食问题的传统方法通常依赖于诸如Lévy行走和基于布朗运动的方法等已建立模型,这些方法试图模仿在生物体中观察到的高效觅食模式。这些方法通常假设环境是静态的,其性能依赖于预定义的运动规则,通常基于对资源分布的简单假设。然而,在现实世界环境中,资源可能稀缺、短暂或动态变化。这突显了对更灵活、适应性强的觅食策略的需求。
特别是,RL从根本上解决了序列决策问题,其中代理通过试错学习从反馈中逐步完善其行为。这一过程反映了生物体在提高觅食效率时采用的适应策略。在自然系统中,觅食者在探索(寻找新资源)和开发(利用已知资源)之间取得平衡,这与RL的核心原则紧密对齐。随着环境动态变化,RL通过基于实时环境反馈不断调整策略,相较于传统方法提供了显著优势。
在微观尺度上,几项研究已将RL应用于优化活性粒子的觅食策略。如图5(a)所示,M. Nasiri等人采用深度Q学习训练智能活性粒子在模拟环境中高效觅食营养物质。研究考虑了具有有限感官输入的代理,特别是,它们只能感知局部营养物质浓度、它们的健康状况和当前方向,而没有对环境的全局知识。作者比较了两种控制模型:随机行走(RT)模型和方向控制(DC)模型。结果表明,经过RL训练的代理表现优于传统的随机搜索策略,包括Lévy行走和趋化,通过学习利用最初未知的环境相关性。此外,训练过的代理表现出强大的泛化能力,成功地将它们的觅食行为应用于不熟悉的、结构不同的环境。M. Caraglio等人进行的另一项工作专注于使用RL算法优化间歇性活性布朗粒子的目标搜索策略。在这项研究中,ABP能够在两种不同模式之间切换:被动布朗运动模式和主动布朗运动模式。采用投影模拟学习高效切换策略,其中粒子主要根据它们在当前阶段停留的时间长度以及是否找到目标来决定它们在被动或主动阶段停留多长时间。研究人员发现,目标搜索效率随着活性阶段的自推进而增加。有趣的是,被动阶段的最佳持续时间随着活动度的增加单调减少,而主动阶段的最佳持续时间表现出非单调行为,在中间Péclet数达到峰值。
![]()
另一方面,对于宏观尺度的动物觅食,RL也显示出模拟适应性搜索行为的巨大潜力。例如,G. Muñoz-Gil等人开发了一种RL框架,通过模拟学习在随机分布目标环境中觅食的代理来探索动物觅食策略。研究集中在非破坏性觅食模型,其中代理必须搜索可补充的目标。该模型采用投影模拟算法最大化搜索效率,代理在每一步选择继续在同一方向前进或转向新随机方向。数值实验表明,RL代理学习的策略超过了Lévy行走和双指数分布等已知模型的效率,为生物体的学习过程提供了宝贵的见解。同样,N. J. Wispinski等人将深度RL应用于研究斑块觅食,这是生态学和动物觅食中的基本优化问题。在这项工作中,代理通过RL在连续3D环境中学习适应性调整其斑块保留行为。然后,他们的学习策略与边际价值定理(MVT)进行比较,边际价值定理是觅食的著名理论解决方案,以评估它们接近最优行为的程度。这里使用最大后验策略优化算法在连续3D觅食环境中训练代理。代理的任务是根据每个斑块内衰减的奖励决定何时离开一个斑块并前往新斑块。结果表明,代理根据斑块之间的距离调整其觅食策略,与生物觅食者的行为一致。在考虑时间折现时,训练过的代理接近MVT预测的最优觅食行为。
此外,表I中提供了大量基于RL的活性粒子觅食策略的研究。这些工作共同突显了RL在复杂、动态变化环境中学习适应性搜索策略的能力。重要的是,未来的研究将从增强的实验验证中受益,弥合数值结果与现实世界观察之间的差距。这将涉及在实际环境中测试RL驱动的觅食策略,根据实验反馈细化算法,并在不同的生物系统中验证其泛化能力。
C. 运动策略
运动策略指的是活性粒子执行运动的模式,包括对速度、方向、粒子配置和其他因素的决策,目标是实现高效的步态规划和对环境波动的适应性响应。与觅食或导航不同,后者关注的是达到特定目标或获取资源,而运动策略专注于优化粒子在其环境中的运动方式。
这涉及到对内部动态和外部互动的控制,使粒子能够根据变化的条件调整其运动。研究运动策略对于设计具有有效、适应性行为的人工系统至关重要,这些系统能够在现实世界中的动态环境中运行。理解和设计高效的运动模式在从微观机器人到自主航空器的应用中尤为重要,因为它可以提高性能、能效和鲁棒性。
寻找最佳运动策略的传统方法主要依赖于基于物理的模型,这些模型通过机械方程和运动学分析来描述粒子运动。例如,使用牛顿力学或拉格朗日动力学,研究人员可以模拟粒子在各种环境中的运动。虽然这些方法可以为简单系统提供准确的预测,但在更复杂、动态的环境中它们会遇到限制。在实际场景中,粒子可能经历非均匀流场、流体动力学效应或不可预测的环境变化,这使得传统运动模型在应对这些复杂性方面无效。此外,这些方法通常依赖于预定义的运动模型或控制策略,这些模型受制于基础假设的准确性和适应性。面对动态和不确定的环境时,传统方法难以提供实时、适应性的运动决策。相比之下,由于RL不需要精确的物理模型,而是通过代理-环境互动优化行为,它为研究运动策略提供了一个有前景的替代方案,特别是在传统方法无法考虑动态和随机因素的情况下。
活性物质的运动策略包括各种类别,包括具有可调节配置的活性粒子和滑翔飞行动力学。对于前者,最具代表性的例子是具有杆-球结构的微游动器,这是一个由杆和球形段连接而成的活性系统,允许净运动。通过在运动过程中动态调整关节角度和耦合刚度等参数,这些微游动器可以在不同运动模式之间切换,实现在复杂环境中的灵活导航和鲁棒控制。例如,在Z. Zou等人的工作中,采用深度RL方法使具有杆-球结构的微游动器自主学习在低雷诺数环境中有效的运动步态。通过使用PPO算法训练系统,微游动器可以在不依赖预定义步态模式的情况下,在平移、旋转和组合模式之间切换。值得注意的是,基于RL的运动策略允许微游动器遵循指定路径并执行目标导航。这种稳健的路径跟踪能力突显了微游动器的多功能性及其在生物医学领域(如靶向药物输送和微手术)中的潜在应用。
同样,Y. Liu等人探索RL以优化具有三球链配置的杆-球微游动器的旋转运动。他们的研究表明,无论球的数量如何,RL都会收敛到一种“行波策略”,该策略控制微游动器的旋转。这种运动策略使系统能够执行高效的旋转运动,RL动态调整球的动作序列以确保最佳旋转。结果表明,即使球的数量增加,系统仍可以通过RL开发有效的运动策略。在另一项工作中,L. Lin等人采用DQN优化弹性三球微游动器的运动。这项研究侧重于通过利用RL控制球之间的弹簧动力学,为微游动器开发有效的运动策略。基于RL的系统自主学习了一种“等待策略”,其中微游动器在运动的某些点暂停,允许弹簧放松后再继续运动。这种策略在高驱动速度下尤其重要,否则系统会因性能退化而挣扎。
另一方面,滑翔飞行动力学代表了活性物质运动策略的另一个重要类别。滑翔动力学主要在滑翔机和鸟类中观察到,侧重于利用自然大气现象(如热气流和上升气流)以最小能量维持飞行。这种方法涉及自适应飞行控制,其中系统学习导航波动的环境条件,如风或热梯度,以优化运动。最近的研究,特别是使用RL的研究,推进了能够高效探索这些动力学的自主航空系统的发展。
如图6(b)所示,G. Reddy等人的代表性研究训练了一架自主滑翔机利用Q学习算法在大气热气流中导航。滑翔机配备了一个飞行控制系统,该系统调整倾斜角度和俯仰角,通过利用环境反馈,系统自主提高其爬升率,与随机策略相比。研究强调了使用垂直风加速度和滚转扭矩作为机械线索,这些线索引导滑翔机的运动并使其能够有效地利用热气流进行持续飞行。通过重复试验,滑翔机自主提高了其检测热气流和其导航策略以保持在其中,展示了RL如何在动态、现实世界条件下实现最佳飞行策略。
![]()
之后,Y. Flato等人使用深度强化学习来研究水平风条件下的热气流滑翔。利用深度确定性策略梯度算法,他们使滑翔机能够自主学习如何定位并保持在热气流上升气流中。该研究确定了两个关键的学习挑战:实现稳定飞行和靠近热气流中心。为了克服这些挑战,使用奖励塑造在训练期间逐渐引入更复杂的风条件。学习到的策略反映了真实世界秃鹫的滑翔策略,展示了强化学习如何在复杂环境中复制和优化类似动物的飞行行为。
除了讨论的工作之外,表I中还总结了几项基于强化学习的活性物质运动策略研究,包括那些专注于多足系统和受生物启发的机器人技术。未来的研究可以通过开发基于强化学习的增强对不利环境的鲁棒性的运动策略来推进该领域,确保系统即使在不可预测或不利条件下也能保持有效运动。此外,在不确定性下学习是改进运动策略的关键领域,因为代理通常需要通过嘈杂、不完整或变化的环境数据进行移动。克服这些挑战对于扩展强化学习驱动的运动策略的应用至关重要,对环境监测和空间探索等自主领域具有重要意义。
IV. 活性群体集体动态的调节
在本节中,我们研究了RL如何调节和控制活性群体的集体动态,重点关注两个互补的方面。首先,我们讨论了活性群体的自组织,其中RL帮助个体行为优化局部互动,导致复杂模式的出现,如群体形成或聚集,无需直接集中控制或外部影响。其次,我们探索了群体行为的目标导向控制,其中RL通过外部影响或操控引导个体代理与预定义的集体目标对齐。
A. 自组织
活性群体中的自组织指的是活性粒子之间局部互动自发形成的有序集体行为,无需集中控制或直接外部影响。这些行为,如群体形成、聚集或模式形成,通过基于局部信息交换的去中心化决策过程产生。在自然系统中,这种自组织现象在生物系统中很常见,例如鱼群、鸟群或昆虫群体,简单的个体规则可以导致高度复杂和协调的群体行为。
传统上,活性物质系统中自组织的研究依赖于基于物理的模型,如Vicsek模型,该模型基于局部互动和邻域规则描述代理的对齐。这些模型通过简化假设捕捉自组织行为的本质,例如代理之间的对齐或排斥,并为这种行为的出现提供了重要见解。然而,传统方法在捕捉现实世界系统的全部复杂性时常常面临重大挑战。这些模型通常受限于固定或简单的互动规则假设,难以考虑现实世界活性物质的动态和适应性。此外,这些模型可能在具有复杂或变化环境的系统中泛化不佳,其中代理之间的互动更加多样且需要更灵活的策略。特别是,RL已成为研究活性群体自组织的一个广泛使用的方法,因为它不依赖于预定义的互动规则。通过允许活性粒子基于局部互动自主调整其运动行为,RL促进了在更现实和复杂环境中出现现象的探索。
最近的研究表明,RL在模拟微观和宏观活性物质系统中的自组织中发挥作用。在微观尺度上,R. L ̈offer等人和J. Grauer等人利用RL优化活性粒子的运动行为并发现出现的集体模式。如图7(a)所示,L ̈offer等人专注于光响应活性胶体粒子,应用PPO算法优化基于有限感官输入(例如180°视觉锥)的个体觅食策略。尽管奖励机制设计用于个体优化,粒子受限的感官信息导致群体行为如群体形成和磨坊自发出现。同样,Grauer等人研究了在2D营养场中移动的“通信”自推进粒子,使用DQN优化其感官参数。训练后的粒子表现出三种集体策略[图7(b)]:在高营养区域聚集以最大化资源消耗,扩散以最小化竞争,以及基于营养分布动态在聚集和扩散之间切换的自适应策略。这两项研究都展示了RL在没有预定义互动规则的情况下揭示复杂自组织行为的能力,使活性粒子表现出模仿自然界中看到的出现的集体动态。
![]()
在宏观尺度上,RL也被用来调节动物群体中的自组织,如鱼群和鸟群。T. Costa等人使用进化策略,RL中的黑盒优化方法,来模拟鱼群运动,其中每条鱼根据神经网络处理的感官输入学习局部互动规则。通过优化全局奖励函数,代理自主发展出四种不同的集体运动模式:旋转球、龙卷风、全核磨坊和空心磨坊行为[图7(c)]。同样,X. Wang等人使用平均场Q学习算法来模拟鱼群中的集体运动。通过将感官输入表示为多通道图像并设计促进邻居接近和避免碰撞的奖励函数,他们的方法导致高度协调的行为出现,如全核磨坊和空心磨坊,这些模式在自然界的捕食或觅食事件中经常观察到。此外,M. Durve等人应用RL研究群体行为,其中代理根据其邻居的速度信息调整其速度,导致协调群体动态的自发出现。这些工作强调了RL在通过个体学习驱动自组织中的作用。此外,E. Nuzhin等人应用RL解释动物群体中旋转行为的出现,提出它源于护航策略,其中个体试图与群体中心保持一定距离。他们的发现揭示了这种自组织策略增强了群体对外部干扰的韧性,突显了集体运动的生存功能。
综上所述,这些研究表明RL在模拟从微观粒子到大型动物群体的自组织集体行为的动态、适应性方面的强大能力。通过超越固定的互动规则,RL使探索更复杂、出现的行为成为可能,这些行为更准确地反映现实世界系统。
展望未来,未来的研究可以集中于改进RL算法,以更好地处理更复杂环境中的高维感官输入和互动,例如异质系统中代理具有不同能力或不完整信息。此外,纳入环境因素和约束,如外部力量或资源可用性,可以进一步增强这些模型的现实性。随着RL的不断发展,它将越来越多地为自然和人工系统中自组织机制提供宝贵见解。
B. 群体行为的目标导向控制
群体行为的目标导向控制描述了故意引导和调节活性群体的集体动态以实现预定义目标的过程。与自组织不同,自组织中的行为是通过代理之间的局部互动自发出现的,没有中央协调,而群体控制依赖于外部输入或全局机制来引导系统朝向特定目标。这些干预可以采取多种形式,如影响活性粒子行为的外部场和光源。虽然自组织侧重于个体层面优化产生的涌现模式,群体行为控制则以实现目标结果为中心,如协调运输或物体操控。关于这一点,RL作为优化控制策略的强大工具,允许代理适应外部输入,克服环境不确定性,并在最少人为干预下实现复杂任务,使其成为控制活性群体和使用它们操控外部物体的理想方法。
首先关注活性粒子本身的控制,M. Falk等人使用RL引导自推进粒子群体朝向特定配置。利用类似Vicsek模型的自推进圆盘,作者通过聚光灯控制局部活动,该灯增加了特定空间区域的活动[图8(a)]。RL代理根据系统的粗粒度状态(包括粒子位置和速度)调整聚光灯的位置和大小。学习到的协议利用了弱耦合和强耦合状态下出现的不同的物理行为,其中系统动态随着粒子对齐性的增加而变化。此外,M. Schrage等人实施RL以定向控制超声控制的微型机器人。他们的方法利用超声的力量进行导航和操控,利用主要和次级声辐射力引导微型群体。使用Q学习,他们训练系统识别和跟踪微型机器人,实时调整声波力以实现有效控制。如图8(b)所示,该研究成功地在流体环境中实现了自主集体运动,具有特定应用中微型机器人通过超声引导运动协作拼写出“ETH”。通过使用超过100,000张图像,作者教会系统适应超声环境的不可预测动态,增强了微型机器人在非结构化环境中自主导航的能力。
![]()
此外,为了应对更精细的控制挑战,一些研究不仅专注于活性群体本身的精确控制,还利用这些系统操控外部物体。例如,V. Heuthe等人探索了由激光点单独控制的群体微型机器人如何协作执行复杂任务,例如旋转和运输大杆[图8(c)]。RL代理负责调整激光点的位置,这些点控制微型机器人的运动,并使用多智能体RL框架中的反事实奖励机制为每个微型机器人分配个体信用。通过这样做,RL代理学习高效协调微型机器人的动作,使它们能够与环境互动并克服热噪声和复杂的智能体间互动等挑战。
这种方法使系统能够高效地学习旋转和运输物体,展示了活性物质系统在操控外部目标方面的潜力。另一项相关工作由J. Shen等人进行,他们引入了一个深度RL环境来探索粒子机器人的导航和物体操控任务。在这项研究中,每个机器人被表示为一个可以改变大小但缺乏自推进能力的盘形粒子。RL算法不是调整单个机器人,而是优化控制整个群体的超级代理的行为。超级代理负责通过切换机器人状态来管理粒子机器人的集体运动。使用OpenAI Gym接口,他们为各种任务开发了一个2D模拟器,包括导航、障碍穿越和物体操控。通过应用DQN、A2C和PPO等算法,他们对粒子机器人在这些任务中的表现进行了基准测试,强调这些RL方法使粒子机器人能够与外部物体互动并操控它们。
总结来说,活性群体的目标导向控制,特别是通过RL,已显示出在引导群体行为和促进操控外部物体方面的相当潜力。尽管取得了这些进展,但大多数研究仅限于2D环境,3D应用的全部潜力基本上还未被探索。因此,将这些系统扩展到3D环境提供了令人兴奋的机会和挑战。增加的空间维度将在粒子与外部物体之间的互动中引入更复杂的动态,进一步强调了对灵活和适应性控制策略的需求。在3D环境中操控物体的能力也可能为更复杂的现实世界应用打开大门,如医疗程序、自主装配和先进材料处理。
V. 结论
总结来说,本综述系统地探讨了RL在引导和控制活性物质系统中的整合应用。我们讨论了该领域的两个关键领域:优化单个活性粒子的运动策略和调节活性群体的集体动态。对于单个粒子,RL在优化导航、觅食和运动策略方面显示出相当大的潜力,使粒子能够自主适应动态环境并执行诸如点对点导航和资源收集等任务。
在集体层面,RL已被用于调节群体行为,促进群体动态的自组织和目标导向控制。特别是,RL能够帮助活性粒子协调其动作以完成复杂任务,如在挑战性条件下的物体操控和协调集体运输。
尽管这些进展充满希望,但仍需进一步发展以增强RL算法在活性物质系统中的适应性和鲁棒性。一个关键焦点应是完善RL算法以处理活性物质环境的复杂性。例如,将RL与多模态感知和反馈机制整合将使活性粒子能够根据更广泛的环境线索调整其行为,显著扩展这些系统的潜在应用。另一个推进的关键领域是理解RL算法在不同活性物质系统间的泛化能力和可转移性。研究RL策略如何有效应用于各种环境和任务,以及它们在系统间的转移效果如何,对于拓宽其适用性至关重要。此外,开发更多可由RL控制的活性物质实验系统的需求很大。通过应对这些挑战,我们可以推进该领域并为活性物质系统解锁更广泛的应用,可能在生物物理学、机器人技术、医学科学、环境监测和自主系统中取得突破。
原文链接:https://arxiv.org/pdf/2503.23308
特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.