复杂丘陵地形下的仿生集群对抗算法|向量|智能体|大模型

分享至

Bio-Inspired Swarm Confrontation Algorithm for Complex Hilly Terrains

面向复杂山地地形的仿生集群对抗算法

https://www.mdpi.com/2313-7673/10/5/257

摘要

本文探讨了一种受生物启发的群体对抗算法，专为电子游戏中复杂的丘陵地形设计。所提出算法的新颖之处在于利用生物启发策略，以促进动态环境中的自适应和高效决策制定。借鉴各种动物物种的集体狩猎行为，本文提炼出两种关键对抗策略：集中火力用于目标选择，以及侧翼包围用于运动协调和攻击执行。这些策略嵌入一个去中心化的群体决策框架中，使代理能够在复杂的游戏环境中表现出增强的响应能力和协调性。为了验证其有效性，进行了广泛的实验，将所提出的方法与三种已建立的算法进行比较。结果表明，该方法实现了超过80%的对抗胜率，在交战效率和生存能力方面均优于现有技术。此外，引入了两个新的性能指标，即平均代理损失率和平均健康损失率，以提供对算法有效性的更全面评估。此外，还分析了关键算法参数对性能指标的影响，为所提出算法的适应性和鲁棒性提供了见解。

关键词：生物启发算法；群体对抗算法；丘陵对抗场景；群体动物行为。

引言

随着技术的进步，无人集群协同与对抗场景的应用需求日益增长，不仅体现在现实世界的机器人系统中，也广泛存在于电子游戏等虚拟环境中。集群对抗代表了一种新型战术范式，其依托多架无人机（UAV）的协同行为实现［1–5］。相关算法亦已广泛应用于游戏仿真中，例如《星际争霸II》［6］，其中复杂的智能体协同与战略规划对游戏胜负起着决定性作用。

为提升智能体集群在复杂动态对抗环境中的任务执行效率与成功率，一系列集群对抗策略的仿真方法已被提出［7,8］。进化算法（如粒子群优化与差分进化）在此类研究中发挥关键作用：这些算法通过模拟生物进化机制（包括选择、交叉与变异）迭代优化候选解，以逼近最优解。多智能体强化学习（MARL）作为强化学习的一个子领域［9］，专注于多智能体共存并交互环境中的策略生成；每个智能体通过与其他智能体协作或对抗，学习执行最优动作以达成自身目标。

近年来，群体智能算法取得了显著进展［10］，并在集群对抗中扮演核心角色。文献［11］提出了蜉蝣算法（mayfly algorithm）——一种受蜉蝣行为启发的优化方法，融合了群体智能与进化原理；文献［12］构建了一个数学模型，刻画赤狐的觅食、捕猎、种群动态及躲避天敌等行为，并通过结合局部与全局优化策略及繁殖机制，形成了赤狐优化算法；文献［13］提出了飞狐优化（Flying Foxes Optimization, FFO）算法，其灵感源自飞狐在热浪中的适应性生存策略，并通过引入模糊逻辑实现参数的动态调整，使FFO成为一种自适应、免参数的优化技术；文献［14］在集群机器人领域提出了一种创新方法：受鱼群觅食行为启发，结合仿生神经网络与自组织映射，使集群复现类鱼行为，包括无碰撞导航与动态子群形成；文献［15］探讨了无人机集群在当代世界中的关键作用，强调了具备攻防能力集群的迫切需求，并提出一种受自然群体捕猎行为启发、基于MARL的无人机集群对抗决策方法，以应对集群规模增大导致训练时间指数级增长的挑战。

本文提出一种仿生对抗算法，旨在提升集群对抗（尤其在电子游戏背景下）的成功率。具体而言，在山地环境中，起伏地形遮挡了智能体的视野，使其无法完整获取对手的实时信息。受狮群、野狗群等动物群体捕猎行为的启发，本文探讨了两种对抗策略：集火打击（focused-fire）策略与迂回包抄（flanking encirclement）策略，并将之与山地环境结合，构建了一种新型仿生集群对抗算法。

本文的主要贡献如下：

与以往纯2D或3D对抗环境的研究［15–21］不同，本文首次将半3D对抗环境（即山地地形）引入集群对抗问题研究，带来了诸多挑战：其一，智能体获取对手信息的能力受限；其二，智能体发射的虚拟弹药或执行的动作可能被地形遮挡；其三，地形约束了智能体的姿态，进一步增加了决策复杂性。
相较于采用质点模型运动的智能体［8,16,22–24］，为适配半3D对抗环境，本文采用单轮车模型（unicycle model）作为智能体的运动学模型——该模型更具现实性，但也使对抗场景更复杂。此外，负责瞄准的旋转模块可在其支撑平面上自由转动，而仰角单元具备垂直调节能力；因此，相较于标准单轮车模型，引入这些旋转部件所增加的自由度，使整体运动学模型更为复杂。
借鉴狮群与野狗群捕猎过程中展现出的行为特征，本文提出了适用于集群对抗的关键算法。与基于强化学习或目标分配的算法［15,25,26］相比，本文方法聚焦于对抗过程中具体的、可解释的行为模式，提升了算法的可解释性与实际适用性——尤其适用于电子游戏等仿真环境。在与上述算法的直接对比中，本文方法胜率超过80%。
在对抗算法评估方面，除传统胜率指标［24,25,27–29］外，本文额外引入两项性能指标：智能体数量损耗率智能体健康值损耗率。这两项指标从不同角度反映了集群为取胜所付出的代价；测试结果进一步凸显了所提仿生集群对抗算法的优越性。

相关工作

2.1 优化算法

在进化算法方面，文献［16］提出了一种基于进化算法（EA）的攻击策略，用于在拒止环境（denied environments）中指导集群机器人行动，摆脱了对全球定位与通信的依赖。各机器人仅依靠局部感知优化自身运动，并通过EA驱动的适应度函数评估威胁与收益；结合内置的避障机制，该集群实现了有效的协同与对抗。

文献［30］提出了一种基于协同行为的无人机任务分配进化方法，并配套设计了一种协作控制方法，使无人机群在任务执行过程中维持编队。

文献［31］针对复杂对抗场景，开发了一种优化的多无人机协同路径规划方法：构建了贴近实际的威胁模型，并将威胁等级与燃料消耗约束纳入多目标优化框架中。

文献［32］提出一种进化型专家系统树，用于管理空战中的突发情境；文献［33］则提出一种改进型粒子群优化算法，在不增加计算复杂度的前提下提升了全局搜索能力。

文献［34］基于策略演化博弈，在博弈论模型下研究了无人机的战略选择；文献［35］提出一种进化优化算法，旨在克服粒子群优化的固有局限。

文献［36］扩展了 torch 方法——一种异构–同构集群协同进化方法，旨在增强集群机器人的进化能力。为应对进化效率与策略性能平衡的挑战，torch 采用集群协同进化机制以加速适应过程，并引入行为表达树以拓展策略搜索空间，从而实现更灵活、高效的进化。

文献［37］提出一种基于帕累托最优匹配的改进型差分进化方法，用于求解多目标二元优化问题。然而，该类方法在障碍物密集、多区域等复杂环境中的进一步优化仍有待研究，尤其在任务分配与协同控制的集成方面仍需完善。

2.2 多智能体强化学习

近年来，多智能体强化学习（MARL）取得了显著进展［38,39］。文献［40］提出了分层注意力行动者–评论家（HAAC）算法，以提升大规模无人机集群对抗中的决策能力：该算法将分层行动者策略与基于分层两阶段注意力网络的集中式评论家网络相结合，有效捕捉无人机间的交互关系并优化协同效果；其显著降低了状态与动作空间的复杂度，提升了可扩展性，并在大规模场景中优于现有方法。

文献［41］提出了一种基于多智能体深度确定性策略梯度（MADDPG）的“一对一”视距内空战策略生成算法：将空战场景建模为二人零和马尔可夫博弈，并引入目标位置预测方法以增强决策能力；为突破基础战斗机机动动作的限制，采用连续动作空间；此外，通过基于势函数的奖励塑形方法提升了学习效率。

文献［42］提出了一种基于学习的无人机领地防御拦截策略，以应对来自不同方向与速度的入侵者：通过分析初始状态对拦截成功率的影响，界定了可行的防御边界；鉴于状态与动作空间均为连续，传统决策方法面临维度灾难问题，为此提出一种融合模糊逻辑的行动者–评论家算法，有效降低了计算复杂度。

为应对群体态势的复杂性，文献［43］提出将多智能体Transformer与虚拟对象网络相结合的架构；文献［44］则在多智能体深度强化学习框架下构建了两个非合作博弈模型，并在5对5无人机对抗场景中成功实现了纳什均衡。

文献［45］在包含移动威胁与目标的仿真环境中验证了任务分配与决策机制的有效性；文献［28］提出一种融合宏观动作（macro actions）与人类专家知识的MARL方法用于无人机集群决策：通过将集群建模为多智能体系统，并利用宏观动作缓解稀疏奖励与巨大状态–动作空间带来的挑战，显著提升了学习效率；人为设计的动作进一步优化了策略，使其在复杂对抗场景中表现出更优性能。

最后，文献［46］探索了基于深度强化学习的追逃问题：多个同构智能体在单轮车运动学约束下追击一个全向运动目标；该方法采用共享经验的方式训练固定数量追捕者的策略，并在运行时独立执行。

相较于上述算法，本文所提算法将动物对抗中观察到的行为模式无缝嵌入对抗过程本身，无需模型训练与复杂的迭代计算，仍能实现高性能表现。

问题描述

本文研究的是两个智能体集群在山地地形中的集群对抗问题。特别地，这两个智能体集群具有相等的数量与能力。该设定尤其适用于电子游戏仿真场景，其中智能体常在地形丰富的环境中执行对称性对抗任务。本节首先描述山地地形与智能体模型，随后阐述集群对抗问题。

3.1 对抗环境

图1展示了本研究用于电子游戏仿真的代表性山地地形示例。设 ℒ₁ 和 ℒ₂ 分别表示地图的长度与宽度，ℋ 表示地形的最大高度。需注意，智能体仅能沿山地地形表面移动，这带来了三个前所未有的挑战：第一，智能体获取对手信息的能力受限，因为山丘可能遮挡其视野（如图1所示）；第二，智能体发射的炮弹可能被地形阻挡；第三，地形限制了智能体的姿态，使其难以瞄准。

3.2 智能体模型

在本文中，智能体被划分为红队与蓝队。假设每支队伍包含 N 个智能体。对于 i = 1, ..., N，rᵢ 表示红队的第 i 个智能体，而 bᵢ 表示蓝队的第 i 个智能体。默认情况下，红队配备本文提出的仿生集群对抗算法，而蓝队则配备其他现有的集群对抗算法。

3.2.1 运动学

智能体 rᵢ 的运动学方程如下：

请注意，一方面，探测射线仅能在最大探测距离 dₘᵥ 内进行检测；另一方面，射线可能被山丘遮挡。对于智能体 rᵢ，其在时间 t 可获取以下信息：

时间 t 时红队所有幸存智能体的位置。
属于集合 Nᵣᵢ(t) 的蓝队所有幸存智能体的位置。

蓝队智能体的信息获取方法与此相同。

3.2.3 攻击与伤害

3.3 对抗胜负判定

对抗开始时，红队与蓝队分别位于地图的对角位置。在时间限制 tₘ 内，率先消灭对方全部智能体的一方被判为获胜。若在 tₘ 时间内所有智能体均被摧毁，或双方均未在 tₘ 内获胜，则判定为平局。

3.4 算法性能指标

为评估算法性能，本文考虑三个算法性能指标：胜率、平均智能体数量损耗率及平均智能体生命值损耗率，具体定义如下。考虑红队与蓝队之间进行的一系列 M 场对抗比赛。对于红队，令 Mʷʳ 表示红队获胜的比赛场数，Hˢʳ 表示红队全体成员的初始总生命值。对于 k = 1, ..., Mʷʳ，定义 nᵏʳ 和 hˢᵏʳ 分别表示红队在第 k 场获胜比赛中损失的智能体数量与损失的总生命值。则红队算法的性能指标定义如下：

胜率 Wʳ：

仿生集群对抗算法设计

基于仿生算法，智能体在集群对抗过程中需主要解决两个关键问题：攻击目标的选择与对抗过程中的运动决策。本章首先分析动物群体行为，归纳相应对抗策略，进而将这些策略与实际对抗场景相结合，实现算法落地。

4.1 仿生规则

我们采用以下分析来解决各智能体在对抗过程中目标选择的问题。如图4所示，一群野狗发现一群角马后迅速逼近，试图驱散其队形；角马起初聚集成群以抵御捕食者，但很快受惊开始逃散，野狗则紧追不舍。在追逐过程中，一只体型较小、脱离群体的个体凸显出来，随即成为野狗关注的焦点；整个狼群随即集中力量，对这只脆弱的角马发起围攻。

对于野狗而言，每个个体体型较小、力量较弱，难以单独对抗角马。当角马聚集在一起时，野狗很难对其造成伤害。因此，一旦角马群中出现孤立个体，野狗会迅速转移目标，形成“以多打少”的局面，从而高效完成捕猎。借鉴野狗群的协同狩猎行为，在山地地形对抗中，智能体可根据对手位置动态切换攻击目标：若某对手远离其群体，则优先将其锁定为攻击目标。该策略可制造局部数量优势，使智能体快速消灭目标。我们将此行为称为集火打击策略。

高效的对抗算法必须在对抗过程中审慎选择目标，并根据局势实时调整运动方向。本节进一步分析动物群体攻击行为。如图5所示，三只狮子抓住时机围攻一头水牛，呈三角形阵型逼近：中间的狮子正面迎击水牛，两侧的狮子则迂回包抄，形成钳形攻势；待完成合围后，狮子群发起总攻并完成捕猎。

如果狮群以正面集群方式攻击，水牛在感知到危险后很可能进行反击或逃跑，这可能导致狮子伤亡或让水牛逃脱。狮群通过从多个方向发起攻击，可显著提升狩猎成功率。在基于智能体的对抗中，若两个或更多智能体锁定同一对手，其中一个智能体可正面牵制对手，其余智能体则从侧翼包抄，高效消灭目标。我们将此行为称为迂回包抄策略。

4.2 集群对抗算法设计

在分析并适配仿生规则后，这些原则需应用于实际的对抗算法中。对抗算法的设计主要分为三部分：目标选择、运动规划与自动瞄准。以下以红队智能体 rᵢ 为例，详细说明这三个组件的设计。

4.2.1 目标选择

受自然界野狗捕猎行为启发，目标选择算法采用集火打击策略。定义 dʳⁱᵣₖ(t) = || pʳⁱ(t) − pʳᵏ(t) ||。令 nᵇᵃʳⁱ(t) 表示智能体 rᵢ 可探测到的幸存对手数量，pᶜᵇʳⁱ(t) 表示这些对手的中心位置。令 Iˣʳⁱ(t) 表示距离 rᵢ 第 x 近的幸存对手的标签，Tʳⁱ(t) 表示 rᵢ 所选攻击目标的标签。令 cₜ 为正整数，df 为正实数。目标选择算法由算法1描述。

根据算法1，nᵇᵃʳⁱ(t) 和 pᶜᵇʳⁱ(t) 作为输入参数，而 Tʳⁱ(t) 作为输出参数。目标选择算法遵循一个多层级决策过程：首先，在获得 Iˣʳⁱ(t) 后，rᵢ 评估其可见对手的空间分布；若 b₁ 与可见对手中心之间的距离超过 df，则认为 b₁ 已偏离其团队阵型，rᵢ 将优先攻击 b₁。

其次，如算法1第10至27步所示，这些步骤涉及一个迭代计算过程，其中 cₜ 在迭代中起关键作用：若 b₁ 的位置更靠近其自身队伍，rᵢ 将根据其与 b₁ 的接近程度确定其在队伍中的相对排名；若 rᵢ 的排名超出 cₜ，则必须重新计算 Iˣʳⁱ(t) 并重复该过程，直至其排名落入 cₜ 范围内。此设计有助于防止红方智能体过度集中攻击同一目标，从而减少资源浪费。

最后，若 rᵢ 视野内没有任何对手满足上述条件，则选择最近的对手作为攻击目标，记为 I¹ʳⁱ(t)。如上所述，该算法不仅可避免过多智能体攻击同一目标（从而减少弹药不必要的集中发射），还能制造局部数量优势。这体现了本文所提出的集火打击策略，算法流程图见图6。

4.2.2 运动规划

将生物群体的竞争行为融入智能体的对抗过程，主要涉及对其轨迹的规划。鉴于地形呈起伏状且无复杂障碍物，我们采用人工势场法实现智能体的路径规划。考虑到智能体还需规避环境中队友所构成的障碍，其运动方向可分解为两个向量之和。

（1）考虑在无障碍环境下 rᵢ 的运动规划。当 Tʳⁱ(t) = null 时，rᵢ 选择最近的山顶点 pᵐʳⁱ(t) 作为其移动目标，以辅助搜索对手；反之，当 Tʳⁱ(t) ≠ null 时，rᵢ 选择根据算法1分配的目标对手 Tʳⁱ 所对应的位置 pᵇᵀʳⁱ(t) 作为其移动目标。此处，pᵇᵀʳⁱ(t) 表示被标记为 Tʳⁱ 的对手的位置。朝向目标的运动方向定义如下：

在狩猎过程中，狮群通常会从多个方向攻击猎物。前方的狮子常佯攻以分散猎物注意力，而侧翼的狮子则伺机发起致命一击。受此行为启发，智能体可在对抗中通过设定不同的运动方向，采用迂回包抄策略。

以下部分介绍确定 rᵢ 在团队内相对位置的方法。令 ρʳⁱ(t) 表示与 rᵢ 共享同一对手的友方团队中，rᵢ 的相对位置：当 ρʳⁱ(t) = 0 时，rᵢ 位于中间；当 ρʳⁱ(t) = 1 时，rᵢ 位于左侧；当 ρʳⁱ(t) = -1 时，rᵢ 位于右侧。获取 ρʳⁱ(t) 的方法如下：

其中，pᶜʳⁱ(t) 表示在共享同一攻击目标的智能体群中，距离 pᵇᵀʳⁱ(t) 最近的智能体的位置。同时，dʳⁱ(t) 表示 rᵢ 在团队内的投影偏移量，ε₁ 是用于确定位置区间范围的参考值，lz 表示沿 z 轴的单位方向向量。在无障碍环境中，rᵢ 的实际运动方向 Gʳⁱ(t) 通过将 ρʳⁱ(t) 乘以旋转角 θₛ，并将所得旋转矩阵作用于 Gₒʳⁱ(t) 得到；当 Tʳⁱ(t) = null 时，Gʳⁱ(t) 直接等同于 Gₒʳⁱ(t)。

（2）计算队友 pʳᵏ(t) 与 pʳⁱ(t) 之间在避障范围 dₐ 内的向量 Xᵏʳⁱ(t)。由于距离更近的队友需要更强的避障力，因此该向量应相应放大。为此，有必要对该向量进行归一化并施加权重。本算法选择 1/dᵏʳⁱ(t) 作为每个向量的权重，最终所有向量之和记为 Xʳⁱ(t)，即：

其中，k₁ 和 k₂ 表示分配给各向量的权重系数。

令 tᶜʳⁱ 表示 rᵢ 自上次发射炮弹以来所经过的时间。dᵇᶜ₁ 表示 rᵢ 执行后撤式包抄策略的最大距离阈值，而 dᵇᶜ₂ 表示 rᵢ 执行侧翼机动的最小距离阈值。

在推进过程中，以及当 tᶜʳⁱ < tcₘ 时执行侧翼后撤的最小后退距离。dₐ 表示用于规避队友的距离。θᶠʳⁱ(t) 表示 Fʳⁱ(t) 的航向角。ε¹ʳⁱ(t) 和 ε²ʳⁱ(t) 分别表示当前运动方向与最终目标方向在顺时针和逆时针方向上的偏差角。详细实现见算法2。

根据算法2，当 rᵢ 检测到对手时，首先计算 Gₒʳⁱ(t)，然后确定其在共享同一攻击目标的队友中的相对位置 ρʳⁱ(t)。基于 ρʳⁱ(t)，rᵢ 调整 Gₒʳⁱ(t) 的方向：若 rᵢ 位于编队右侧，则 Gₒʳⁱ(t) 顺时针旋转 θₛ 度；若位于左侧，则逆时针旋转 θₛ 度；若 rᵢ 处于编队中央，其运动方向保持不变。

在仅有两个红方智能体共享同一攻击目标的情形下，只需确定距离目标更远的那个智能体的相对位置，并为其分配合适的运动方向即可。

当 rᵢ 与攻击目标的距离小于 dᵇᶜ₁，或其射击冷却时间处于激活状态且距离目标小于 dᵇᶜ₂ 时，其运动方向被设定为后撤。

基于上述步骤，智能体可被分配至正面直接对抗或侧翼机动，从而实现从多个角度攻击对手。该方法被称为迂回包抄策略。此策略的关键步骤详见算法2的第6至10步。由此，Gʳⁱ(t) 得以确定。随后，结合避障向量 Xʳⁱ(t)，得到最终运动方向 Fʳⁱ(t)。该算法对应的流程图如图7所示。

4.2.3 自动瞄准算法

以下以 rᵢ 为例，介绍在确定攻击目标 Tʳⁱ(t) 后，旋转模块与仰角单元的运动过程。当识别出目标 Tʳⁱ(t) 后，rᵢ 根据目标与其自身位置之间的相对角度，调整 θʳⁱ(t) 和 σʳⁱ(t)，从而实现对目标的瞄准。

当 rᵢ 计算出从自身指向对手的向量 uₒʳⁱ(t) 后，它接着计算该向量 uₒʳⁱ(t) 与旋转模块方向向量 uᵗᵘʳʳⁱ(t) 在 XOY 平面上的夹角 θᵗᵘʳʳⁱ(t)，并左右旋转旋转模块，使 θᵗᵘʳʳⁱ(t) 趋近于 0。

此外，rᵢ 还会计算 uₒʳⁱ(t) 与仰角单元单位方向向量 uᵇᵃʳʳⁱ(t) 之间的夹角 θᵇᵃʳʳⁱ(t)，同时上下旋转仰角单元，使 θᵇᵃʳʳⁱ(t) 趋近于 0。ε₂ 表示目标角度与实际角度之间的偏差范围。fᵃʳⁱ(t) 是一个标志位，用于指示 rᵢ 是否正在主动瞄准对手。具体实现过程如算法3所示。

4.2.4 仿生集群对抗算法

对抗开始时，各智能体首先利用算法1确定其攻击目标；随后，通过算法2计算其实际运动方向；最后，执行算法3以精确对准目标。在运动过程中，智能体持续评估是否满足开火条件，并在适当时机发起攻击。若所有对手均被消灭，则对抗结束；否则，重新执行算法1–3，对策略进行动态重计算。

通过整合上述讨论的算法设计，最终建立了仿生集群对抗算法的伪代码与流程图，并分别在算法4和图8中呈现。分别表示红队与蓝队在时刻 t 的幸存智能体总数。此外，整个过程在时间步 t 内按顺序依次执行。

4.3 算法复杂度分析
本文提出的仿生对抗算法主要由三个部分组成：目标选择、运动规划与自动瞄准。其中，自动瞄准算法的计算复杂度为 O(1)，其余各部分的复杂度如下：

1）目标选择：计算距离智能体最近的对手，其复杂度为 O(N)；基于局部原则重新计算对手的复杂度为 O(mN)，其中 m 表示所需重计算的次数，m ∈ [1, N]；计算智能体视野内对手的质心，其复杂度为 O(N)。

（2）运动规划：确定智能体相对于同一对手群体的位置，其复杂度为 O(N)；计算用于队友避障的合成向量，其复杂度也为 O(N)；同理，计算用于对手避障的合成向量，其复杂度同样为 O(N)。

整体算法复杂度为 O(N)（最佳情况）至 O(N²)（最坏情况）。

结果分析

为评估本文所提集群对抗算法的有效性，需在当前环境中引入并适配对比算法。所选对比算法包括：基于仿生动作空间的多智能体强化学习算法［15］、基于共识的拍卖（CBA）算法［25］以及最近分配（AN）算法［26］。

5.1 单场对抗结果分析

为更直观地展示智能体在对抗过程中所采用的仿生算法，本文选用 AN 算法作为对手，并选取 10 对 10 的对抗规模进行详细过程分析。事件序列如图9所示。

在图9d中，蓝方智能体 b₈ 在对抗过程中脱离其队伍，促使红方智能体 r₄、r₇ 和 r₈ 优先对其发起协同攻击。该过程体现了仿生方法中所采用的集火打击策略。类似地，在图9e中，蓝方智能体 b₇ 也被孤立，导致红方智能体 r₅、r₉ 和 r₁₀ 根据相同的集火攻击策略将其作为目标。

在图9a、b中，由于不了解对手位置，红方队伍分散阵型，为从多个方向发起攻击做准备。在图9c–f中，处于不同位置的红方智能体展现出不同的后撤方向，形成正面牵制与侧翼包抄的机动组合。此外，红方智能体主动移动以包抄对手，如图9c、d中的智能体 r₅ 和 r₁₀，以及图9d、e中的智能体 r₄ 和 r₈ 所示。这些来自不同方向的协同攻击展示了迂回包抄策略。

5.2. 不同场景下结果分析

5.2.1. 在不同算法参数下的结果分析

5.2.2 不同对抗规模下的结果分析

不同对抗规模下的结果如图11所示。从不同规模的对抗结果可见，规模越大，算法胜率越高，这一趋势在对手为AN时尤为明显。在5对5场景中，队伍总生命值相对较低，参与侧翼包抄和局部集火打击的智能体数量也较少；因此，即使形成包抄阵型，若一侧智能体正面遭遇对手且处于劣势，可能迅速被消灭，导致整个迂回包抄策略崩溃，此时胜率仅为0.81。然而，随着规模扩大，仿生策略可构建更完整的队形：每方智能体数量增加，容错空间更大，火力点更多，能更快消灭目标。在20对20规模下，胜率持续稳定超过95%。

该算法的各项指标也随对抗规模变化而变化。面对AN和CBAA算法时，随着对抗规模扩大，本算法的指标表现有所提升。这两种算法均基于目标选择机制，因此本文提出的迂回包抄策略效果显著。对抗规模增大后，攻击位置增多，稀释了对手的进攻强度，从而加速对手淘汰并减轻己方队伍损失。从5对5到20对20，ζᵣ 和 λᵣ 均下降超过10倍。然而，面对RL算法时，从5对5到20对20，ζᵣ 和 λᵣ 反而上升超过30%。这是因为RL算法默认优先锁定最近的对手，一旦选定目标，使用RL的智能体倾向于激进冲锋。假设配备BIO算法的智能体未能及时形成合理阵型，将导致集群聚集，增加智能体与生命值损耗，从而降低算法整体性能。

5.2.3 不同地图下的结果分析

除当前对抗地图外，我们还在另一张地图上进行了测试。与前一张地图相比，新地图坡度更缓，具体地形如图12所示。此外，在另一张地图中引入了一种额外的对比算法——基于进化算法的攻击（EABA）策略［16］。对抗规模为10对10，dᵇᶜ₁ = 100米，dᵇᶜ₂ = 500米。对抗结果如图13所示。

从结果可以看出，本文算法的胜率始终保持在90%以上。面对AN和CBAA对手时，ζᵣ 和 λᵣ 均略有上升。例如，在对抗AN时，ζᵣ 从0.46升至0.61，λᵣ 从0.61升至0.73。由于地形更平坦，炮弹在飞行中被地面阻挡的概率降低，这增加了红方智能体在展开形成包抄阵型时被对手炮弹命中的可能性，从而导致己方损失增加。相反，面对RL对手时，ζᵣ 和 λᵣ 均略有下降，这可归因于RL模型对新地图的适应性较弱，导致其对抗表现下降。在对抗EABA算法时，本文方法取得更低的 wᵣ，但性能指标 ζᵣ 和 λᵣ 均出现明显上升。这一现象主要源于更平坦的地形——它提高了获取对手位置信息的可能性；借助增强的视野，EABA算法可通过迭代优化更好地发挥其适应度函数，从而强化其对抗能力，对本文算法的性能产生负面影响。综上所述，本文算法在新对抗地图上仍保持高胜率，并在 ζᵣ 和 λᵣ 指标上优于对手，充分展现了该算法在不同环境中的优势。

结论

从电子游戏场景的视角出发，本文探索了一种面向复杂山地地形的集群对抗算法。构建了一个高度动态的山地对抗环境，其中红蓝双方智能体集群数量相等、能力相同，且每个智能体的运动均受运动学约束限制。借鉴自然界中野狗群与狮群的捕猎对抗行为，本文提出了两种关键策略：用于目标选择的“集火打击策略”和用于运动规划的“迂回包抄策略”。前者通过聚合智能体行为朝向共同目标，提升局部表现；后者则通过协同移动与布阵，提升整体对抗效率。为全面评估该算法性能，本文将其与三种现有对抗算法进行基准对比。共进行了100次对抗测试，涵盖不同算法参数、对抗规模及环境条件。实验结果表明，所提算法在对抗基线算法时胜率超过80%，同时保持更低的平均智能体损失率与平均生命值损耗率。综上，这种仿生对抗算法不仅提供了一种直接且实用的解决方案，还在基于集群的对抗任务中展现出卓越性能。

对于未来工作，我们建议深入探索在信息受限环境中对手搜索机制，以增强算法在能见度有限条件下的对抗能力。此外，考察通信约束（如延迟与丢包）对集群协同与整体性能的影响将是至关重要的。开发鲁棒算法以应对这些挑战，将成为未来研究的重点方向。

原文链接：https://www.mdpi.com/2313-7673/10/5/257

特别声明：以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布，本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.