鲁棒多智能体强化学习的Wolfpack对抗攻击|算法|鲁棒性

分享至

Wolfpack Adversarial Attack for Robust Multi-Agent Reinforcement Learning

鲁棒多智能体强化学习的Wolfpack对抗攻击

https://arxiv.org/pdf/2502.02844

摘要：

传统的多智能体强化学习（MARL）鲁棒方法在面对合作场景中的协同对抗攻击时，往往表现不佳。为解决这一局限性，我们提出了一种受狼群捕猎策略启发的“狼群对抗攻击”（Wolfpack Adversarial Attack）框架，该框架通过针对初始智能体及其协助智能体，破坏智能体间的协作。此外，我们还提出了“狼群对抗学习用于多智能体强化学习”（WALL）框架，该框架通过促进系统范围内的协作，训练出能够抵御所提出的狼群攻击的鲁棒MARL策略。实验结果凸显了狼群攻击的巨大破坏性，以及WALL在提升鲁棒性方面的显著成效。我们的代码可在 https://github.com/sunwoolee0504/WALL 获取。

1. 引言

多智能体强化学习（MARL）因其在解决需要智能体协作（Oroojlooy & Hajinezhad, 2023）与竞争的复杂问题方面的潜力而受到广泛关注，例如无人机控制（Yun et al., 2022）、自主导航（Chen et al., 2023）、机器人技术（Orr & Dutta, 2023）以及能源管理（Jendoubi & Bouffard, 2023）。为了应对部分可观测环境，集中训练与分散执行（CTDE）框架（Oliehoek et al., 2008）被广泛采用，该框架在中心化地训练一个全局价值函数的同时，各智能体根据局部观测信息独立执行策略。CTDE中的典型信用分配方法包括价值分解网络（VDN）（Sunehag et al., 2017）、QMIX（Rashid et al., 2020），后者满足个体-全局最优（IGM）条件，确保最优联合动作与全局及个体价值函数的正梯度方向一致，以及QPLEX（Wang et al., 2020b），其将IGM条件编码进网络结构中。然而，CTDE方法面临探索效率低下（Mahajan et al., 2019; Jo et al., 2024）以及训练与部署环境之间不匹配的挑战，这可能导致智能体出现意外行为并导致性能下降（Moos et al., 2022; Guo et al., 2022）。因此，提升CTDE方法的鲁棒性仍是当前研究的关键重点。

为增强学习的鲁棒性，单智能体强化学习（RL）方法已探索了基于博弈论（Yu et al., 2021）的策略，例如极大极小（max-min）方法和对抗学习（Goodfellow et al., 2014; Huang et al., 2017; Pattanaik et al., 2017; Pinto et al., 2017）。在多智能体系统中，智能体之间的同步交互引入了额外的不确定性（Zhang et al., 2021b）。为应对这一问题，研究者提出了多种方法，如扰动局部观测（Lin et al., 2020）、使用对抗策略训练以达到纳什均衡（Li et al., 2023a）、对抗性价值分解（Phan et al., 2021）以及攻击智能体间的通信（Xue et al., 2021）。然而，这些方法通常每次攻击仅针对单个智能体，忽略了合作型MARL中智能体之间的相互依赖关系，因此在多个智能体同时遭受攻击的场景下显得尤为脆弱。

为应对MARL中协同对抗攻击所带来的脆弱性问题，我们提出了一种受狼群捕猎策略启发的“狼群对抗攻击”（Wolfpack Adversarial Attack）框架。该方法通过首先攻击一个目标智能体，随后进一步攻击协助该初始目标的其他智能体群体，从而破坏智能体之间的协作，造成更严重的破坏性影响。实验结果表明，传统的鲁棒MARL方法对此类协同攻击极为敏感，凸显了开发新型防御机制的迫切需求。为此，我们进一步提出了“狼群对抗学习用于多智能体强化学习”（WALL，Wolfpack-Adversarial Learning for MARL）框架，这是一种专门设计用于抵御狼群对抗攻击的鲁棒策略训练方法。通过促进系统范围内的协作，并避免对特定智能体子集的依赖，WALL使智能体能够有效抵御协同攻击。实验评估表明，与现有方法相比，WALL在保持高性能的同时，显著提升了在多种对抗攻击场景下的鲁棒性。

本文在构建狼群对抗攻击方面的核心贡献总结如下：

• 提出了一种新颖的MARL攻击策略——狼群对抗攻击，通过同时攻击多个智能体，促使策略训练过程中形成更强且更具韧性的智能体协作。

• 提出了后续智能体群体选择方法，用于识别在初始攻击后行为发生显著调整的协助智能体，从而实现后续的序列化攻击，并放大整体攻击影响。

• 提出了一种基于规划器的攻击步选择器，可预测攻击所导致的未来Q值下降，从而选择关键时间步进行攻击，以最大化攻击影响并提升学习的鲁棒性。

2. 相关工作

鲁棒多智能体强化学习（Robust MARL）策略：近年来，研究者致力于鲁棒MARL方法，以应对多智能体环境中出现的意外变化。极大极小优化（Max-min optimization）（Chinchuluun et al., 2008; Han & Sung, 2021）已被应用于传统MARL算法中，以实现鲁棒学习（Li et al., 2019; Wang et al., 2022）。研究者重新定义了鲁棒纳什均衡，使其更适用于多智能体系统（Zhang et al., 2020b; Li et al., 2023a）。此外，基于正则化的方法也被探索用于提升MARL的鲁棒性（Lin et al., 2020; Li et al., 2023b; Wang et al., 2023; Bukharin et al., 2024），同时结合分布强化学习方法来应对不确定性（Li et al., 2020; Xu et al., 2021; Du et al., 2024; Geng et al., 2024）。

用于增强鲁棒性的对抗攻击方法：为增强强化学习（RL）的鲁棒性，大量研究探索了对抗学习，以在最坏情况场景下训练策略（Pattanaik et al., 2017; Tessler et al., 2019; Pinto et al., 2017; Chae et al., 2022）。这些对抗攻击会对马尔可夫决策过程（MDP）的多个组成部分引入扰动，包括状态（Zhang et al., 2020a; 2021a; Everett et al., 2021; Li et al., 2023c; Qiaoben et al., 2024）、动作（Tan et al., 2020; Lee et al., 2021; Liu et al., 2024）和奖励（Wang et al., 2020a; Zhang et al., 2020c; Rakhsha et al., 2021; Xu et al., 2022; Cai et al., 2023; Bouhaddi & Adi, 2023; Xu et al., 2024; Bouhaddi & Adi, 2024）。近年来，对抗攻击也被扩展到多智能体场景中，对状态或观测值（Han et al., 2022; He et al., 2023; Zhang et al., 2023; Zhou et al., 2023）、动作（Yuan et al., 2023）和奖励（Kardes ̧ et al., 2011）引入不确定性。进一步的研究将对抗攻击应用于价值分解框架（Phan et al., 2021），选择关键智能体进行针对性攻击（Yuan et al., 2023; Zhou et al., 2024），并分析其对智能体间通信的影响（Xue et al., 2021; Tu et al., 2021; Sun et al., 2023; Yuan et al., 2024）。

基于模型的鲁棒强化学习框架：为提升强化学习的鲁棒性，基于模型的方法已被广泛研究（Berkenkamp et al., 2017; Panaganti & Kalathil, 2021; Curi et al., 2021; Clavier et al., 2023; Shi & Chi, 2024; Ramesh et al., 2024），包括对抗性扩展方法（Wang et al., 2020c; Kobayashi, 2024）。研究者利用状态转移模型来增强鲁棒性（Mankowitz et al., 2019; Ye et al., 2024; Herremans et al., 2024），并探索了在离线设置下进行鲁棒训练的方法（Rigter et al., 2022; Bhardwaj et al., 2024）。在多智能体系统中，基于模型的方法用于应对构建最坏情况集合（Shi et al., 2024）和管理转移核不确定性（He et al., 2022）等挑战。

2. 背景

3.1. Dec-POMDP 和基于价值的 CTDE 设置

3.2. 带对抗攻击策略的鲁棒 MARL

4. 方法论

4.1 狼群攻击策略的动机

现有的对抗攻击者通常每次攻击仅针对单个智能体，且连续攻击之间缺乏协调或关联。在合作型多智能体强化学习（MARL）环境中，这种简单的攻击方式使得未被攻击的智能体能够学习到有效的策略来应对攻击。然而，我们观察到，在此类条件下训练出的策略在面对协同攻击时表现出明显的脆弱性。如图1(a)所示，在时间t，某一个智能体受到攻击。在图1(b)中，在下一步t+1时，响应的智能体会调整自身行为，例如进行治疗或移动至防御位置，以保护最初被攻击的智能体。相比之下，图1(c)展示了一种协同攻击策略，该策略专门针对那些对初始攻击做出响应的智能体进行二次攻击。这种协同攻击使得已学习的策略失效，无法完全抵御攻击。这表明，相较于现有攻击方法，协同攻击的危害性要大得多，而当前的鲁棒策略难以有效防御此类攻击。

如图1(c)所示，攻击那些对初始攻击做出响应的智能体，正是“狼群攻击”（Wolfpack attack）策略的核心思想，这一战术在传统军事行动中被广泛应用，如第1节所述。为了将这一概念应用于合作型多智能体环境，我们定义“狼群对抗攻击”为一种协同攻击策略：首先攻击一个智能体，随后在后续步骤中，针对那些为应对初始攻击而采取响应行动的“后续智能体群体”进行攻击，如图1(c)所示。通过采用这一方法，我们旨在训练出能够有效抵御狼群对抗攻击的鲁棒策略，从而显著提升整个学习过程的韧性。

4.2 狼群对抗攻击

4.3. 后续攻击智能体群体选择方法

通过所提出的方法，后续智能体群体被识别为在初始攻击后其策略分布发生最显著变化的智能体。图2展示了这一过程。在初始攻击发生后，计算其余智能体1、2、3的Q值差异，并选择个体价值函数变化最大的智能体作为后续智能体群体。这些智能体将在接下来的tWP个时间步内被持续攻击，以阻止它们有效做出响应。在第5节中，我们通过将该方法与仅基于观测距离的简单选择方法进行比较，分析了该方法如何提升攻击的关键性和有效性。

4.4 基于规划器的关键攻击步选择

4.5 WALL：一种鲁棒的多智能体强化学习算法
与其他鲁棒MARL方法类似，我们提出了“狼群对抗学习用于多智能体强化学习”（WALL，Wolfpack-Adversarial Learning for MARL）框架，这是一种旨在抵御狼群攻击的鲁棒策略，通过在带有狼群攻击者 πWP_adv 的LPA-Dec-POMDP ̃M上进行多智能体强化学习来实现。尽管所提出的狼群框架可广泛适用于大多数CTDE算法，但我们主要将其应用于几种著名的基于价值的CTDE方法，包括QMIX（Rashid et al., 2020）、VDN（Sunehag et al., 2017）和QPLEX（Wang et al., 2020b）。有关规划器Transformer和价值函数的损失函数等详细实现，参见附录B.2。所提出的WALL框架如图5所示，并在算法1中进行了总结。

5. 实验

在本节中，我们在多智能体强化学习（MARL）研究的两个标准基准上评估了所提出的方法：多智能体粒子环境（MPE）（Lowe et al., 2017）和星际争霸II多智能体挑战环境（SMAC）（Samvelyan et al., 2019），如图6所示。具体而言，我们进行了以下比较：（1）所提出的狼群对抗攻击与其他对抗攻击方法的影响对比；（2）WALL框架在抵御此类攻击方面的鲁棒性与其他鲁棒MARL方法的对比。此外，还通过消融实验分析了所提出组件和超参数对鲁棒性的影响。所有结果均基于5个随机种子的平均值和标准差报告（图中以阴影区域表示，表中以±数值表示）。我们的代码可在 https://github.com/sunwoolee0504/WALL 获取。

5.1 环境设置

MPE（多智能体粒子环境）提供了一个多智能体交互的场景，智能体通过简单的物理动力学进行互动。我们在三种捕食者-猎物（PP）场景中进行实验，这些场景的智能体与目标数量之比各不相同：PP 3/1、PP 6/2 和 PP 9/3。在这些任务中，多个捕食者智能体必须协同合作，以捕捉一个或多个采取对抗性移动的猎物智能体。SMAC（星际争霸II多智能体挑战）环境则是一个具有挑战性的基准，要求智能体有效协作以击败对手。我们在六个场景中评估所提出的方法：2s3z、3m、3s vs 3z、8m、MMM 和 1c3s5z。我们对后续攻击智能体数量 m、狼群攻击总次数 KWP 以及攻击持续时间 tWP 进行了参数搜索，并采用最优参数设置进行对比。为确保符合现实约束，我们将 m 设置为 m < ⌊(n−1)/2⌋，其中 n 为友方单位的最大数量。有关环境设置和实验配置的详细信息（包括超参数设置），请参见附录 A 和 C。所有MARL方法均在QMIX基线上进行评估，其他CTDE基线的对比结果见附录E.1。

对抗攻击者基线：为比较不同攻击的严重程度，我们考虑以下四种场景：

Natural：表示不执行任何攻击的情况；
Random Attack：随机选择时间步、智能体和动作来执行攻击；
EGA（Evolutionary Generation of Attackers）
（Yuan et al., 2023）：结合来自不同随机种子生成的多个单智能体针对性攻击者（如第3节所述）；
所提出的狼群对抗攻击
（Wolfpack Adversarial Attack）。为实现公平比较，所有对抗攻击者均在独立的随机种子上训练，以执行未见过的攻击。

鲁棒MARL基线：为比较不同攻击基线的严重程度以及在对抗攻击场景下训练出的策略的鲁棒性，我们在以下攻击条件下评估QMIX训练的策略：

Vanilla QMIX：假设无对抗攻击；
RANDOM：使用随机攻击；
RARL（Pinto et al., 2017）：对抗攻击者根据当前学习到的策略定制攻击；
RAP（Vinitsky et al., 2020）：RARL的扩展，通过均匀采样攻击者以防止过拟合并引入多样性；
ROMANCE（Yuan et al., 2023）：RAP的进一步扩展，用于抵御多种EGA攻击；
ERNIE（Bukharin et al., 2024）：通过在观测和动作上引入对抗性正则化来增强鲁棒性；
所提出的WALL。所有鲁棒MARL方法均遵循原作者提供的方法和参数设置。有关MARL基线的更多细节见附录D。所有策略均训练300万时间步，且均从一个已预训练100万时间步的Vanilla QMIX模型开始训练。

5.2 MPE 和 SMAC 中的性能对比

表1展示了在MPE环境中，不同攻击设置下最后100个回合的平均累积奖励。结果表明，所提出的狼群对抗攻击比现有方法（如EGA和随机攻击）具有显著更强的破坏性。例如，对于Vanilla QMIX策略，在三种捕食者-猎物场景中，采用所提出的狼群攻击时，平均累积奖励从455.4下降至367.6，降幅为87.8；而在EGA攻击下仅下降42.6（455.4 − 412.8），在随机攻击下仅下降9.5（455.4 − 445.9）。这些结果表明，狼群攻击对策略性能造成了更为严重的退化。相比之下，所提出的WALL框架在所有攻击类型下均持续取得最佳性能。值得注意的是，在MPE场景中，WALL不仅在对抗攻击下优于所有基线方法，即使在无攻击的自然环境下也表现更优，显示出其策略本身具有更高的质量，即使在没有外部威胁时也具备优势。

对于SMAC环境，表2展示了在不同攻击基线下，MARL策略在最后100个回合中的平均胜率。结果表明，所提出的狼群对抗攻击显著强于现有的EGA和随机攻击等方法。例如，与自然场景相比，EGA使Vanilla QMIX的性能下降了98.7 − 69.6 = 29.1%，随机攻击使其下降了99.3 − 76.9 = 22.4%。而狼群攻击则使Vanilla QMIX的性能下降了98.7 − 39.4 = 59.3%，使RANDOM策略的性能下降了99.3 − 63.5 = 35.8%，显示出更强的攻击效果。此外，所提出的WALL框架在训练时旨在抵御狼群攻击，在所有攻击类型下均优于其他鲁棒MARL方法，展现出卓越的鲁棒性。值得注意的是，尽管RANDOM是专门针对随机攻击训练的，ROMANCE是专门针对EGA攻击训练的，但WALL在这两种攻击下仍表现出更优的性能。这些结果突显了WALL在多种对抗场景下实现鲁棒学习的有效性。

图7进一步展示了在8m和MMM环境中，在未见过的狼群对抗攻击下的各策略在训练过程中的平均胜率，这两个环境中的性能差异最为明显。结果表明，WALL不仅具有更高的鲁棒性，而且能更快地适应攻击。在其他CTDE算法（如VDN和QPLEX）上也观察到了类似的趋势，详见附录E.1，进一步验证了所提出方法的鲁棒性。

为支持更贴近实际的评估，我们在附录E.4和附录E.5中分别评估了计算复杂性和在常见扰动下的通用鲁棒性。WALL的训练成本比ROMANCE高出约30%，但由于其关键时间步选择机制，实现了显著更优的性能。在鲁棒性方面，我们考虑了观测中的高斯噪声以及测试时的参数偏移（如友方单位生命值降低）等扰动，结果显示WALL在这些情况下仍优于现有基线方法。这些结果表明，WALL在计算开销和环境挑战双重条件下均具有实际有效性。

5.3. Wolfpack对抗攻击的可视化
为了分析Wolfpack攻击的优越性能，我们在SMAC环境中提供了其执行过程的可视化。图8展示了一个场景，其中所提出的步骤选择器将t = 6识别为发起攻击的关键初始步骤。在t = 6之前，所有设置均假设遵循相同的轨迹。图8(a)展示了在无攻击的自然场景下，采用Vanilla QMIX的情况，其中我方智能体成功击败所有敌方智能体，取得胜利。图8(b)展示了在Wolfpack对抗攻击下的Vanilla QMIX，攻击在t = 7至t = 9期间针对后续智能体展开。这导致其他智能体无法有效抵御对抗攻击，最终全部被敌方消灭而失败。图8(c)突出展示了采用WALL框架训练的策略。尽管在t = 7至t = 9期间同样的后续智能体受到攻击，但WALL训练未受攻击的智能体进行支援并保护被攻击的智能体，使我方智能体能够消灭敌方智能体并最终获胜。该可视化展示了Wolfpack攻击如何破坏智能体间的协作，以及WALL框架如何有效抵御此类攻击。其他SMAC任务的可视化以及详细的后续智能体选择详见附录G。

5.4. 消融研究

6.1 局限性
尽管所提出的WALL方法显著提升了多智能体强化学习（MARL）的鲁棒性，但仍存在一些局限性。首先是训练Transformer以识别关键步骤所带来的额外计算开销。然而，如我们在分析中所示，这种开销是合理的，因为其他基线方法即使经过更长时间的训练，也无法达到相当的性能。另一个局限性是需要对超参数进行调优以构建Wolfpack攻击。不过，该方法对这些超参数并不高度敏感，且我们提供的消融实验为选择合适的配置提供了实用的指导建议。

7. 结论

本文提出了Wolfpack对抗攻击，这是一种受军事行动中“狼群战术”启发的协同攻击策略，其性能显著优于现有的对抗攻击方法。此外，我们开发了WALL方法，这是一种旨在抵御所提出攻击的鲁棒多智能体强化学习（MARL）方法，在多种SMAC环境中均表现出优越的性能。总体而言，我们的WALL框架增强了MARL算法的鲁棒性。

原文链接： https://arxiv.org/pdf/2502.02844

特别声明：以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布，本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.