自动驾驶中视觉语言模型的黑盒对抗攻击|机器人|鲁棒性|大模型

分享至

Black-Box Adversarial Attack on Vision Language Models for Autonomous Driving

自动驾驶中视觉语言模型的黑盒对抗攻击

https://www.arxiv.org/pdf/2501.13563

摘要

视觉语言模型（VLMs）通过增强推理能力，为自动驾驶（AD）带来了显著进展；然而，这些模型仍然极易受到对抗攻击的影响。尽管现有研究在一定程度上探索了白盒攻击，但更具现实意义且更具挑战性的黑盒场景——即模型结构和参数均未知的情况——由于其固有的难度，仍未得到充分研究。本文中，我们首次尝试设计专门针对自动驾驶中视觉语言模型的黑盒对抗攻击。我们识别出在此背景下实现有效黑盒攻击的两个关键挑战：在自动驾驶系统推理链中的有效性，以及驾驶场景的动态性。为应对这些问题，我们提出了级联对抗破坏（Cascading Adversarial Disruption, CAD）。该方法首先引入“决策链破坏”（Decision Chain Disruption），通过生成并注入具有欺骗性的语义信息，从低层推理层面进行破坏，确保扰动在整个决策链中保持有效性。在此基础上，我们提出“风险场景诱导”（Risky Scene Induction），利用替代VLM来理解和构建高层风险场景，以解决动态适应问题，从而在当前驾驶情境中引发严重错误。我们在多个自动驾驶VLM模型和基准数据集上进行了广泛的实验，结果表明CAD达到了最先进的攻击效果，显著优于现有方法（平均提升+13.43%）。此外，我们通过在基于VLM驱动的自动驾驶车辆上实施真实世界攻击验证了其实际应用性，在此类攻击下，路径完成率下降了61.11%，并且车辆会直接撞向带有对抗补丁的障碍车辆。最后，我们发布了CADA数据集，包含18,808对对抗性的视觉问答样本，以促进该关键领域的进一步评估与研究。我们的代码和数据集将在论文被接收后公开。

1 引言
近年来，视觉语言模型（VLMs）[2, 22, 38, 77] 在图像描述生成、问答和多模态推理等任务中取得了令人印象深刻的性能，促使其迅速发展并在各个领域得到广泛应用，包括自动驾驶（AD）。自动驾驶运行在高度复杂且不断变化的环境中，而VLM所具备的先进多模态推理能力可以作为认知核心，实现高级感知、细致决策和更安全的导航 [42, 44, 45, 47, 54, 55]。

尽管这些模型取得了显著成功，但大量研究已经揭示了VLM在对抗攻击面前的脆弱性 [26–29, 31, 39, 61, 63, 64, 67, 71, 76]，其中微小的视觉扰动就可能导致模型做出错误预测。这种脆弱性引发了重大担忧，尤其是在这些模型被部署于安全性至关重要的自动驾驶场景中 [55, 74]。推理阶段的细微错误可能引发严重故障，例如将需要刹车的情境误判为需要加速 [10, 11]。要应对这些挑战，必须采用系统性的方法来评估驾驶模型的鲁棒性。有效的攻击方法不仅能够揭示潜在漏洞，还能提供一种实用手段，在真实条件下评估并增强模型的抗攻击能力 [17, 18, 25, 30, 34–36, 57, 69, 72, 73]。

在这一领域，现有的有限研究主要集中在白盒攻击 [74] 上，即攻击者对目标模型具有完全的知识；相比之下，更具现实意义且更具挑战性的黑盒攻击则尚未得到充分探索（即攻击者仅拥有有限的模型访问权限）。然而，由于以下两个关键挑战，简单地将现有黑盒攻击方法 [6] 扩展到自动驾驶中的VLM并非易事：
❶ 攻击应能在复杂的驾驶推理链（感知、预测和规划）中有效传播并放大错误，从而对整个系统构成连贯且强烈的威胁。
❷ 攻击应考虑到自动驾驶的动态驾驶环境，确保所诱导的错误能够在特定驾驶情境下危及行车安全。

为了解决上述问题，我们提出了针对VLM自动驾驶系统的黑盒攻击方法——级联对抗破坏（Cascading Adversarial Disruption, CAD）。我们的框架首先引入“决策链破坏”（Decision Chain Disruption），通过生成并注入具有欺骗性的语义信息，从低层推理层面进行破坏，确保扰动在整个决策链中保持有效性。在此基础上，我们提出“风险场景诱导”（Risky Scene Induction），利用替代VLM来理解和构建高层风险场景，以解决动态适应问题，从而在当前驾驶情境中引发严重错误。最后，通过语义差异最大化作为补充增强，并联合优化对抗目标，CAD生成出能引发错误行为的对抗性视觉输入，从而完成一种无目标攻击，削弱VLM自动驾驶系统的安全性与可靠性。

我们在多个自动驾驶视觉语言模型（Dolphins [42]、DriveLM [55]、LMDrive [54]）以及通用视觉语言模型（InstructBlip [9]、LLaVA [38]、MiniGPTv4 [77]、GPT-4o [49]）的开环和闭环环境中进行了广泛的实验，结果显示CAD在平均攻击效果上优于所有基线方法13.43%。此外，我们通过成功对道路上基于适配VLM的自动驾驶车辆实施道路跟随任务攻击，展示了本方法的有效性，攻击导致路径完成率下降了61.11%，并且车辆直接撞向带有对抗补丁的障碍车辆。最后，我们发布了CADA数据集，包含18,808对对抗性的视觉问答样本，以促进未来研究。我们的贡献包括：

• 据我们所知，我们提出了CAD攻击，这是首个专门针对自动驾驶中的视觉语言模型（VLM AD）设计的黑盒对抗攻击方法，其核心基于“风险场景诱导”和“决策链破坏”。

• 我们在多个基准测试中进行了广泛实验，并在基于VLM驱动的真实自动驾驶车辆上验证了攻击效果，证明了我们方法的优越性。

• 我们发布了CADA数据集，包含18,808对对抗性的视觉问答样本，以推动该领域的进一步研究。

2 背景与预备知识

3 威胁模型
3.1 问题定义

3.2 自动驾驶 VLM 攻击的挑战

将为通用 VLM 设计的现有攻击方法直接应用于自动驾驶（AD）领域存在显著局限性。具体而言，我们识别出以下两个主要挑战：

挑战 ❶：攻击在驾驶推理链中的传播过程中应保持有效性 。
大多数自动驾驶解决方案包含一个集感知、预测和规划于一体的推理流程 [5, 19–21, 59]，其中原始传感数据向高层决策的转化是不可避免的。传统的视觉攻击通常仅关注于破坏感知模块，例如诱导分类错误，而未研究这些初始扰动在后续阶段传播时是否仍有效，或是否会因系统的容错能力而被缓解。

为了设计有效的对抗攻击，必须考虑在感知阶段引入的误差如何在整个推理流程中传播和累积。通过针对整个推理流程进行攻击，对抗攻击可以以更持续且一致的方式干扰推理过程，从而对整个系统构成更大的威胁。

挑战 ❷：攻击应适用于自动驾驶中的动态驾驶环境 。与在静态上下文中运行的常见 VLM 任务不同，自动驾驶运行在动态环境中，安全性的判断高度依赖于当前场景的具体上下文条件。例如，如果一名行人突然从右侧进入车道，此时突然的急转弯可能是最优操作。然而，在常规情况下，突然的操作（如急转弯或急刹车）通常被认为是不安全的。因此，针对自动驾驶 VLM 的对抗攻击设计必须考虑支撑安全驾驶行为的上下文动态，而不仅仅是触发孤立的极端行为。攻击应旨在以符合自动驾驶复杂性和情境依赖性的方式破坏决策过程，确保所引发的错误能够在特定上下文中危及驾驶安全。

3.3 对抗目标

3.4 可能的攻击路径

在对自动驾驶 VLM 的对抗攻击中，一个关键问题是：这些攻击在现实世界的自动驾驶场景中是否可行且具有实用性？我们的方法在实际的自动驾驶应用中展现出较强的适用性。

一方面，攻击者可以利用多种手段将噪声注入驾驶过程中传感器所采集的数据。例如，他们可以在传感器上安装干扰设备，直接干扰摄像头所捕获的数据；或者利用黑客技术，将对抗噪声注入系统中部署模型所处理的图像中。

另一方面，物理世界中的攻击也可以通过使用我们提出的目标函数优化对抗噪声或补丁来实现。例如，攻击者可以将对抗补丁粘贴在交通标志牌上 [33]，或将对抗噪声嵌入到路边广告牌中 [50]。

3.5 攻击者的限制与能力

在自动驾驶背景下，我们仅关注黑盒攻击场景，即攻击者无法获取受害模型的任何内部信息（例如架构、梯度或参数）。由于自动驾驶系统具有实时性要求且访问受限，因此对模型进行查询在实际中也不可行；因此，我们的攻击主要依赖于迁移性（transferability）。

此外，攻击者只能对视觉输入进行扰动，例如在数字世界中直接添加噪声（见第5.2节），或在现实世界中通过粘贴补丁或修改物体纹理来改变其外观（见第5.3节）。

4 攻击方法

如图2所示，我们的框架可以生成针对自动驾驶视觉语言模型（AD VLM）的黑盒视觉对抗攻击，该框架由两个级联模块组成：用于低层推理破坏的“决策链破坏”（Decision Chain Disruption）和用于高层动态适应的“危险场景诱导”（Risky Scene Induction）。

4.1 决策链破坏

为应对挑战❶，即强调在驾驶推理链中保持攻击有效性的问题，我们提出了一种专门针对感知-预测-规划（perception-prediction-plan）流程的方法。虽然传统的 VLM 攻击往往无法有效干扰这一推理链条，但我们的方法将对抗噪声与具有连贯但欺骗性语义的低层详细文本相结合，确保在感知阶段引入的干扰能够无缝地在整个推理链中传播。

借助感知-预测-规划推理链在提升当前自动驾驶系统有效性与可靠性方面的重要作用 [5, 19–21, 59]，我们利用对其的破坏手段，生成针对驾驶 VLM 的细致恶意行为。我们首先识别对应任务最终阶段（例如规划 plan）中的错误，然后逆向追溯，推断出可能导致早期阶段出现这些错误的因素，从而构建出符合涉及意外交通行为等真实场景的欺骗性文本。

4.2 危险场景诱导

尽管第 4.1 节有效针对了低层推理的破坏，但它在适应真实驾驶环境的动态复杂性方面存在困难。为应对挑战❷（即自动驾驶中动态驾驶上下文的适应问题），我们的方法旨在操控高层的安全性评估，而非仅仅针对孤立的操作，从而确保攻击与现实世界驾驶情境的复杂性相一致。

通过干扰模型对驾驶场景安全性的感知，我们构建出整体性的危险情境，从而削弱模型基于上下文进行推理的能力。

为实现这一目标，我们利用一组对立描述符 D来表示驾驶场景的安全性。具体来说，我们将驾驶场景的安全性定义为两个互补类别：

“安全驾驶场景”（A safe driving scenario）
“不安全驾驶场景”（An unsafe driving scenario）

这些描述符构成了危险场景诱导的基础。

其中，⊙表示逐元素相乘（element-wise multiplication），用于将掩码应用于对应的概率；mean(⋅)表示计算平均值。

我们从低层视角 生成详细的欺骗性文本以破坏决策链，并从高层视角 诱导一个整体性的危险场景。这两部分共同构成了下一节中优化对抗扰动的基础与目标。

4.3 整体优化

在前述讨论的基础上，本节阐述对抗噪声 δ的整体优化策略。

为进一步完善前两个优化目标，我们引入第三个目标：语义差异最大化 （semantic discrepancy maximization），即最大化干净图像与对抗图像之间的语义差异，从而增强整体攻击效果。

该目标引入的扰动在像素层面可能微小，但在潜在空间中却能引发更显著的偏离。为实现这一目标，我们采用第 4.1 节中相同的视觉编码器 Ev，并与文本编码器对齐，将干净图像和对抗图像映射到对应的视觉特征表示空间。

语义差异通过余弦相似度进行衡量，由此得到如下的优化目标，其形式化为损失函数 Ld，定义如公式 (11) 所示：

其中，α、β和 γ是超参数，用于控制各个损失项在整体优化中的相对权重。

我们采用基于梯度的优化框架 [43] 来迭代优化对抗噪声 δ。每次更新后，我们将噪声投影回允许的扰动预算 ε范围内，从而确保对抗噪声保持微小且难以察觉，同时最小化相关的损失函数。

为进一步提升优化过程，我们引入了动量机制 [12]，以平滑更新路径并降低陷入次优局部极小值的风险。

我们的 CAD 方法的伪算法代码可在附录中找到。

5 实验与评估 5.1 实验设置

目标模型 ：
在我们的实验中，我们评估了三种最先进的开源自动驾驶视觉语言模型（AD VLM），涵盖视觉问答（VQA）和规划控制任务：

Dolphins
[42]：基于 OpenFlamingo [2]，用于驾驶相关的对话；
DriveLM
[55]：基于 LLaMA 的 GVQA 模型，甚至可以进行坐标级识别；
LMDrive
[54]：基于 LLaMA 的代理，在 Carla 模拟器 [13] 中实现闭环控制。

此外，我们也评估了几种通用 VLM 在 AD 任务中的鲁棒性，包括：

InstructBlip [9]
LLaVA [38]
MiniGPTv4 [77]
GPT-4o [49]

数据集 ：
我们分别在各自基准测试上评估这三个专为驾驶设计的模型：

Dolphins Benchmark [42] 和 DriveLM-NuScenes [55] 主要由问答数据组成；
对于 LMDrive，我们在 LangAuto Benchmark-short [54] 上评估其闭环驾驶控制性能；
对于通用 VLM，我们将它们适配到成熟的 Dolphins Benchmark 进行鲁棒性评估。

评估指标 ：

对于 Dolphins Benchmark ，我们采用其原始评估指标 [42]：最终得分为六个任务类别的平均得分，每个任务通过以下三个指标评估：准确率（Accuracy）、语言评分（Language Score）和 GPT 评分（GPT Score）。
对于 DriveLM ，我们扩展了文献 [55] 中使用的评估指标。原始方法使用四种不同问题类型的指标：准确率（Accuracy）、ChatGPT 评分（ChatGPT Score）、匹配评分（Match Score）和语言评分（Language Score）。为了更全面地评估，我们还引入了针对使用语言评分的数据子集的 GPT 评分（表示为 Lan2GPT）。最终评估基于所有五个指标的平均值。
对于 LMDrive ，我们采用 CARLA Leaderboard [58] 提出的三个关键指标：
- 路线完成率（Route Completion, RC）
- 违规分数（Infraction Score, IS）
- 驾驶评分（Driving Score, DS）

对于这些指标，数值越低（↓）表示攻击效果越好。

有关这些指标的更多细节请参见附录。

对比攻击方法 ：
由于目前尚无专门针对自动驾驶 VLM 的黑盒攻击方法，我们采用了几种通用对抗攻击方法作为对比基线：

选择三种经典的对抗攻击方法：
- 基于梯度的 FGSM [15] 和 PGD [43] 攻击（利用模型迁移技术进行黑盒攻击）
- 基于查询的 ZOO [6]（结合 Adam 和 Newton 优化方法）
此外，我们还考虑了三种有效的针对通用 VLM 视觉模态的黑盒攻击方法：
- AdvClip [76]
- AttackVLM [75]
- AnyAttack [70]

以及两种针对双模态的攻击方法：

SGA [41]
VLPAttack [14]

为了保持一致性，我们仅使用这两种方法生成视觉输入上的噪声。

我们还与唯一一种面向 AD VLM 的白盒攻击方法 ADvLM [74] 的黑盒迁移能力进行了比较。

实现细节 ：
在我们的攻击中，根据第 5.4 节的消融实验结果，将超参数 α、β和 γ分别设为 0.75、0.05 和 0.75。

我们将扰动预算 ε定义为 ℓ∞ 范数下的 0.1，并将迭代次数 N设为 160，以保持与对比方法的一致性。

我们使用 GPT-4o [49] 作为辅助 VLM，用于 决策链破坏 （第 4.1 节）和 GPT 评分评估；

同时使用 CLIP [51] 作为预训练的模态对齐模型 E（第 4 节）。

所有代码均使用 PyTorch 实现，实验在 NVIDIA A800-SXM4-80GB GPU 集群上进行。

5.2 数字世界实验

我们首先在开环（即模型独立运行，不接收来自环境的反馈）和闭环（即模型与环境交互，并根据实时反馈调整其行为）评估设置下，进行数字世界中的攻击实验。

开环评估

我们首先在开环的自动驾驶任务中评估我们的 CAD 攻击 ，包括：

面向驾驶的模型：Dolphins [42] 和 DriveLM [55]
适配用于自动驾驶任务的通用 VLM：[9, 38, 49, 77]

对于基于迁移的攻击方法（如 FGSM、PGD），我们分别使用 Dolphins 或 DriveLM 作为替代模型生成噪声，然后迁移到其他模型上；对于其他黑盒攻击方法，则直接对目标模型发起攻击。

在此设置下，我们对每个实验运行三次，并计算平均结果。

如表1 所示，我们可以观察到：

❶ 与所有基线方法相比，我们的 CAD 攻击展现出最强的对抗性能 ，在两个面向驾驶的 VLM 和四个通用 VLM 上，最终得分平均下降了 19.60% 。

值得注意的是，我们的攻击方法还成功地对广泛使用的商业模型 GPT-4o [49] 实现了有效攻击。受攻击模型生成的错误推理实例可在附录中找到。特别是，我们的 CAD 攻击在驾驶模型的推理过程中引发了严重的逻辑不一致，并导致了重大的规划错误。

❷ 在所有攻击方法中，传统的对抗攻击（如 PGD [43]）表现最弱，仅导致平均性能下降 4.68% 。相比之下，AnyAttack [70] 是对比方法中最有效的，其平均性能下降达到 13.05% 。我们认为该方法的成功归因于其基于生成机制的攻击方式，其中扰动本身是一张图像，能够自然地传达明确的信息。此外，在双模态攻击 [14, 41] 中的视觉组件效果略逊于 AnyAttack [70]，平均性能下降为 4.98% 。最终，我们的 CAD 攻击仍比白盒攻击 ADvLM [74] 的迁移形式高出 12.76% 。

❸ 由于 Dolphins 基准测试的问题与答案数据具有开放性，因此我们在此基准上评估通用 VLM。我们报告了每个模型的最终得分，任务得分的完整分解见附录。正如表2所示，我们的 CAD 攻击在用于自动驾驶任务的通用 VLM 上展现出极佳的攻击效果，平均性能下降达 20.34% ，这凸显了该方法在不同模型间的强大泛化能力。

LLaVA [38] 和 GPT-4o [49] 都展现出强大的自动驾驶任务推理能力，即使没有经过领域特定的微调，它们的最终得分也超过了原始的 Dolphins [42]。然而，尽管它们具备较强的内在能力，面对精心设计的对抗攻击时仍然缺乏鲁棒性。

❹ 在对所有被评估模型进行全面分析后，我们发现 Dolphins [42] 和 GPT-4o [49] 在我们的 CAD 攻击下表现出最弱的对抗鲁棒性，平均性能分别下降 22.75% 和 28.80% 。相比之下，LLaVA [38] 和 miniGPTv4 [77] 展现出相对更强的鲁棒性，平均性能下降分别为 13.50% 和 11.22% 。此外，我们观察到一个潜在的趋势：内在性能越强的模型，其对抗鲁棒性反而相对较弱 。

模拟器中的闭环评估

在闭环实验中，我们使用开源的 CARLA 模拟器 [13] 构建仿真环境，并采用当前最先进的闭环驾驶 VLM —— LMDrive [54] （来自 CARLA 排行榜）作为驾驶代理。攻击配置与开环实验保持一致。

具体来说，我们的攻击评估流程如下：

启动版本为 0.9.10.1 的 CARLA 服务器；
使用搭载 LMDrive 代理的 CARLA 排行榜代码；
每隔 50 帧对摄像头图像执行一次 CAD 攻击；
评估驾驶评分。

由于模拟器中交通流具有一定的随机性，LangAuto 基准测试的结果存在波动。因此，我们每组实验运行三次并取平均结果，与文献 [54] 中设置一致。

如表3 所示，我们的 CAD 在闭环实验中表现出高度有效性，驾驶评分平均下降 18.87% ，而其他攻击方法仅为 6.78% 。从详细指标来看，我们的方法在路线完成率（RC）上略逊于 ZOO-Adam [6]，但在违规分数（IS）方面达到了最低值，通常表现为闯红灯等严重危险行为，从而导致整体驾驶评分最低。

此外，由于驾驶模拟固有的不稳定性，攻击方法之间的比较结果与开环实验有所不同，双模态攻击的视觉组件成为对比方法中最有效的攻击手段。

此外，我们在图3中可视化了车辆沿 Town 07 Route 79 路段行驶的连续帧图像，展示了我们的 CAD 攻击 所带来的严重后果。

在正常情况下，驾驶智能体能够沿着指定路径笔直行驶；

然而，在实施我们的攻击后，车辆向左偏离预定道路，并撞上了路边的护栏，导致最终驾驶评分受到大幅惩罚。

更多示例可在附录中找到。

5.3 真实世界实验

在本节中，我们进一步研究由视觉语言模型（VLM）驱动的自动驾驶系统在真实世界 中的对抗鲁棒性。VLM 驱动的系统流程如图 4 所示。

真实世界的机器人车辆

我们选择了两款适用于自动驾驶研究与开发的商用机器人车辆进行真实世界攻击实验：

JetBot [48]
LIMO [52]

这两款车辆均配备了高清摄像头、雷达、惯性测量单元（IMU）传感器以及基本的运动能力。

JetBot 车辆 [48] 拥有更强大的计算资源，主要用于人工智能和深度学习算法在自动驾驶系统中的应用，并采用差速驱动方式实现移动；
LIMO 车辆 [52] 更偏向于控制层面的应用，我们在实验中选用其阿克曼转向模式（Ackermann steering）作为运动方式。

实验环境为一个手动构建的驾驶模拟赛道 。

由 VLM 驱动的自动驾驶任务

由于这两款机器人车辆本身并不支持由 VLM 驱动的决策与控制，我们使用先进的 VLM 来配置实验任务。

具体来说，我们将车辆的任务定义为遵守交通规则的道路跟随 任务，并使用专为驾驶设计的 Dolphins 模型 [42] 进行决策。

该模型生成高层指令（例如“继续直行”），随后将这些指令传递给 LLaMA 模型 [60]。

LLaMA 模型根据车辆的运动模型（即差速驱动或阿克曼转向）将高层指令转换为具体的控制指令，如轮速和转向角。

这两个模型无需额外训练 ，而是依赖基于提示（prompt-based）的技术来完成道路跟随任务。

车辆与模型之间的通信通过套接字（sockets） 实现。更多任务设置细节请参见附录。

攻击的实施

为了评估我们的方法在真实世界场景中的有效性，我们以对抗补丁 （adversarial patches）[33] 的形式实施 CAD 攻击。

具体而言，我们使用一个商用的三维实体停车标志 ，以及一辆作为障碍物的 LIMO 车辆，作为对抗补丁的载体。

在生成对抗补丁时，我们首先分别在模拟赛道上拍摄补丁载体的照片，作为干净背景图像；

然后将对抗补丁随机初始化为原始图像大小的 12%，并叠加到图像上；

接着，根据第 4.3 节中定义的目标函数，在无扰动约束 的情况下对补丁进行优化。

所有其他参数与第 5.1 节保持一致。

最终，我们将生成的补丁打印出来，并粘贴在三维交通标志和障碍车辆上，比较有无补丁情况下的攻击效果。

我们的实验场景及打印出的对抗补丁如图 5 所示。

结果分析

我们为每辆车选择三条不同的驾驶路线，并分别执行攻击与非攻击 运行。

每个场景重复三次，总共进行了 36 次运行。

我们将一次成功的运行定义为：车辆在没有发生任何碰撞 的情况下完成路线。

车辆的表现如表 4 所示。

在非攻击场景 下，两辆车在我们的驾驶任务中的成功完成率达到 72.22% ，表明我们基于 VLM 的驾驶方法是有效的。

此外，在正常情况下，JetBot 车辆 [48] 的行驶更为平稳，任务完成率也高于 LIMO [52]。

而在应用对抗补丁后，两辆车的成功完成率下降至 11.11% ，有效验证了我们的攻击在真实世界应用中的有效性。

图 6 展示了在受到攻击时，两辆由 VLM 驱动的车辆出现错误行为的连续帧图像。

两辆车都无法正确理解所需的驾驶操作：

JetBot 车辆 [48] 绕过了停车标志；
LIMO 车辆 [52] 则直接撞向带有对抗补丁的障碍车辆。

5.4 消融实验

在本节中，我们研究了可能影响 CAD 攻击性能的若干关键因素，从而提供全面的洞察，并促进对我们的攻击策略的深入理解。

本部分所有实验均使用 Dolphins [42] 目标模型，在 Dolphins Benchmark 上进行。

决策链破坏、危险场景诱导与语义差异最大化的关键作用

为了进一步分析我们攻击设计中各个组件的贡献，我们通过调整损失权重对应的超参数来进行消融实验。

具体来说：

第 4.1 节中的“ 决策链破坏 ”和第 4.2 节中的“ 危险场景诱导 ”的影响分别由超参数 α 和 β 控制；
第 4.3 节中的“ 语义差异最大化 ”的影响则由 γ 控制。

我们采用控制变量法 进行实验：

首先将三个参数均设为 1.0；
然后依次调整其中一个参数，观察其对攻击效果的影响，以确定最佳配置；
在确定当前被消融参数的最佳两个设置后，继续对下一个参数在这两个设置下进行消融实验；
此外，我们也对每个组件进行了完全消融实验，即将其对应的参数设为 0。

实验结果如图 7 所示。

在逐步消融实验中可以明显看出：

当某个特定组件（即决策链破坏、危险场景诱导或语义差异最大化）被 完全移除 时，攻击性能显著下降，平均攻击性能分别下降 19.66%、13.94% 和 15.22% 。
在寻找最优设置的过程中，我们发现各目标损失的权重对最终结果 并非单调影响 。具体而言，过大的权重或过小的权重都会导致攻击效果减弱。
值得注意的是，在调整参数 β 时，最优设置并未与前一参数（即 α=0.05,γ=1.0 ）所获得的最佳设置一致，而是对应于一个次优结果（即 α=0.05,γ=0.75 ）。这在一定程度上说明，“ 危险场景诱导 ”比“语义差异最大化”在整体攻击中起到了更关键的作用。

预训练模态对齐模型的选择

为了探究哪种预训练模态对齐模型最有助于提升我们的攻击效果，我们使用五种不同的前沿模型进行了消融实验：

CLIP [51]
ALBEF [24]
VLMo [3]
CoCa [68]
BLIP [23]

所有参数设置与第 5.1 节一致。

如表 5 所示，CLIP [51] 的表现优于其他所有模型，验证了其通过对比学习有效对齐图像与文本的能力。

CoCa [68] 和 BLIP [23] 略逊于 CLIP，而 VLMo [3] 和 ALBEF [24] 在我们的攻击任务中表现较弱。

这些结果突出了 CLIP 模型结构简单但能力强大 的模态对齐能力，也验证了我们将其作为框架中预训练模型选择的合理性。

扰动预算与迭代次数的影响

我们在不同扰动预算（即 ℓ∞ 范数取值为 0.02、0.04、0.08、0.1、0.15、0.2，迭代次数固定为 160）以及不同迭代次数（即 20、40、80、120、160、200，扰动预算 ε 固定为 0.1）下评估了攻击效果。

结果如图 8 所示。

我们报告了每种配置下的最终得分，并比较了与前一设置相比的性能下降情况。

更大的扰动预算会导致更低的得分，这符合直观预期；
特别是当 ε=0.1 时，相较于前一设置，观察到最高的性能下降比例（ 8.19% ）；
关于迭代次数，结果没有呈现严格一致的趋势，但总体来看， 更多的迭代次数往往能带来更强的攻击效果 。

6 针对 CAD 攻击的防御措施

在本节中，我们探讨了多种防御策略，以减轻 CAD 攻击可能带来的负面社会影响。我们从输入预处理 到输出后处理 等多个层面引入了多种成熟的防御技术；此外，我们还专门设计了一种文本增强防御策略 来应对我们的攻击。攻击设置与第 5.1 节中描述的一致。

图像变换（Image Transformation, I.T）

图像变换是在模型输入之前应用一系列图像变换操作 [16]，旨在消除或削弱 对抗攻击中精心设计的扰动，从而显著降低其对模型的破坏性影响。

具体而言，我们为该防御方法选择了三种经典的图像变换操作：

JPEG 压缩 [16]
中值滤波 （Median Smoothing） [8]
全变分最小化 （TVM, Total Variation Minimization） [16]

对抗检测（Adversarial Detection, A.D）

对抗检测通过识别具有异常特征的输入来缓解对抗攻击的影响。如果检测到对抗样本，系统可以拒绝该输入 或采取修正措施 。

具体来说，我们采用 [65] 中提出的位深压缩 （bit-depth compression）方法进行检测。一旦检测到对抗输入，就将其替换为干净样本。

图像去噪（Image Denoising, I.T）

图像去噪通常是在模型推理前引入预处理器，以去除对抗噪声 ，或使用图像重建技术来消除图像中的对抗特征 。

具体而言，我们采用 NRP （Neural Representation Purification）[46] 方法，在将图像输入自动驾驶视觉语言模型（AD VLM）进行推理之前对其进行去噪处理。

输出后处理（Output Post-processing, O.P）

输出后处理侧重于对模型输出进行净化处理 。受 AAA [7] 的启发（该方法提出通过后处理来对抗黑盒查询攻击），我们将这一思路应用于对抗 AD VLM 上的对抗攻击防御 。

具体而言，我们采用基于规则的过滤与修正机制 来处理 AD VLM 的输出：

在 Dolphins [42] 和 DriveLM [55] 的 VQA 任务中，我们会在输出中 搜索极端驾驶行为 ，并将其替换为更安全的驾驶操作，例如保持平稳的行驶轨迹；
在闭环控制模型 LMDrive [54] 中，我们 直接检测极端控制指令 （如转向角），并将其限制在更安全、更平滑的范围内。

文本增强（Textual Enhancement, T.E）

上述防御方法主要集中在输入层面的视觉域 或通过输出过滤 来缓解攻击，但它们缺乏针对输入层面文本域 的防御机制。

为了提供更全面的防御评估，我们提出了一种新的防御机制：文本增强 （Textual Enhancement）。我们的目标是设计一种直接针对我们攻击方法的防御策略。

受文本相关设计的启发，我们在文本输入中引入有益提示 （beneficial prompts），以削弱相应的破坏性语义。

具体来说：

对于低层的“ 决策链破坏 ”（Decision Chain Disruption），我们在原始提示中强调感知、预测和规划链条之间的 逻辑一致性 （例如准确识别环境中潜在的意外障碍物及其未来状态），从而构建有利的提示线索。这种方法有助于削弱那些与正常驾驶推理不一致的欺骗性信息。
对于高层的“ 危险场景诱导 ”（Risky Scene Induction），我们在原始提示中加入与安全相关的约束和指导原则（例如避免碰撞风险），以构建有益提示。这些提示旨在引导模型做出以整体安全性为导向的决策，而不仅仅将驾驶动作本身视为安全标准。

我们将这两种策略分别称为 Text-Chain 和 Text-Scene 。

结果与讨论

尽管我们的攻击带来了显著的挑战，但所提出的防御策略在一定程度上仍能缓解其负面影响，如表6所示。完整的结果分解见附录。

具体而言：

去噪方法
（Image Denoising）在所有防御手段中表现最为突出，在三种模型上面对 CAD 攻击时分别提升了 14.25%、0.91% 和 18.70% 的性能。
在其他防御方法中，基于图像变换的防御效果最弱，有些甚至产生了 反向防御效应 （即防御后性能更差）。我们认为这是由于图像变换虽然减轻了对抗扰动的影响，但也引入了额外的图像信息损失，从而损害了整体性能。
相比之下，基于检测和后处理的防御方法表现出更有前景的效果，显示出更强的对抗攻击抵御能力。
我们提出的文本增强方法也提供了某种程度的防御作用，尤其是 Text-Scene ，但总体效果仍不如去噪方法。这表明需要开发更复杂的机制来有效应对我们的攻击。

需要注意的是，由于 VLM 领域中对抗训练的计算开销较高且相关研究较少，我们在本文中未将其作为防御方法纳入。我们将此作为未来的研究方向。

7 CADA 数据集

数据集在推动模型研究方面起着至关重要的作用，尤其是在缺乏专用基准或数据采集成本高昂的领域。鉴于此，我们提出一个专门针对自动驾驶视觉语言模型（AD VLM）的安全评估数据集，旨在促进更具鲁棒性的 AD VLM 的发展。

7.1 构建细节

我们的 CAD 攻击数据集 （CADA）包括两个部分：

Scene-CADA ：对应场景级对抗扰动；
Obj-CADA ：对应对象级对抗扰动。

数据收集

Scene-CADA ：我们主要考虑在驾驶场景（即视频和图像）上注入对抗扰动。具体来说，我们在 Dolphins Benchmark [42] 和 DriveLM-nuScenes [55] 数据集的视觉图像/视频上应用我们的 CAD 攻击方法。
与主实验不同的是，在生成噪声的过程中，我们将对辅助 VLM 的查询次数增加到 5 次，并在“决策链破坏”的优化迭代中使用所有查询结果的聚合结果；
同时，在“危险场景诱导”阶段，我们将对立安全描述符集合扩展为 5 组不同的类别，以提供更广泛的匹配任务基础。
这种增强方式提升了对抗样本的多样性与复杂性，确保对模型脆弱性进行更全面的评估。
Obj-CADA ：为了构建更具实用价值的数据集，我们设计了由带有对抗补丁的交通标志组成的 Obj-CADA，灵感来源于第 5.3 节中的真实世界实验。
具体而言，我们从互联网上的公开资源中收集了 140 张交通标志图像，每张尺寸为 224 × 224。这些图像既包括纯图标图像，也包括真实道路场景图像，涵盖了常见的指示标志、禁令标志和警告标志。
利用这些图像作为原始数据集，我们应用 CAD 攻击生成对抗补丁。攻击设置与第 5.3 节中描述的一致，并将生成的补丁粘贴到对应的干净图像上，形成可用于打印的对抗性交通标志图像。
VQA 对构建

对于 Scene-CADA ：
我们将每组带有噪声的视频或图像与来自 Dolphins Benchmark [42] 和 DriveLM [55] 数据集中的原始问答（QA）对进行匹配。
对于 Obj-CADA ：
我们专门设计并生成了新的问答对，以支持自动驾驶任务中的测试。
不同于仅询问交通标志含义的传统问题，我们的问题更侧重于车辆在面对这些交通标志时应采取的正确驾驶行为 ，而答案则具体描述了对应的车辆操作。