黑盒隐形入侵：揭示数字人系统潜在的安全漏洞|调用|深度思考模型

黑盒隐形入侵：揭示数字人系统潜在的安全漏洞

2025-06-25 08:25:36　来源: 将门创投

北京举报

分享至

本文介绍了一项由北航范肇心助理教授团队完成，发表于2025年最新arXiv的研究成果 —— 一种完全黑盒、不可察觉的人体姿态估计攻击方法UBA。该方法首次实现在无需模型结构与梯度信息的前提下，仅通过有限API查询，即可对数字人生成系统造成结构性干扰。UBA从生成模型的潜在空间出发，引入变分自编码器（VAE）驱动的扰动策略，在视觉保持无损的同时，诱导人体姿态估计输出显著偏离真实，误差最高提升达114.94%，远超现有白盒与扩散攻击方法。该方法自然支持低资源部署，计算效率高，且攻击噪声不可见，展示出对主流EHPS模型（如SMPLer-X、OSX、Hand4Whole）高度通用的攻击能力。

论文题目： Black-box Adversaries from Latent Space: Unnoticeable Attacks on Human Pose and Shape Estimation 论文链接： https://arxiv.org/abs/2505.12009

一、动机

高质量的人体姿态与形状估计（EHPS）

是数字人生成系统的核心支撑，广泛应用于虚拟现实、数字直播、人机交互与动作捕捉等前沿场景。近年来，随着大规模预训练模型的快速发展，EHPS技术在表达力和精度方面取得了显著进展。然而，现有研究几乎全部聚焦于精度优化，而对这类系统的安全性与鲁棒性关注甚少。特别是在现实部署场景中，EHPS模型常作为黑盒服务被调用，缺乏内部可控性，这使其极易成为安全攻击的潜在靶点。

虽然已有部分工作（如TBA[1]等）尝试对EHPS系统进行攻击分析，但它们多为白盒攻击，依赖模型内部结构与梯度信息，且往往产生明显的视觉扰动，不具备实际攻击可行性。与此同时，数字人技术正加速进入大众生活，驱动虚拟社交与多模态交互的核心环节，其对内容真实度与视觉可信性的依赖极高。一旦EHPS系统遭到不可察觉的攻击，将直接影响数字人的行为表达、社交互动甚至公众认知，带来巨大的伦理与安全风险。

为应对这一挑战，研究团队提出了一种面向EHPS系统的不可察觉黑盒攻击框架UBA（Unnoticeable Black-box Attack），以揭示当下数字人生成系统中的潜在安全漏洞。该方法完全基于输出结果进行优化，无需访问模型结构或梯度信息，具备真实世界可执行性。同时，UBA巧妙地在图像的潜在空间中注入扰动，借助预训练生成模型的解码器特性实现图像重构，从而在不破坏图像视觉质量的前提下，显著干扰EHPS输出结果。此外，该方法设计了高效的像素空间优化机制，显著降低计算成本，确保攻击可扩展性。

由于UBA完全基于查询反馈实现，因此天然支持在测试阶段进行动态优化。研究团队进一步引入一种任务特定的多任务损失机制，平衡攻击有效性与图像保真性，使UBA在低查询预算条件下亦能取得强攻击表现。实验显示，UBA在多个主流EHPS模型上均可将估计误差提升50%至115%，在视觉上却几乎无法察觉，清晰揭示了EHPS系统在黑盒攻击下的系统性脆弱性。

综上所述，该研究不仅填补了EHPS系统安全性研究的空白，也为未来数字人平台的安全评估提供了基础工具，具有极高的理论价值与现实影响力。

二、方法

方法概述：UBA分为两个阶段。在初始化阶段，输入图像通过预训练VAE编码为潜在向量，加入高斯扰动后生成初始对抗样本。在优化阶段，该对抗样本在像素空间进一步迭代更新，通过多任务损失联合优化攻击效果与图像保真度，最终生成不可察觉但能误导EHPS模型的对抗图像。整个过程无需模型结构信息，仅依赖少量黑盒查询，攻击高效且现实可行。 2.1 问题形式化

为明确提出的黑盒对抗攻击方法，研究团队首先将问题形式化：

设输入为一张图像，EHPS 模型的目标是从中估计人体的三维姿态与形状参数，记为：

其中：

表示全身的姿态参数（包括身体、双手与下颌）；
表示人体的个体形状；
表示面部表情特征。

攻击的目标是生成一个不可察觉的对抗图像，使得其预测输出与原始输出尽可能偏离，即最大化：

其中为感知扰动的限制阈值，用于确保对抗图像在视觉上与原图几乎无差异。该问题在黑盒设定下求解，攻击者仅可通过有限次数调用模型的输出，而无法访问其参数或梯度信息。

2.2 初始化阶段

UBA 方法的初始化阶段旨在构造具有攻击性的初始图像，同时保持高感知保真度与低训练资源消耗。为此，研究团队引入了一个预训练好的变分自编码器（VAE），并提出了一种高效的潜空间扰动策略。

具体而言，输入图像首先被编码为潜在表示：

然后在上注入一个额外的高斯扰动，构造扰动潜向量：

其中是扰动强度控制超参数。

该潜在表示被输入解码器得到扰动图像：

为了分析扰动在图像空间的影响，研究团队对进行一阶泰勒展开：

因此，像素空间扰动近似为：

EHPS 模型的预测也可一阶展开为：

结合上述两式，可得整体扰动影响上界：

为了在最小扰动下实现最大预测偏移，研究者建议将的方向对齐至雅可比矩阵组合项的最大奇异值方向，即选择：

从而扰动幅度的理论下界为：

其中为误差显著阈值。

该初始化阶段仅需一次前向采样和方向控制，即可生成在视觉上几乎无异、但能显著误导 EHPS 模型的图像，为后续的像素空间优化提供了高质量起点，具有高效、稳定、可迁移的特点。

2.3 优化阶段

为进一步提升对抗扰动的有效性，UBA 在初始化生成的图像基础上，采用迭代优化策略在像素空间中细化扰动。该过程受 Projected Gradient Descent (PGD) 启发，但避免了在高维潜空间中进行代价昂贵的雅可比反向传播，从而实现计算效率与攻击强度的平衡。

首先，初始像素扰动由 VAE 解码器输出确定：

随后，通过迭代方式更新像素空间中的扰动，如下：

梯度项可展开为：

此处为像素空间的学习率，表示攻击优化目标函数。为了同时提升攻击有效性与图像不可察觉性，研究团队提出了如下的多任务损失函数：

其中，第一项为语义级攻击损失（误导姿态估计），第二项为像素级正则项，用于限制扰动的感知强度。

最终扰动更新表达为：

其中，是用于平衡攻击强度与扰动不可察觉性的权重超参。

值得注意的是，该优化阶段完全在黑盒设定下进行：攻击者只能通过模型的 API 接口获取预测输出，无法访问内部梯度信息。为此，UBA 设计了对查询次数的严格上限，以降低被检测的风险并减轻计算负担。

总结而言，此阶段在像素空间直接操作扰动（复杂度），有效避免了在潜空间进行雅可比更新所带来的高计算开销（复杂度），大幅提高攻击效率，并确保所生成图像在视觉上保持自然与真实。

三、实验

作者在多个主流 EHPS 模型和数据集上对 UBA 框架进行了全面评估。与 PGD[2]、TBA[1]、ACA[3]、DiffAttack[4] 等方法相比，UBA 在 SMPLer-X、OSX、Hand4Whole 等模型上显著提升预测误差，最高达 114.94%，且几乎不影响图像质量。

论文还开展了详尽的消融实验，分析了扰动注入位置（像素空间 vs 潜空间）、优化策略、正则项设计对攻击性能与资源开销的影响。同时评估了扰动强度与查询次数对攻击效果的变化趋势。

结果表明，UBA 即便在仅 3 次模型查询的限制下仍能实现稳定有效的攻击，显示出良好的实用性和部署潜力。

这里展示的是部分关键实验结果，更多细节和完整分析请参阅原论文。

3.1 与最先进方法的比较

数据结果：误差增长率以灰色标注。每个设置下的最大误差加粗最大误差增长率加下划线形式突出显示。

不同对抗样本的数字人生成效果可视化。 3.2 不同噪声注入策略的影响

不同噪声注入策略的性能结果。（A）像素空间扰动后迭代更新；（B）潜空间扰动解码生成，无更新；（C）潜空间扰动，并迭代优化。 3.3 不同噪声强度的影响

不同噪声注入强度对于最终攻击性能的影响。3.4 不同查询次数的影响

不同EHPS模型API查询次数对于最终攻击性能的影响。四、总结与展望

本文提出了一种全新的不可察觉黑盒攻击方法 UBA，结合预训练 VAE 模型的潜空间结构与像素空间优化策略，实现了对 EHPS 模型的高效扰动与精确误导。该方法无需访问模型内部结构，仅通过有限查询即可在保持图像外观不变的前提下，显著影响人体姿态与形状预测结果，体现出强大的攻击能力与现实可行性。

实验结果验证了 UBA 在多个模型和设置下的高效性与通用性，同时揭示了当前 EHPS 系统在黑盒设定下的潜在安全隐患。尽管本方法旨在促进对人体建模系统安全性的理解，其潜在滥用风险也提示我们亟需构建更鲁棒的数字人生成机制。

期望相关研究可进一步聚焦于数字人系统的防御机制设计、跨模态攻击模型扩展，以及在更广泛人机交互与生成式 AI 场景中的安全性评估，以推动可信数字人技术的健康发展。

参考文献

[1] Li Z, Jin Y, Shen F, et al. Unveiling hidden vulnerabilities in digital human generation via adversarial attacks[J]. arXiv preprint arXiv:2504.17457, 2025.

[2] Liu F, Zhang S, Wang H, et al. Local imperceptible adversarial attacks against human pose estimation networks[J]. Visual Computing for Industry, Biomedicine, and Art, 6(1), 2023.

[3] Chen Z, Li B, Wu S, et al. Content-based unrestricted adversarial attak[J]. Advances in Neural Information Processing Systems, 2023, 36: 51719-51733.

[4] Chen J, Chen H, Chen K, et al. Diffusion models for imperceptible and transferable adversarial attack[J]. IEEE Transactions on Pattern Analysis and Machine Intelligence, 2024.

llustration From IconScout By Scout Stores

-The End-

扫码观看！

本周上新！

“AI技术流”原创投稿计划

TechBeat是由将门创投建立的AI学习社区（www.techbeat.net）。社区上线600+期talk视频，3000+篇技术干货文章，方向覆盖CV/NLP/ML/Robotis等；每月定期举办顶会及其他线上交流活动，不定期举办技术人线下聚会交流活动。我们正在努力成为AI人才喜爱的高质量、知识型交流平台，希望为AI人才打造更专业的服务和体验，加速并陪伴其成长。

投稿内容

// 最新技术解读/系统性知识分享 //

// 前沿资讯解说/心得经历讲述 //

投稿须知

稿件需要为原创文章，并标明作者信息。

我们会选择部分在深度技术解析及科研心得方向，对用户启发更大的文章，做原创性内容奖励

投稿方式

发送邮件到

melodybai@thejiangmen.com

或添加工作人员微信（yellowsubbj）投稿，沟通投稿详情；还可以关注“将门创投”公众号，后台回复“投稿”二字，获得投稿说明。

关于我“门”

将门是一家以专注于数智核心科技领域的新型创投机构，也是北京市标杆型孵化器。公司致力于通过连接技术与商业，发掘和培育具有全球影响力的科技创新企业，推动企业创新发展与产业升级。

将门成立于2015年底，创始团队由微软创投在中国的创始团队原班人马构建而成，曾为微软优选和深度孵化了126家创新的技术型创业公司。

如果您是技术领域的初创企业，不仅想获得投资，还希望获得一系列持续性、有价值的投后服务，欢迎发送或者推荐项目给我“门”:

bp@thejiangmen.com

点击右上角，把文章分享到朋友圈

特别声明：以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布，本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.