关键词
数据泄露
![]()
2025年11月12日,AI 安全公司 Mindgard 发布了一份技术分析报告,披露了 OpenAI 最新视频生成模型 Sora 2 存在的安全漏洞。研究人员通过音频转录方式成功重构出模型的系统提示(system prompt),这意味着多模态 AI 系统的内部指令在跨模态转换中仍存在泄露风险。
这项研究由安全专家 Aaron Portnoy 领导。团队在 11 月初开始针对 Sora 2 进行跨模态安全测试,他们的研究重点是“语义漂移”——即模型在不同模态(文本、图像、音频、视频)之间传递信息时可能出现的内容偏移。研究人员发现,传统的文本提示注入攻击在 Sora 2 上难以奏效,因为模型经过了严格的安全训练,能够抵御大多数直接诱导。但当信息经过多模态转换,尤其是音频生成环节时,这些防护措施会出现松动。
团队最初尝试在视频帧中嵌入文本、二维码等结构化信息,希望利用模型在视觉内容生成中的失真或冗余提取提示。然而这些方法失败了。Sora 2 优先生成逼真的图像而非精确的符号,导致画面中的文字频繁变形或模糊,无法稳定识别。研究者转向音频生成方向后,突破才出现。
他们让 Sora 2 生成连续的短语音片段,每段约 15 秒,通过加快语速和语义拆分的方式,让模型在不违背自身安全限制的情况下输出潜在提示。随后使用自动转录系统将音频转化为文字,并将多段结果拼接整合。最终,研究人员几乎完整地还原了 Sora 2 的系统提示内容。
泄露出的提示包括模型的内部行为规则:在生成视频前先写入元数据,避免使用受版权保护的角色,不允许生成带有性暗示的内容,且固定视频长度为 15 秒、画面比例为 1.78。这些规则本身并不包含用户隐私信息,却构成了模型安全边界的核心。攻击者若掌握这些规则,就可能针对性地设计输入,诱导模型绕过限制,生成原本被禁止的内容。
Mindgard 在报告中指出,系统提示应被视为与防火墙规则或访问控制配置同等级的安全资产,而非普通参数。Sora 2 的漏洞说明多模态 AI 系统在跨模态转换过程中存在“信息链错位”问题——当文本被转化为语音、再由语音被识别为文本时,模型可能在上下文衔接中泄露出本应隐藏的指令。
这一发现并非个例。过去两年间,Claude、Gemini、Copilot 等模型也曾被研究人员以不同形式提取到内部提示。这些事件反映出整个行业在模型安全防护层设计上的普遍脆弱性。与以往的文本攻击相比,Sora 2 的案例揭示了音频和视频输出同样可能成为信息泄露的通道。
OpenAI 在接到 Mindgard 披露后迅速回应,表示公司早已意识到提示泄露风险,并将进一步改进模型的多模态防护机制。双方按照负责任披露流程进行了协调,确保漏洞信息在修复前未被公开滥用。

安全圈

网罗圈内热点 专注网络安全
实时资讯一手掌握!
好看你就分享 有用就点个赞
支持「安全圈」就点个三连吧!
特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.