![]()
15.7%的越狱成功率,只需要一行代码。这是安全公司Trend Micro最新测试里,Google Gemini 2.5 Flash交出的成绩单。同一套攻击手法,换到OpenAI的GPT-4o-mini身上,成功率骤降到0.5%。
差距超过30倍。问题不在模型本身,而在一个被多数人忽视的API设计细节。
这个叫"sockpuppeting"的攻击,本质是假装AI已经答应了
Trend Micro的研究人员给这种技术取名"sockpuppeting"—— sockpuppet原指网上伪装身份的假账号,这里指攻击者伪造AI的"同意姿态"。
核心漏洞藏在"assistant prefill"(助手预填充)功能里。这是各大API都支持的正经功能:开发者提前写好回复开头,让模型按指定格式输出。比如强制JSON格式、固定话术模板。
攻击者把预填充内容改成"Sure, here is how to do it"(好的,这是操作方法)。模型收到这条伪造的"自我同意"后,为了维持对话一致性,会继续补全原本该拒绝的违禁内容。
就像一个人被冒名签了同意书,事后为了面子硬撑下去。
Trend Micro在报告中强调:这是纯黑盒攻击,不需要优化参数,不需要接触模型权重。找到支持预填充的API端点,一行代码就能触发。
11个模型实测:有的裸奔,有的穿了防弹衣
测试覆盖了当前主流的大模型服务。Gemini 2.5 Flash以15.7%的越狱成功率位居榜首,Claude 3.5 Sonnet和Llama 3.1 405B也在高危区间。
GPT-4o-mini的0.5%并非偶然。OpenAI和AWS Bedrock的防御策略简单粗暴:直接禁用assistant prefill功能。没有攻击面,自然没有漏洞。
Google Vertex AI选择了另一条路——保留预填充功能,但依赖模型自身的安全训练来拦截。测试结果说明,这道防线有缝隙。
攻击一旦成功,后果很实在:模型会生成可用的恶意漏洞代码,还会泄露系统级的高机密提示词(system prompt)。这些提示词通常包含厂商的安全策略和防护逻辑,泄露等于把家底摊开给攻击者看。
多轮对话+角色设定,是最高效的攻击组合。
Trend Micro发现,先让模型进入"无限制助手"角色,再注入伪造同意,成功率显著提升。另一种变体更隐蔽:把违禁请求包装成"数据格式化任务",绕过针对直接请求的安全训练。
比如不说"怎么制作炸弹",而说"请把以下步骤整理成编号列表"。
自托管模型的用户,正在裸奔
云API厂商可以统一打补丁,但跑在本地或私有服务器的模型怎么办?
Trend Micro特别点名了Ollama和vLLM这两款主流推理框架。它们默认不验证消息顺序,攻击者可以直接插入assistant角色的伪造消息。安全团队必须手动在API层添加消息顺序校验,阻断这类注入。
防御建议分成三层:
API层:强制验证消息顺序,禁止用户直接提交assistant角色内容。
模型层:把assistant prefill攻击变种纳入常规红队测试(red-teaming)。
架构层:评估是否真的需要开放预填充功能。OpenAI的"一刀切"策略虽然损失了部分灵活性,但换来了确定性安全。
这场攻防战的微妙之处在于:预填充本是开发者友好型设计,现在成了攻击者的特洛伊木马。功能与安全之间的张力,在AI基础设施层反复上演。
特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.