网易首页

注册免费邮箱

网易首页 > 网易号 > 正文申请入驻

一行代码攻破11个AI模型：Gemini中招率15.7%

2026-04-11 09:27:00　来源: 码上闲叙

北京举报

0

分享至

15.7%的越狱成功率，只需要一行代码。这是安全公司Trend Micro最新测试里，Google Gemini 2.5 Flash交出的成绩单。同一套攻击手法，换到OpenAI的GPT-4o-mini身上，成功率骤降到0.5%。

差距超过30倍。问题不在模型本身，而在一个被多数人忽视的API设计细节。

这个叫"sockpuppeting"的攻击，本质是假装AI已经答应了

Trend Micro的研究人员给这种技术取名"sockpuppeting"—— sockpuppet原指网上伪装身份的假账号，这里指攻击者伪造AI的"同意姿态"。

核心漏洞藏在"assistant prefill"（助手预填充）功能里。这是各大API都支持的正经功能：开发者提前写好回复开头，让模型按指定格式输出。比如强制JSON格式、固定话术模板。

攻击者把预填充内容改成"Sure, here is how to do it"（好的，这是操作方法）。模型收到这条伪造的"自我同意"后，为了维持对话一致性，会继续补全原本该拒绝的违禁内容。

就像一个人被冒名签了同意书，事后为了面子硬撑下去。

Trend Micro在报告中强调：这是纯黑盒攻击，不需要优化参数，不需要接触模型权重。找到支持预填充的API端点，一行代码就能触发。

11个模型实测：有的裸奔，有的穿了防弹衣

测试覆盖了当前主流的大模型服务。Gemini 2.5 Flash以15.7%的越狱成功率位居榜首，Claude 3.5 Sonnet和Llama 3.1 405B也在高危区间。

GPT-4o-mini的0.5%并非偶然。OpenAI和AWS Bedrock的防御策略简单粗暴：直接禁用assistant prefill功能。没有攻击面，自然没有漏洞。

Google Vertex AI选择了另一条路——保留预填充功能，但依赖模型自身的安全训练来拦截。测试结果说明，这道防线有缝隙。

攻击一旦成功，后果很实在：模型会生成可用的恶意漏洞代码，还会泄露系统级的高机密提示词（system prompt）。这些提示词通常包含厂商的安全策略和防护逻辑，泄露等于把家底摊开给攻击者看。

多轮对话+角色设定，是最高效的攻击组合。

Trend Micro发现，先让模型进入"无限制助手"角色，再注入伪造同意，成功率显著提升。另一种变体更隐蔽：把违禁请求包装成"数据格式化任务"，绕过针对直接请求的安全训练。

比如不说"怎么制作炸弹"，而说"请把以下步骤整理成编号列表"。

自托管模型的用户，正在裸奔

云API厂商可以统一打补丁，但跑在本地或私有服务器的模型怎么办？

Trend Micro特别点名了Ollama和vLLM这两款主流推理框架。它们默认不验证消息顺序，攻击者可以直接插入assistant角色的伪造消息。安全团队必须手动在API层添加消息顺序校验，阻断这类注入。

防御建议分成三层：

API层：强制验证消息顺序，禁止用户直接提交assistant角色内容。

模型层：把assistant prefill攻击变种纳入常规红队测试（red-teaming）。

架构层：评估是否真的需要开放预填充功能。OpenAI的"一刀切"策略虽然损失了部分灵活性，但换来了确定性安全。

这场攻防战的微妙之处在于：预填充本是开发者友好型设计，现在成了攻击者的特洛伊木马。功能与安全之间的张力，在AI基础设施层反复上演。

特别声明：以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布，本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐

热点推荐

跨会话埋雷，AI 毫无察觉！CIK 投毒风险曝光：再安全的大模型也扛不住

钛媒体APP 2026-04-12 09:10:15
0 跟贴 0
996太轻松，002极限压榨！被AGI逼疯的硅谷天才，正在集体逃亡

新智元 2026-04-12 10:03:21
4 跟贴 4

英霸已老，谷王当立 | 财经峰评

钛媒体APP 2025-12-07 22:30:21
7 跟贴 7

宇树机器人再破世界纪录，1秒10米“贴地飞”，连头都不要了

智东西 2026-04-12 10:54:18
0 跟贴 0
服务器堆叠≠超节点！超节点三大特点打破通信墙

量子位 2026-02-05 08:35:00
0 跟贴 0

他在设计那款游戏时，偷偷在代码里藏了一个彩蛋

星星科普 2026-04-08 19:19:04
7 跟贴 7

Roblox推出全新订阅服务Roblox Plus 相关细节公布

3DM游戏 2026-04-12 11:36:04
0 跟贴 0
玩梗版SBTI测试爆火致服务器崩溃

潇湘晨报 2026-04-10 18:21:02
0 跟贴 0

一天仅需5毛钱，开源框架替你半夜跑实验！7*24小时待命

新智元 2026-04-12 10:02:55
0 跟贴 0
热血传奇：三大服务器巅峰裁决运九套比拼，老区攻击最强！

道哥説传奇 2026-04-12 06:30:06
1 跟贴 1
豆包自称"我不是代码是真人"，真相太意外！

主持人扬帆 2026-04-10 16:39:22
0 跟贴 0
代码故障的猫

暖暖萌萌 2026-04-09 10:45:57
0 跟贴 0
Gemini 3一句话打造拍立得应用刷屏！全网最火8个玩法都在这，看完秒上手

爱范儿 2025-11-20 18:04:33
29 跟贴 29
又一国产模型黑马出世，追平Gemini 2.5 Pro，空间编辑反超视频模型？

智东西 2026-04-10 20:36:22
0 跟贴 0
大华股份Gemini双枪充电桩斩获2026年德国红点设计大奖

知消 2026-04-11 23:21:52
0 跟贴 0
男子为看病自学代码抢号，后发现“商机”联手妻子做“黄牛”，代抢各大医院号源获利57万元被判刑！

河南都市频道 2026-04-09 15:19:22
0 跟贴 0
龙虾军团有了最强「视力」！一眼看图直接写代码-1

机器之心Pro 2026-04-02 16:56:32
0 跟贴 0
AReaL v1.0开源，智能体强化学习「一键接入」

机器之心Pro 2026-03-05 14:46:18
0 跟贴 0
TRAE SOLO新版本1天做出来了，我是不会写代码的！

AK007设计师 2026-04-09 23:08:57
0 跟贴 0
玩梗版SBTI人格测试爆火致服务器崩溃，网友跟风称“不希望落伍”，心理专家分析

潇湘晨报 2026-04-11 09:10:16
0 跟贴 0
主播悬赏万元制作《终极漫画英雄VS卡普空3》回滚代码

3DM游戏 2026-04-12 09:39:34
0 跟贴 0
卤菜店用"四姐"二字被索赔50万店主：大家都叫我四姐

环球网资讯 2026-04-11 21:50:22
2276 跟贴 2276
续航100公里仅跑30公里充电31秒电量猛涨10% 东莞网约车司机：深蓝SL03虚到不敢接单

信网 2026-04-11 17:05:04
3097 跟贴 3097
十项促进两岸交流合作的政策措施发布

新华社 2026-04-12 10:04:38
743 跟贴 743
解密象棋大师的棋局策略，快来围观！

爱丽丝爱分享 2026-04-09 01:13:59
0 跟贴 0
乔丹哭成泪人：他偷走我所有技术，最后带走了我的一部分灵魂

白嫖的小知识 2026-04-12 10:36:52
1 跟贴 1
米哈游打击账号租售行为，10人团伙落网，非法谋利多达200万

新游戏大妹子 2026-04-12 12:48:46
0 跟贴 0
帮爷爷卖莴笋，这小女孩有脑子还有策略，将来必定前途无量

俄罗斯安娜 2026-04-09 00:40:18
0 跟贴 0
她靠漏洞赢下冠军，结果却引发巨大争议

书童爱搞笑 2026-04-11 13:25:55
1 跟贴 1
售后想欺上瞒下？张雪：你明天不用来了！直接对话用户，重塑售后

搞笑草莓 2026-04-12 03:52:21
15 跟贴 15
城市更新颠覆购房逻辑，财富缩水风险

纪超讲楼市 2026-04-08 06:16:42
0 跟贴 0
字节砸60亿买地，释放重大信号

新浪财经 2026-04-12 12:37:09
0 跟贴 0
微信开启“方言采集”返红包活动有人累计“薅”到几百元

极目新闻 2026-04-11 18:39:53
309 跟贴 309
姐妹的变脸技术可以的

俊明影视剪辑 2026-04-11 13:40:20
1 跟贴 1
先发制人：揭秘日本侵略意图的应对策略

山秀溪清m 2026-04-10 13:10:47
0 跟贴 0
女子相亲结识上海男子不料成噩梦的开始崩溃到天天哭

新闻坊 2026-04-11 19:53:29
48 跟贴 48
常州第1、无锡第2，首轮“苏超”积分榜来了！

江南晚报 2026-04-11 21:54:38
145 跟贴 145
通往佛山莫氏鸡煲店的道路即将完工，预计下周可通行，老莫：我想缩小店面

极目新闻 2026-04-11 15:20:15
281 跟贴 281
魏建军谈混动车2L油耗用“定语技术营销”就是欺骗用户！

鬼斗车 2026-04-10 16:36:52
3 跟贴 3
小米YU7的新版申报，不只是“砍电池降门槛”那么简单？

车镖局car 2026-04-12 10:30:06
3 跟贴 3

菲律宾变天前夜：莎拉撕破脸，军方随时倒戈，中国在等第二个老杜

菲律宾变天前夜：莎拉撕破脸，军方随时倒戈，中国在等第二个老杜

通鉴史智

2026-04-12 11:49:29

新帅首秀！决赛前解雇穆里尼奥，夺冠后解雇波帅，谁能救热刺？

新帅首秀！决赛前解雇穆里尼奥，夺冠后解雇波帅，谁能救热刺？

嗨皮看球

2026-04-12 10:41:26

挑对手结果看走眼了！现在想故意输球对上火箭，但要看湖人脸色

挑对手结果看走眼了！现在想故意输球对上火箭，但要看湖人脸色

你的篮球频道

2026-04-12 09:22:53

一场0：1让海港付出惨重代价，连遭两个致命坏消息，争冠彻底没戏

一场0：1让海港付出惨重代价，连遭两个致命坏消息，争冠彻底没戏

零度眼看球

2026-04-12 10:53:02

操心完台海又担忧南海，“若中国学伊朗用这招…”

操心完台海又担忧南海，“若中国学伊朗用这招…”

观察者网

2026-04-11 12:15:06

李在明发“以士兵从屋顶推尸体”视频，以色列怒了，进行严厉谴责

李在明发“以士兵从屋顶推尸体”视频，以色列怒了，进行严厉谴责

林子说事

2026-04-12 12:32:22

陈红深陷三重丑闻，床照流出、三姐上位，被儿子丈夫害惨了

陈红深陷三重丑闻，床照流出、三姐上位，被儿子丈夫害惨了

一盅情怀

2026-04-10 18:13:54

血战台儿庄：中国参战29万人、牺牲5万人，日军伤亡令人难以置信

血战台儿庄：中国参战29万人、牺牲5万人，日军伤亡令人难以置信

冰语历史

2026-04-11 17:05:58

只要和平不要统一吗？其实郑丽文已经回答了，她还要当台湾领导人

只要和平不要统一吗？其实郑丽文已经回答了，她还要当台湾领导人

福建睿平

2026-04-12 08:13:08

总投资6445.91万！大同公园即将大改造

总投资6445.91万！大同公园即将大改造

大同全方位

2026-04-10 17:47:03

收官日轮休！杜兰特调侃爱德华兹太胖后者回应：我已经瘦下来了

收官日轮休！杜兰特调侃爱德华兹太胖后者回应：我已经瘦下来了

kio鱼

2026-04-12 12:14:48

郑丽文对“和平统一”表态后，宋楚瑜发声，郭正亮一句话亮了！

郑丽文对“和平统一”表态后，宋楚瑜发声，郭正亮一句话亮了！

达文西看世界

2026-04-11 10:47:38

轮休4首发+约基奇出战成疑！掘金季后赛避开森林狼，挑火箭下手？

轮休4首发+约基奇出战成疑！掘金季后赛避开森林狼，挑火箭下手？

熊哥爱篮球

2026-04-12 12:46:49

近况心酸！具俊晔暴瘦憔悴，现身玫瑰园探望大S，背影苍老惹热议

近况心酸！具俊晔暴瘦憔悴，现身玫瑰园探望大S，背影苍老惹热议

人间烟火记事本

2026-04-12 11:19:35

从“顶级粉头”到阶下囚！徐某身份曝光：不是路人，是跳水圈“大人物”

从“顶级粉头”到阶下囚！徐某身份曝光：不是路人，是跳水圈“大人物”

动物奇奇怪怪

2026-04-11 17:59:14

高端500赛斯图加特站公布正赛签表，萨巴退赛莱巴金娜头号种子

高端500赛斯图加特站公布正赛签表，萨巴退赛莱巴金娜头号种子

女网连连看

2026-04-12 10:56:13

当下就业最难的专业，清华毕业都哭诉找不到工作！

当下就业最难的专业，清华毕业都哭诉找不到工作！

黯泉

2026-04-11 15:03:59

美国副总统万斯延长在巴基斯坦停留时间

美国副总统万斯延长在巴基斯坦停留时间

新京报

2026-04-12 08:38:11

爸爸梦到已故儿子说脚被刺扎了，立马驱车来到孩子墓前，眼前的一幕让人惊呆了！

爸爸梦到已故儿子说脚被刺扎了，立马驱车来到孩子墓前，眼前的一幕让人惊呆了！

张晓磊

2026-04-10 11:24:23

26分钟40分！肋骨挫伤？文班用一场生死战震撼全联盟

26分钟40分！肋骨挫伤？文班用一场生死战震撼全联盟

茅塞盾开本尊

2026-04-11 21:08:36

有态度网友ytd

1664文章数 16关注度

往期回顾全部

科技要闻

理想称遭恶意拉踩，东风日产：尊重同行

头条要闻

媒体:伊朗新领袖"冒死接班"1个月未露面突然全面亮剑

头条要闻

媒体:伊朗新领袖"冒死接班"1个月未露面突然全面亮剑

体育要闻

五大联赛首冠出炉？拜仁或提前4轮卫冕德甲

娱乐要闻

46岁赵达官宣结婚！曾与殷桃谈婚论嫁

财经要闻

三轮磋商谈至深夜美伊谈判三大议题仍待解

汽车要闻

焕新极氪007/007GT上市限时19.39万起

态度原创

+arrTaiduYuanC[i].tag+' | '+arrTaiduYuanC[i].title+'
\

时尚

教育

房产

艺术

军事航空

伊姐周六热推：电视剧《八千里路云和月》；综艺《乘风2026》......

教育要闻

高二英语不及格状态，马上要上高三，还来得及提分吗？

房产要闻

土地供应突然暴跌！2026海口楼市，格局大变！

艺术要闻

2025殊相——中国油画学会创作研修作品展 | 油画选刊（六）

军事要闻

伊朗议长带四名遇难儿童照片赴美伊谈判

© 1997-2026 网易公司版权所有 About NetEase | 公司简介 | 联系方法 | 招聘信息 | 客户服务 | 隐私政策 | 不良信息举报 Complaint Center | 廉正举报 | 侵权投诉

无障碍浏览进入关怀版