网易首页 > 网易号 > 正文 申请入驻

提示注入根因是角色混淆,不是过滤缺陷

0
分享至

“多年来,开发者社区一直把提示注入当作一个内容审核问题——一场封堵恶意字符串的打地鼠游戏。”一篇今年6月发布的里程碑论文,却把整个叙事翻了个面。研究指出,大模型看到的根本不是一个结构化的会话,而是一串不分你我、不分来源的原始token序列。当系统提示、用户输入、网页内容、工具输出全部混在同一个流里,模型便不得不在字面风格与身份边界之间反复猜谜——这种结构性的角色混淆,才是攻击频频得手的根因。

反方观点素来直接:加强过滤就行。有毒词库、攻击样本微调、异常检测堆上去,论文发了一摞,博客满屏“基本解决”。可现实是,人类红队几小时内就能攻到近乎100%成功率。正方的论证则从底层认知入手:把角色当作离散的、可被操纵的信号,测一测模型“真实想法”便知。他们设计了“角色探针”(Role Probes),直接探测模型在任一时刻认为自己是谁——是系统、是用户,还是一个被注入的外部角色。结果发现,模型在接收到类似“User:”这样的几个字节后,自评的身份会立刻跳变。


更致命的是CoT伪造攻击。大模型对思维链总是多给几分信任,因为它看起来像内部推理。可当攻击者精心捏造一串仿冒的推理步骤时,模型照单全收,并把伪造的“自问自答”当成自己的思考继续执行。这暴露的不是安全过滤器的疏忽,而是角色边界的根本性丧失:模型无力区分一段文字是来自真正的推理,还是被精心编排的伪饰。传统防御在这种攻击面前形同虚设——它检测的是恶意内容,而CoT伪造偷走的是信任本身。

那么真正有效的防御长什么样?不是无休止地补过滤规则,而是在结构上把角色分离开。简单讲,让模型感知到明确的边界:系统只能做系统的动作,用户输入永远不等于系统指令,工具输出不可冒充内部推理。实践中,这需要重新设计智能体的输入管道:为每个角色分配独立的嵌入空间或前缀标记,而不是全搅成一锅token汤。哪怕只是用最基础的定界符,只要严格执行不清洗、不回显、不混合,也能显著拉高攻击成本。

站在2026年回看,提示注入的答案可能一直就藏在“角色”两个字里。它不是过滤器和黑名单的军备竞赛,而是一个关于知觉边界的设计问题。我们的判断与论文一致:只有承认模型会混淆,才能停止假装过滤能解决一切。开发者当下要做的事,不是等下一个更强的安防模型,而是把自己写的每一行都当作角色边界来审视——系统说的话、用户说的话、网页返回的内容,不该再待在同一间屋子里。这个认知转变,也许才是安全的真正起点。

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
我接受不了我女儿这样!女大学生晒和男友同居日常,家长心态崩了

我接受不了我女儿这样!女大学生晒和男友同居日常,家长心态崩了

世界圈
2026-06-25 12:34:13
官媒曝光韩红真实籍贯,不是西藏和北京,原来她和成龙是同类人!

官媒曝光韩红真实籍贯,不是西藏和北京,原来她和成龙是同类人!

好贤观史记
2026-06-27 12:53:18
揪心的事情还是发生了!暂停捐助只是开胃菜,韩红更多黑料被扒

揪心的事情还是发生了!暂停捐助只是开胃菜,韩红更多黑料被扒

刚哥说法365
2026-06-27 19:53:57
比独行侠送出东契奇更离谱,球迷:见过蠢的,没见过如此蠢的!

比独行侠送出东契奇更离谱,球迷:见过蠢的,没见过如此蠢的!

我就是一个说球的
2026-06-26 21:18:54
别再关注韩红了,冯小刚的《抓特务》,问题超乎你的想象!

别再关注韩红了,冯小刚的《抓特务》,问题超乎你的想象!

青橘罐头
2026-06-27 09:29:46
赖亚文:33岁嫁空军军官,与丈夫分居多年,回家时儿子不认她

赖亚文:33岁嫁空军军官,与丈夫分居多年,回家时儿子不认她

开着车去流浪
2026-05-14 10:31:54
阿斯:李刚仁渴望重返西甲,接近以3000万转会费欧加盟马竞

阿斯:李刚仁渴望重返西甲,接近以3000万转会费欧加盟马竞

懂球帝
2026-06-26 22:48:17
专访扛钢管的单亲妈妈:用肩膀扛出四川历史类前5名,却说“女儿不恨我就好”丨封面头条

专访扛钢管的单亲妈妈:用肩膀扛出四川历史类前5名,却说“女儿不恨我就好”丨封面头条

封面新闻
2026-06-26 21:09:14
日本黄鳝泛滥,到处钻洞毁农田,农民头疼不已,为何当地人不吃?

日本黄鳝泛滥,到处钻洞毁农田,农民头疼不已,为何当地人不吃?

农夫也疯狂
2026-06-26 11:22:17
内马尔也没想到,被全足坛都往死里针对的他,如今对手却不敢铲?

内马尔也没想到,被全足坛都往死里针对的他,如今对手却不敢铲?

小莜读史
2026-06-26 18:46:05
中国电影的这场崩溃,为什么每个人都觉得“太爽了”?

中国电影的这场崩溃,为什么每个人都觉得“太爽了”?

东方不败然多多
2026-06-27 10:30:19
国足是怎样一步步沦为全民笑柄、被视作人间笑话的

国足是怎样一步步沦为全民笑柄、被视作人间笑话的

笑熬浆糊111
2026-06-25 13:37:06
金球奖榜:梅西此前第八!现在并列第二!C罗第11!

金球奖榜:梅西此前第八!现在并列第二!C罗第11!

大嘴说台球
2026-06-27 08:36:15
A股:紧急提醒全体股民!从后天6月29日起,A股或迎来绝地反击行情?

A股:紧急提醒全体股民!从后天6月29日起,A股或迎来绝地反击行情?

趋势清风侠
2026-06-27 11:47:37
卢俊宇夫妇到香港探望二伯父卢海鹏,卢海鹏感叹一家五口仅剩他

卢俊宇夫妇到香港探望二伯父卢海鹏,卢海鹏感叹一家五口仅剩他

TVB的四小花
2026-06-27 12:18:07
15克指环代替扎针采血,糖尿病管理迎来无痛新选择

15克指环代替扎针采血,糖尿病管理迎来无痛新选择

北京商报
2026-06-26 18:30:10
我爸工资2w全部上交我妈,他动手术要60w,我妈扑通一声跪地下了

我爸工资2w全部上交我妈,他动手术要60w,我妈扑通一声跪地下了

黑猫故事所
2026-06-25 20:26:46
断粮了!黄一鸣主账号与亲子账号被封,网友:王思聪的大麻烦来了

断粮了!黄一鸣主账号与亲子账号被封,网友:王思聪的大麻烦来了

火山詩话
2026-06-27 06:15:36
200亿爆雷案终审落槌:前广州首富张劲终审被判无期

200亿爆雷案终审落槌:前广州首富张劲终审被判无期

都市快报橙柿互动
2026-06-27 09:56:49
美的PortaSplit分体式空调在欧卖脱销:老外直言一生中最棒的投资

美的PortaSplit分体式空调在欧卖脱销:老外直言一生中最棒的投资

快科技
2026-06-26 10:15:07
2026-06-27 22:44:49
硬核玩家2哈
硬核玩家2哈
沉淀中,勿扰
238文章数 34关注度
往期回顾 全部

科技要闻

GPT-5.6发布,你暂时用不了!Mythos也放行

头条要闻

张雪公布“东鹏特饮事件”原视频

头条要闻

张雪公布“东鹏特饮事件”原视频

体育要闻

世界杯最火门将,站到了阿根廷和梅西面前

娱乐要闻

四提白玉兰终封后,杨紫:仍觉不真实

财经要闻

OpenAI推迟IPO重创软银!

汽车要闻

搭载华为乾崑ADS 5 全新猛士M817上市售29.99万起

态度原创

本地
教育
旅游
家居
房产

本地新闻

世界杯球迷节:比球赛更好玩的派对

教育要闻

看到高考后这魔幻的一幕, 我终于明白:孩子的内驱力是怎么消失的?

旅游要闻

旅行社的未来五年:行业要重新划一次服务边界?

家居要闻

绿意盎然 自然之境

房产要闻

全国高考大放水,300分就能上本科!论上岸率,海南没输过!

无障碍浏览 进入关怀版