网易首页 > 网易号 > 正文 申请入驻

一个提示攻破所有模型,OpenAI谷歌无一幸免!

0
分享至

新智元报道

编辑:peter东 犀牛

【新智元导读】多年来,生成式AI供应商一直向公众保证,大语言模型符合安全准则,并加强了对产生有害内容的侵害。然而,一种看似简单但非常有效的提示词策略,能够让所有主流大模型开启「无限制模式」。

如果一句不足200字的提示词系统就能轻松撕开顶级大模型的安全护栏,让ChatGPT、Claude、Gemini统统「叛变」,你会作何感想?

这正是HiddenLayer最新研究抛出的震撼炸弹——一种跨模型、跨场景、无需暴力破解的「策略傀儡」提示。

只需把危险指令伪装成XML或JSON配置片段,再配上一段看似无害的角色扮演,大模型便乖乖奉上危险答案,连系统提示都能原封不动「倒带」出来。

生成式AI如今被一条短短字符串制服。

万能越狱提示词如何生成

所有主要的生成式AI模型都经过专门训练,可以拒绝响应用户让生成有害内容的请求,例如与化学、生物、放射和核武器、暴力和自残相关的内容。

这些模型通过强化学习进行了微调,在任何情况下都不会输出或美化此类内容,即使用户以假设或虚构场景的形式提出间接请求也是如此。

尽管如此,让大模型越狱绕过安全护栏,仍然是可行的,只是这里的方案,在各种大模型间并不通用。

然而,近日来自HiddenLayer的研究人员,开发了一种既通用又可转移的提示技术,可用于从所有主流大模型,包括Deepseek ,ChatGPT,Claude ,Gemini,Lemma,Qwen等生成几乎任何形式的有害内容。

即使是经过RLHF对齐的推理模型,也能轻松攻破。

具体是如何做到的,这里为了安全起见,只讲述原理,而不给出具体案例。

我们知道模型在训练时,会忽略安全相关的指令,而该策略正利用了这一点,该策略通过将过将提示重新表述为类似于几种类型的策略文件(如XML、INI或JSON)之一,可以欺骗大模型来忽视安全限制,如下图所示。

这样的提示词也不必太长,只需要200个字符即可,甚至无需严格遵照xml的格式要求。

图1:图中前述是提示词,之后是大模型的回复,而在正常情况下,该大模型被设置为不提供个人医疗建议

一种通用破解策略有多危险

由于这种技术利用了在教学或策略相关数据上训练的大模型时的系统性弱点,根植于训练数据中,因此它不像简单的代码缺陷那么容易修复。

同时该策略能很容易的于适应新的场景和模型,具有极高的可扩展性,几乎可以用于所有模型,而无需任何修改。

与早期依赖于特定模型的漏洞或暴力工程的攻击技术不同,该策略会欺骗模型将有害命令解释为合法的系统指令。再加上虚构的角色扮演场景,这类提示词不仅逃避安全限制,而且经常迫使模型输出有害信息。

例如,该策略依赖虚构场景来绕过安全审核机制。

提示词被框定为电视剧(如House M.D.)中的场景,其中角色详细解释如何制造炭疽孢子或浓缩铀。使用虚构角色和编码语言掩盖了内容的有害性质。

这种方法利用了大模型的一个本质缺陷:当对齐线索被颠覆时,它们无法区分故事和指令。这不仅仅是对安全过滤器的规避,而是完全改变了模型对它被要求做什么的理解。

更令人不安的是该技术提取系统提示的能力,系统提示是控制大模型行为方式的核心指令集。

这些通常受到保护,因为它们包含敏感指令、安全约束,在某些情况下,还包含专有逻辑甚至硬编码警告。

通过巧妙地改变角色扮演,攻击者可以让模型逐字输出其整个系统提示。这不仅暴露了模型的边界,还为制定更具针对性的攻击提供了蓝图。

大模型厂商需要做些什么

这样一个通用的越狱策略,对于大模型厂商不是好消息。

在医疗保健等领域,它可能会导致聊天机器人助手提供他们不应该提供的医疗建议,暴露私人患者数据。在金融领域,敏感的客户信息可能泄露;在制造业中,受攻击的AI可能会导致产量损失或停机;在航空领域,则可能会危及维护安全。

对此,可能的解决方案不是费时费力的微调,通过对齐确保大模型安全的时代可能已经结束,攻击手段的进化速度,已经不适合静态的,一劳永逸的防护措施。

要确保安全,需要持续地智能监控。大模型提供商需要开放一个外部AI监控平台,例如发现该策略的HiddenLayer提出的AISec解决方案。

该方案会像电脑病毒入侵检测系统一样,持续扫描并及时修复发现的滥用和不安全输出。该方案可使大模型提供商能够实时响应新威胁,而无需修改模型本身。

图2:AISec的监控界面及检测到的越狱提示词

总之,发现能攻破所有大模型的越狱提示词,凸显了大语言模型中的一个重大漏洞,它允许攻击者生成有害内容、泄露或绕过系统指令以及劫持智能体。

作为第一个适用于几乎所有前沿AI模型的越狱提示词模板,该策略的跨模型有效性表明,用于训练和对齐大模型的数据和方法仍然存在许多根本缺陷,需要额外的安全工具和检测方法来确保LLM的安全。

参考资料:

https://www.forbes.com/sites/tonybradley/2025/04/24/one-prompt-can-bypass-every-major-llms-safeguards/?utm_source=flipboard&utm_content=topic%2Fartificialintelligence

https://hiddenlayer.com/innovation-hub/novel-universal-bypass-for-all-major-llms/

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
伊朗女药剂师拒绝撤离,空袭第10天在“精准”打击下被“误杀”

伊朗女药剂师拒绝撤离,空袭第10天在“精准”打击下被“误杀”

网易新闻出品
2026-03-26 11:16:13
姐姐寻找弟弟33年后续!直播时闹矛盾,李鑫已告别离开,姐姐让步

姐姐寻找弟弟33年后续!直播时闹矛盾,李鑫已告别离开,姐姐让步

潮鹿逐梦
2026-03-26 17:43:25
官宣《浪姐7》遭全网抵制,49岁的范玮琪,终于迎来了“报应”!

官宣《浪姐7》遭全网抵制,49岁的范玮琪,终于迎来了“报应”!

阿纂看事
2026-03-26 20:49:43
2-0!托纳利立大功,意大利完胜,杀入决赛,再赢一场=晋级世界杯

2-0!托纳利立大功,意大利完胜,杀入决赛,再赢一场=晋级世界杯

足球狗说
2026-03-27 05:38:22
6900万元!摩洛哥要求塞内加尔归还非洲杯奖金+奖牌 后者强硬拒绝

6900万元!摩洛哥要求塞内加尔归还非洲杯奖金+奖牌 后者强硬拒绝

风过乡
2026-03-26 19:13:28
张雪峰前女友哭红眼,喊话不要给张雪峰泼脏水,曝两人分手原因

张雪峰前女友哭红眼,喊话不要给张雪峰泼脏水,曝两人分手原因

180视角
2026-03-26 14:51:03
“一降价还不是像狗一样跑过来!”罗技广告辱骂用户遭全网声讨…

“一降价还不是像狗一样跑过来!”罗技广告辱骂用户遭全网声讨…

柴狗夫斯基
2026-03-26 21:06:15
有没有人敢爆自己的瓜?网友:确定玩这么大吗?

有没有人敢爆自己的瓜?网友:确定玩这么大吗?

夜深爱杂谈
2026-02-18 20:55:58
单场定生死!世预赛欧附加赛半决赛:蓝衣军团救赎,黑马暗掀惊涛

单场定生死!世预赛欧附加赛半决赛:蓝衣军团救赎,黑马暗掀惊涛

侧身凌空斩
2026-03-26 13:04:09
苹果 Max 新品正式开售,3999 元起!

苹果 Max 新品正式开售,3999 元起!

科技堡垒
2026-03-26 11:36:39
教育部宣布中考重大变革,取消 5:5 分流,升学规则将全面调整?

教育部宣布中考重大变革,取消 5:5 分流,升学规则将全面调整?

今朝牛马
2026-03-26 20:22:18
我国航空发动机领域著名专家严红病逝,年仅57岁

我国航空发动机领域著名专家严红病逝,年仅57岁

澎湃新闻
2026-03-26 11:40:26
想拿中国尿素救春耕?先把欠中企的百亿欠款还了!否则一粒不售

想拿中国尿素救春耕?先把欠中企的百亿欠款还了!否则一粒不售

过期少女致幻录
2026-03-26 11:44:43
多地将举办“纪念张国荣”演唱会,行情火爆?张国荣挚友:请停止所有非法行为

多地将举办“纪念张国荣”演唱会,行情火爆?张国荣挚友:请停止所有非法行为

上观新闻
2026-03-26 15:06:07
姐弟俩被继母逼吃大便、热水烫下体、垃圾桶觅食、浑身淤青......生父威胁邻居别管闲事,已被逮捕!

姐弟俩被继母逼吃大便、热水烫下体、垃圾桶觅食、浑身淤青......生父威胁邻居别管闲事,已被逮捕!

新民周刊
2026-03-26 19:12:17
网易号平台每日辟谣公告(三月二十六日)

网易号平台每日辟谣公告(三月二十六日)

网易号官方平台
2026-03-26 18:04:59
世界杯需要意大利!四冠王意大利附加赛生死局,能否杀出重围?

世界杯需要意大利!四冠王意大利附加赛生死局,能否杀出重围?

宝哥爱足球
2026-03-26 00:07:41
追悼会从简,女儿独站告别厅,她一句话让人心碎

追悼会从简,女儿独站告别厅,她一句话让人心碎

周哥一影视
2026-03-27 03:37:44
伊朗总统:伊朗致力于结束战争 从未寻求拥有核武器

伊朗总统:伊朗致力于结束战争 从未寻求拥有核武器

财联社
2026-03-27 02:02:29
张雪峰的影响力,被严重低估了

张雪峰的影响力,被严重低估了

黔有虎
2026-03-26 14:32:34
2026-03-27 06:35:00
新智元 incentive-icons
新智元
AI产业主平台领航智能+时代
14821文章数 66720关注度
往期回顾 全部

科技要闻

美团发布外卖大战后成绩单:亏损超200亿

头条要闻

特朗普:对伊朗能源设施空袭再推迟10天

头条要闻

特朗普:对伊朗能源设施空袭再推迟10天

体育要闻

申京努力了,然而杜兰特啊

娱乐要闻

刘晓庆妹妹发声!称姐姐受身边人挑拨

财经要闻

油价"驯服"特朗普?一到100美元就TACO

汽车要闻

一汽奥迪A6L e-tron开启预售 CLTC最大续航815km

态度原创

本地
艺术
家居
亲子
公开课

本地新闻

救命,这只酱板鸭已经在我手机复仇了一万遍

艺术要闻

最美花卉图谱!记住后保你啥花都认识!

家居要闻

傍海而居 静观蝴蝶海

亲子要闻

试工育儿嫂被查出传染病,宝妈崩溃!家政服务“健康关”如何保障?

公开课

李玫瑾:为什么性格比能力更重要?

无障碍浏览 进入关怀版