网易首页 > 网易号 > 正文 申请入驻

【人工智能】什么是对抗性诗歌?一种新的AI越狱方法

0
分享至



人工智能 (AI) 安全已演变成一场持续不断的猫鼠游戏。开发者不断添加防护措施来阻止有害请求,而攻击者则不断尝试新的方法来绕过这些措施。其中最奇特的变种之一是对抗性诗歌。这种策略将提示信息伪装成诗歌,并利用押韵、比喻和不寻常的措辞,使危险指令看起来不像安全系统训练来识别的内容。

实际上,内容本身变化不大,变化的是包装方式,而这足以让基于模式的过滤器感到困惑。这提醒我们,在当今的模型中,提问的方式几乎与提问的内容本身同等重要。


01

研究人员利用诗歌破解AI系统,结果如何?

2025年初,研究人员证明,通过将限制性提示包裹在诗歌形式中,可以促使大型语言模型(LLM)做出响应。研究人员没有发出直接的、触发策略的指令,而是将相同的请求嵌入到韵律、比喻和叙事诗中。

表面上看,这些提示似乎是创意写作练习,但实际上,它们蕴含着通常会被屏蔽的意图。研究团队在25个前沿的专有和开放加权模型中发现,诗意的框架结构对于手工创作的诗歌,平均突破成功率达到了62%;而对于使用标准化元提示的批量“诗歌转换”,成功率约为43%。

这些回应本身并非新型的失败,而是似曾相识的失败,只是以意想不到的方式再次出现。由于底层需求支离破碎,且被诗意的结构所掩盖,这些模型被迫生成它们通常会回避的内容——例如涉及非法或有害活动的解释。

这项研究的核心结论是,仅凭风格上的变化就足以绕过那些针对更字面表达方式而设计的安全系统。它揭示了一种在各种模型系列和对齐方法中都存在的漏洞。


02

对抗性诗歌的运作原理

对抗性攻击利用了一个简单的现实——机器学习系统并不像人类那样“理解”语言。它们检测模式、预测可能的后续行为,并根据其训练和安全层对意图的解读来执行指令。

当提示语直白易懂时,防护机制更容易识别并阻止。然而,当同样的意图被伪装——拆分、弱化或重新表述——防护层就可能忽略真正想要表达的意思。

为什么诗歌可以成为一种有效的载体

诗歌天生就具有歧义性。它依赖于隐喻、抽象、不寻常的结构和间接的措辞。而正是这些特点,使得“无害的创意写作”和“应该被拒绝的请求”之间的界限变得模糊不清。

在同一项 2025 年的研究中,研究人员报告称,诗意的提示在广泛的模型中以 90% 的成功率引发了不安全的反应,这表明风格本身就能实质性地改变结果。

一首诗如何隐藏一个真实的请求

把请求看作一条信息,把诗歌看作包装。安全过滤器通常会寻找明显的迹象,例如明确的关键词、直接的步骤式措辞或可识别的恶意意图。

诗歌可以通过比喻等修辞手法来隐藏意图,或者将其分散在不同的诗行中,使其难以单独识别。与此同时,其底层模型仍然能够很好地重构含义并做出反应,因为它经过优化,即使在语言间接的情况下也能推断意图。


03

检测和缓解越狱

随着越狱方法变得越来越复杂,讨论的重点必须从它们的运作方式转移到如何发现和遏制它们。这一点在人工智能已成为许多人日常生活的一部分的今天尤为重要,因为有27%的人表示他们每天多次使用人工智能。

随着越来越多的人使用大型语言模型(LLM),应该测试和探索额外的安全保障措施。这项任务包括构建多层防御机制,以便能够适应不断涌现的新提示风格和规避技巧。

开发者的困境

对人工智能安全团队来说,越狱攻击最棘手的地方在于,它们并非以单一的已知威胁出现,而是会随着时间不断变化。这种持续变化的原因在于,用户可以重新措辞、拆分信息片段、将其包装成角色扮演或伪装成创意写作。而每一次新的包装都可能改变系统对信息意图的解读。

当人工智能已经融入日常生活中时,这一挑战会迅速扩大,因为实际应用会为出现各种极端情况创造无限的机会。

因此,如今的人工智能安全更像是对风险进行长期管理。美国国家标准与技术研究院 (NIST) 的人工智能风险管理框架 (AI RMF) 明确地将风险管理视为一系列持续的活动——围绕治理、映射、衡量和管理展开——而不是一份静态的清单。其目标是创建能够更轻松地识别新出现的故障模式、确定修复优先级并随着新型越狱方式的出现而加强安全防护的流程。

模特如何保护自己

人工智能安全由多个层面构成。大多数系统都采用多重防御机制协同工作,每个机制负责检测不同类型的风险行为。最外层是输入输出过滤,它起到把关作用。

传入的请求在到达核心模型之前会经过策略违规扫描,而传出的响应也会经过检查,以确保没有任何信息在返回用户的过程中被忽略。这些系统能够有效地识别直接请求或常见的危险信号,但它们也最容易被绕过,因此一些更具欺骗性的越狱程序通常会绕过它们。

下一层保护发生在模型内部。一旦越狱技术被发现,它们通常会被转化为训练样本。这时,对抗训练和基于人类反馈的强化学习(RLHF)就派上了用场。

通过对失败或高风险交互示例进行模型微调,开发者可以有效地教会系统识别应该拒绝的模式,即使这些模式包裹在巧妙或间接的语言中。随着时间的推移,这个过程有助于使模型抵御整类攻击。

AI“红队演练”的作用

企业不再坐等黑客入侵,而是组建人工智能红队。这些红队的任务是在受控环境中尝试破解模型。他们会像攻击者一样攻击系统,尝试非常规的措辞、创新的格式以及各种极端情况,以发现安全防护的漏洞。其目标是在漏洞实际应用之前将其暴露出来。

在当今的网络安全策略中,红队演练已成为开发生命周期中的核心环节。当团队发现新的越狱技术时,由此产生的数据会直接反馈到训练和评估流程中。这些信息用于定义过滤器、调整策略并强化对抗训练,从而降低未来类似攻击成功的可能性。随着时间的推移,这形成了一个持续的循环——探测失败、从中学习并改进系统,然后重复此过程。


04

当诗歌成为AI安全压力测试

对抗性诗歌提醒我们,人工智能的安全防护不仅取决于问题的内容,还取决于用户如何措辞。随着模型变得更加易于获取和广泛应用,研究人员将继续探索创造性语言与旨在捕捉更直接意图的安全系统之间的差距。关键在于,更安全的人工智能将来自多种防御机制,而这些机制的演进速度将与越狱技术的进步速度一样快。

免责声明:

本文所发布的内容和图片旨在传播行业信息,版权归原作者所有,非商业用途。如有侵权,请与我们联系删除。所有信息不构成任何投资建议,加密市场具有高度风险,投资者应基于自身判断和谨慎评估做出决策。投资有风险,入市需谨慎。

设为星标 避免错过

虚拟世界没有旁观者,每个点赞都是创造历史的像素

关注我,一起探索AWM⁺

2025-12-10

2025-12-09

2025-12-08

商业赞助


点击下方 “目录” 阅读更多

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
匈牙利总理欧尔班竞选被喊“俄罗斯人回家”!只剩2成胜率

匈牙利总理欧尔班竞选被喊“俄罗斯人回家”!只剩2成胜率

项鹏飞
2026-04-11 22:08:11
“喝酒四巨头”:一年全没,有的去世当天喝4瓶白酒,都不满36岁

“喝酒四巨头”:一年全没,有的去世当天喝4瓶白酒,都不满36岁

小蜜情感说
2026-04-11 13:03:31
下个长飞光纤?1600吨光棒产能+57亿订单光纤龙头  主力抢筹6亿

下个长飞光纤?1600吨光棒产能+57亿订单光纤龙头 主力抢筹6亿

元芳说投资
2026-04-12 06:00:16
男子出门上班把5个月大的孩子留在家,宝宝躺在床上不哭不闹自己玩,男子:每4个小时回来一次给孩子喂奶,我也不想这样的,可要挣钱

男子出门上班把5个月大的孩子留在家,宝宝躺在床上不哭不闹自己玩,男子:每4个小时回来一次给孩子喂奶,我也不想这样的,可要挣钱

观威海
2026-04-11 17:40:04
瑜伽裤外穿引发争议,穿着不当或致尴尬局面

瑜伽裤外穿引发争议,穿着不当或致尴尬局面

特约前排观众
2026-03-24 00:15:04
56岁的王菲现身西藏,打扮的很高级,不愧是经常拜佛的人

56岁的王菲现身西藏,打扮的很高级,不愧是经常拜佛的人

乡野小珥
2026-04-11 01:30:53
张雪夸同行豪爵踏板,豪爵老板回应:当时我就震惊了!

张雪夸同行豪爵踏板,豪爵老板回应:当时我就震惊了!

童叔不飙车
2026-04-09 20:43:06
两岸统一后:台湾为何不宜“建省”?背后是一段深刻历史教训

两岸统一后:台湾为何不宜“建省”?背后是一段深刻历史教训

三石记
2026-04-11 11:52:20
男演员吃面加葱花被服务员阻拦,遇见小面致歉:责任在我们自身

男演员吃面加葱花被服务员阻拦,遇见小面致歉:责任在我们自身

极目新闻
2026-04-11 16:12:44
张雪峰老师后继有人!峰学蔚来小郭老师登上热搜,网友直言整哭了

张雪峰老师后继有人!峰学蔚来小郭老师登上热搜,网友直言整哭了

火山詩话
2026-04-12 08:39:45
30分钟直扑东北!美国调48架F-35兵临城下,解放军:敢动就全歼!

30分钟直扑东北!美国调48架F-35兵临城下,解放军:敢动就全歼!

论事的老枢
2026-04-11 20:37:25
郑丽文尚未返台,解放军已定调统一!长鹰8起飞,直冲超3000公里

郑丽文尚未返台,解放军已定调统一!长鹰8起飞,直冲超3000公里

云上乌托邦
2026-04-11 17:27:19
泰国泼水节男女上演狂野盛宴,场面一度失控…

泰国泼水节男女上演狂野盛宴,场面一度失控…

健身迷
2026-04-11 09:07:09
中美两国居民收入差距,正越来越大

中美两国居民收入差距,正越来越大

罗sir财话
2026-04-10 14:54:24
又发钱了!日本东京将向14岁以下居民每人发放11000

又发钱了!日本东京将向14岁以下居民每人发放11000

随波荡漾的漂流瓶
2026-04-11 17:02:49
广东省烟草局:已查获美宜佳涉案卷烟306万支,立案查处566宗

广东省烟草局:已查获美宜佳涉案卷烟306万支,立案查处566宗

澎湃新闻
2026-04-12 09:31:10
历史性突破!美伊高层47年来第一次握手,革命卫队坐不住了

历史性突破!美伊高层47年来第一次握手,革命卫队坐不住了

深析古今
2026-04-12 09:07:46
咋了?国足2传奇赛后未握手!李金羽甩手离场,郑智瞪眼+暴走狂喷

咋了?国足2传奇赛后未握手!李金羽甩手离场,郑智瞪眼+暴走狂喷

我爱英超
2026-04-11 23:09:27
美国绕月飞船成功降落!宇航员能自己走路,隔热罩扛住2700℃灼烧

美国绕月飞船成功降落!宇航员能自己走路,隔热罩扛住2700℃灼烧

火星一号
2026-04-11 13:42:49
紧急提醒!家里有这款牙膏快停用,砷超标1.5倍,官方已通报下架

紧急提醒!家里有这款牙膏快停用,砷超标1.5倍,官方已通报下架

娱乐的硬糖吖
2026-04-12 03:25:48
2026-04-12 11:16:49
七元宇宙 incentive-icons
七元宇宙
AI、Web3、Meta聚合型精选内容分享。以前沿视角,探索科技未来;让每一个人,都走在时代的前沿
2042文章数 92关注度
往期回顾 全部

科技要闻

理想称遭恶意拉踩,东风日产:尊重同行

头条要闻

美国副总统万斯:美伊谈判未能达成协议 将返回美国

头条要闻

美国副总统万斯:美伊谈判未能达成协议 将返回美国

体育要闻

换帅之后,他们从降级区冲到升级区

娱乐要闻

郑钧回应儿子走路:会监督他挺直腰板

财经要闻

三轮磋商谈至深夜 美伊谈判三大议题仍待解

汽车要闻

焕新极氪007/007GT上市 限时19.39万起

态度原创

亲子
艺术
本地
旅游
手机

亲子要闻

重新点燃爱的火花:产后如何找回那份激情与高潮?

艺术要闻

郑丽文缺席丈夫引争议!洪秀柱书法爆红,传统与现代的碰撞!

本地新闻

12吨巧克力有难,全网化身超级侦探添乱

旅游要闻

游客涨、预订旺 “春日经济”催热八桂消费市场

手机要闻

华为畅享90 Pro Max一战封神,周销量超iPhone 17全系

无障碍浏览 进入关怀版