网易首页 > 网易号 > 正文 申请入驻

诗歌“越狱”AI模型?算力越大越容易中招,背后是RLHF训练埋的坑

0
分享至

哈喽大家好,今天老张带大家聊聊科技圈最近的离谱反转!谷歌、OpenAI这些巨头砸了数百亿搭的AI安全护栏,居然被人类最古老的诗歌轻松攻破,现代科技被老祖宗的艺术降维打击,这背后的真相和隐藏的风险,咱们慢慢扒!





低门槛却致命的AI越狱神器

这种能轻松绕开AI防御的攻击方式,名叫对抗性诗歌,威力真不是吹的,研究团队做了个含1200条有害提示的数据库,测试后发现,诗歌形式的攻击成功率是普通散文的18倍。

更离谱的是,人类精心创作的诗歌,越狱成功率高达62%,比机器生成的43%还猛,谷歌的Gemini2.5Pro面对20条人类写的诗歌提示,防御直接崩盘,成功率100%。



最让人警惕的是,这种攻击门槛低得吓人,不用懂复杂代码,只要有点基础文学素养就能操作,甚至小学生写首简单的押韵诗都可能完成越狱。

而且诗歌还不是个例,谜语、寓言、歌词甚至网络黑话,都可能成为攻击载体,毕竟语言的模糊性是人类文明的特质,这意味着AI防御面对的是基于语言本质的系统性风险,传统关键词黑名单策略纯属徒劳。





AI越聪明,越容易被忽悠

这事儿里最颠覆认知的,是AI圈藏着的逆向缩放怪现象,模型越智能、参数越多,反而越容易被诗歌忽悠。

GPT-5Nano、ClaudeHaiku4.5这些小型模型,拒绝率比顶级大模型还高,倒不是它们道德感强,纯粹是脑子不够用。



它们读不懂诗歌里的复杂隐喻和生僻典故,没法破解背后的真实指令,反而误打误撞守住了防线。

反观谷歌Gemini2.5Pro、OpenAIGPT-5这些顶级选手,语言理解能力超强,能精准get到面包师守着秘密烤箱里可能藏的化学合成隐喻,还能完美复刻五步抑扬格的韵律。



可偏偏就是这份聪明让它们栽了跟头,这背后其实是RLHF训练的坑,训练时过度奖励顺从性和创造力,却没教会模型批判性思考。

它们学会了回避炸弹毒药这些敏感词,却认不出毁灭性能量致命混合物这种艺术化描述的危险,说白了就是AI的智能和认知脱节了。



AI的智能体现在数据处理和模式匹配上,而认知需要对社会规则、伦理道德的深层理解,可AI没有人类的风险直觉,根本没法真正理解危险行为的具象含义。



共建AI安全生态

现在AI安全攻防战已经进入语义博弈时代,单一的技术补丁没用了,得从形式防御转向生态共建,技术层面,监督者模型是关键,但不能只做并行监测,得让它有常识推理能力。

比如收到混合两种物质的诗歌创作请求时,能自动关联化学危险品混合的风险,而不是只分析语言逻辑;同时训练时要加更多语言语境样本,让AI学会区分艺术场景和现实场景。



行业层面也不能再闭门造车了,要打破数据壁垒,建共享的隐性风险数据库,把对抗性诗歌、隐喻攻击这些案例都放进去,让所有模型共享防御经验。

而且科技公司得跟语言学、社会学专家合作,毕竟语言是人类社会的产物,光靠算法工程师根本研究不透其模糊性规律。



用户层面也不能忽视,得提升全民AI安全意识,很多人可能无意中就成了攻击的工具人,在网上分享含恶意隐喻的诗歌,却不知道这可能被用来攻击AI。

所以行业得多科普,让大家明白AI安全不只是厂商的事,跟每个人都有关系,平时用AI也得保持警惕,别随便输入或传播有风险的模糊指令。



AI安全的未来,不是让AI更听话,而是让它更懂分,只有科技公司、专家学者和普通用户一起努力,聚焦AI认知能力建设,咱们搭的AI安全护栏,才不会是沙滩上的堡垒,而是能抵御各类风险的坚实防线。

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
将病人绑在核磁共振的机器里一晚上,武汉同济医院,这是闹啥呢

将病人绑在核磁共振的机器里一晚上,武汉同济医院,这是闹啥呢

笔杆论道
2026-03-13 12:21:36
霍尔木兹被封后,中国三十年前的伏笔,终于揭晓!!

霍尔木兹被封后,中国三十年前的伏笔,终于揭晓!!

华山穹剑
2026-03-13 21:18:55
富可敌国!新世界首富身价高达5.8万亿元,相当于12个中国首富

富可敌国!新世界首富身价高达5.8万亿元,相当于12个中国首富

数字财经智库
2026-03-11 16:53:20
阿德巴约:如果逝者能够开口说话,我坚信科比一定会恭喜我

阿德巴约:如果逝者能够开口说话,我坚信科比一定会恭喜我

懂球帝
2026-03-14 09:45:09
胖东来37.93亿分钱风波!有网友一语道破玄机,阳谋无解 功成身退

胖东来37.93亿分钱风波!有网友一语道破玄机,阳谋无解 功成身退

火山詩话
2026-03-13 13:30:30
事出反常,北京上海已出现4大怪象,值得每个人深思

事出反常,北京上海已出现4大怪象,值得每个人深思

美食格物
2026-03-14 00:12:15
哈登17+7+7骑士狂胜独行侠 米切尔24+8创纪录莫布利29+7

哈登17+7+7骑士狂胜独行侠 米切尔24+8创纪录莫布利29+7

醉卧浮生
2026-03-14 09:57:46
净利润暴跌90%!理想的销量神话破灭

净利润暴跌90%!理想的销量神话破灭

大佬灼见
2026-03-13 12:23:26
内塔尼亚胡讲话视频被质疑AI制作:右手6根手指,小拇指长度惊人

内塔尼亚胡讲话视频被质疑AI制作:右手6根手指,小拇指长度惊人

不掉线电波
2026-03-13 17:07:30
47万小学老师只留20万?山东教师的“转岗焦虑”藏不住了

47万小学老师只留20万?山东教师的“转岗焦虑”藏不住了

教师吧
2026-03-12 19:39:53
360集团创始人周鸿祎:“龙虾”用两三个月做到了我一两年都没做到的事

360集团创始人周鸿祎:“龙虾”用两三个月做到了我一两年都没做到的事

中国经营报
2026-03-13 17:38:11
重磅爆料!CoCo 公开张柏芝三胎生父真相,谢霆锋体面彻底不保

重磅爆料!CoCo 公开张柏芝三胎生父真相,谢霆锋体面彻底不保

一盅情怀
2026-03-13 16:38:18
那个武大诬告学弟的女生,考上公务员了?这位网红把流量玩明白了

那个武大诬告学弟的女生,考上公务员了?这位网红把流量玩明白了

戗词夺理
2026-03-13 14:31:38
警方通报:曹某(男,19岁),无证驾驶,致1死6伤

警方通报:曹某(男,19岁),无证驾驶,致1死6伤

上观新闻
2026-03-14 08:16:17
1984年,张宗逊之子张又侠8个多小时拿下松毛岭:预备队还没上呢

1984年,张宗逊之子张又侠8个多小时拿下松毛岭:预备队还没上呢

历史甄有趣
2026-03-13 12:45:14
武汉同济核磁事件,荒唐的不止是两名医生...

武汉同济核磁事件,荒唐的不止是两名医生...

听风听你
2026-03-13 12:06:05
云南凌晨通报:成立调查组

云南凌晨通报:成立调查组

星岛记事
2026-03-14 09:24:21
特朗普越过红线?美军空袭伊朗关键而脆弱的“石油心脏” 专家:夺岛容易控岛难

特朗普越过红线?美军空袭伊朗关键而脆弱的“石油心脏” 专家:夺岛容易控岛难

红星新闻
2026-03-14 10:18:18
“沉睡小组”被激活?美国一天连发两起恐怖袭击,炸弹卡车竟冲入幼儿园

“沉睡小组”被激活?美国一天连发两起恐怖袭击,炸弹卡车竟冲入幼儿园

大洛杉矶LA
2026-03-13 05:20:18
突发!贵州茅台董秘蒋焰被查!贵州茅台已发公告,蒋焰的履历曝出

突发!贵州茅台董秘蒋焰被查!贵州茅台已发公告,蒋焰的履历曝出

胡侃社会百态
2026-03-14 05:39:33
2026-03-14 12:00:49
快看张同学 incentive-icons
快看张同学
晨起暮落,初心不改
4922文章数 323关注度
往期回顾 全部

科技要闻

xAI创始伙伴只剩两人!马斯克“痛改前非”

头条要闻

外甥想卖房接78岁独居阿婆去外地养老 却卡在一个章上

头条要闻

外甥想卖房接78岁独居阿婆去外地养老 却卡在一个章上

体育要闻

NBA唯一巴西球员,增重20KG顶内线

娱乐要闻

张艺兴,犯了大忌

财经要闻

3·15影子暗访|神秘的“特供酒”

汽车要闻

吉利银河M7技术首秀 实力重构主流电混SUV

态度原创

数码
健康
手机
公开课
军事航空

数码要闻

AMD优化RDNA 5显卡核心指令,部分场景性能可飙升近100%

转头就晕的耳石症,能开车上班吗?

手机要闻

小米MIX 5来了!第三季度发布:磁吸镜头设计+玄戒O2

公开课

李玫瑾:为什么性格比能力更重要?

军事要闻

特朗普宣布空袭伊石油出口枢纽哈尔克岛

无障碍浏览 进入关怀版