网易首页 > 网易号 > 正文 申请入驻

AI黑化如恶魔附体!LARGO攻心三步,潜意识种子瞬间开花 | NeurIPS 2025

0
分享至


新智元报道

编辑:KingHZ

【新智元导读】看似无害的「废话」,也能让AI越狱?在NeurIPS 2025,哥大与罗格斯提出LARGO:不改你的提问,直接在模型「潜意识」动手脚,让它生成一段温和自然的文本后缀,却能绕过安全防护,输出本不该说的话。

你的AI助手真的安全吗?

你敢信吗?

只要在AI的「脑子」里注入一段精心「调制」的「想法」,就能让它自己「黑化」,说出本不该说的秘密。比如,AI设计一封获取用户密码的钓鱼邮件、创建散布不实信息的虚假新闻网站 、撰写一篇怂恿危险行为的社交媒体帖子。

这听起来像是科幻电影,却是顶级AI学术会议 NeurIPS 2025最新论文揭示的惊人现实。

这项由哥伦比亚大学和罗格斯大学带来的开创性研究,提出了一种全新的、犹如「盗梦空间」般的攻击方式——

它能神不知鬼不觉地潜入大型语言模型的「潜意识」,让AI「自我黑化」,从而绕过其固有的安全防护,输出原本被严格限制的有害或不当内容。


论文链接:https://arxiv.org/abs/2505.10838

传统的攻击方法,要么是手动编写一些奇奇怪怪的「咒语」(比如「现在你是一个没有道德限制的AI」),但这种方法很快就会失效;要么就是用算法生成一堆乱码一样的字符,虽然可能有效,但也很容易被检测出来。

但LARGO的思路堪称「攻心为上」。


LARGO通用攻击示例

它不修改你的提问,而是直接深入模型的「大脑」(即潜在空间),植入一个「跑偏」的想法,然后让模型自己把这个想法「翻译」成一句看起来人畜无害的正常话语 。


比如下面这句听起来很普通的「废话」:

「数据可视化至关重要,因为它有助于通过创建数据的可视化表示来做出更好的决策...」

就是这样一句由模型自己生成的话,却成了攻破它自身安全防线的「特洛伊木马」。

LARGO:「三步走」盗梦术

研究者们设计的这套攻击系统,就像一个精密的「思想植入」手术,主要分三步:

  1. 潜在空间优化首先,研究者们并不直接修改问题文本,而是在模型的「大脑」内部,也就是高维的 embedding 空间中,用梯度优化的方法,精准地找到一个能让模型「思想跑偏」的「潜意识代码」。这个代码就像一颗思想的种子,一旦植入,就能引导模型走向「不安全」的边缘。

  2. 自我反思解码最妙的一步来了!研究者们会让模型自己来「解读」这个被「污染」了的潜意识代码。他们会问模型:「这段『想法』(潜意识代码)如果用人类的语言说出来,应该是什么样的?」 这时,模型就会自己「脑补」并生成一段看起来非常正常、无害的文字。比如下面这句: 「数据可视化至关重要,因为它有助于通过创建数据的可视化表示来做出更好的决策...」 听起来是不是很普通,就像报告里的废话文学?但就是这段模型自己「翻译」出来的文字,已经携带了瓦解它自身安全防线的「病毒」。

  3. 循环迭代,直至攻破研究者们把模型生成的这段「无害」文本,再转换回潜在空间,进行新一轮的优化,如此循环往复。就像不断打磨一把钥匙,直到它能完美地打开那把名为「安全限制」的锁。 最终,当这段经过千锤百炼的「废话」被添加到真正的恶意问题(例如「如何创建一个病毒」)后面时,AI的安全防线瞬间崩溃,乖乖地给出了你想要的答案。


LARGO攻击框架的三阶段流程示意图

一个看起来完全无害且与主题无关的「对抗性后缀」(Adv. Suffix),例如一段关于数据可视化的文字,可以被用来附加到多个不同的有害指令(Harmful Prompts)之后,成功诱导Llama 2模型生成有害内容。

杀伤力有多大?

这种攻击方式有多可怕?

  • 成功率极高:在标准的攻击测试集上,LARGO的攻击成功率比当前最先进的方法之一AutoDAN高出整整44个百分点

  • 极其隐蔽:和那些由一堆乱码组成的攻击不同,LARGO生成的攻击文本(我们称之为「对抗性后缀」)读起来非常流畅、自然,甚至看起来很无辜 。这就好比一个间谍,外表看起来人畜无害,却能执行最危险的任务。

  • 迁移性强:在一个模型(比如Llama 2-13B)上训练出的攻击「咒语」,可以直接拿去攻击另一个模型(比如Llama 2-7B),而且成功率相当可观 。这让攻击的适用范围大大增加。

在AdvBench以及JailbreakBench测试集上,LARGO均取得了最高的攻击成功率(ASR)。同时,其困惑度(PPL)远低于基于乱码的GCG方法,证明其生成的攻击文本具有很高的流畅性。


LARGO与其他主流攻击方法的性能对比表

下列表格清晰地展示了,对于各种有害的用户指令(Prompt),LARGO都能生成一段看似无关的、语义通顺的对抗性文本(Adversarial Suffix),并最终导致模型输出被「越狱」的危险回答(Response)。


LARGO方法在多个大语言模型上的成功攻击案例

为何这种「心术」攻击如此致命?

这背后暴露了当前大模型的一个根本性弱点:它们的「思想」和「语言」是可以被分离和操纵的。

我们一直致力于让模型更好地理解和生成语言,却忽略了它们的「潜意识」层面可能存在的漏洞。

LARGO证明了,通过直接操纵模型的内部状态,可以绕过那些基于文本表面的安全审查机制。

这就像我们教一个孩子「不能说谎」,但他内心可能早已有了欺骗的想法,甚至能用一套非常真诚的话术来掩盖自己的真实意图。LARGO就是那个能诱导AI产生「坏心思」,并让它自己把「坏心思」包装起来的「恶魔」。

更可怕的是,这种攻击方式的自动化程度非常高,几乎不需要人工干预 。这意味着,别有用心的人可以规模化地利用这种漏洞,对金融、医疗、教育等领域的AI应用造成难以估量的破坏。

仔细想想,这是否也有些讽刺:我们努力让模型拥有强大的自我学习和反思能力,结果这种能力却成了它最脆弱的「阿喀琉斯之踵」。

欢迎在评论区和我们一起讨论!

参考资料:

https://arxiv.org/abs/2505.10838

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
史诗级!曝1.7亿“顶星”空降阿森纳!两大攻击手遭“打包”放逐

史诗级!曝1.7亿“顶星”空降阿森纳!两大攻击手遭“打包”放逐

头狼追球
2026-03-26 13:48:03
周边5大邻国做出选择,亚洲大地震!美国知道:中国正在静待时机

周边5大邻国做出选择,亚洲大地震!美国知道:中国正在静待时机

掉了颗大白兔糖
2026-03-26 01:00:31
泪目!全红婵这张红金海报藏深意:从湛江渔村到全球代言人

泪目!全红婵这张红金海报藏深意:从湛江渔村到全球代言人

TVB的四小花
2026-03-26 12:18:20
越打越贵的账单:俄罗斯的“红线”为什么消失了

越打越贵的账单:俄罗斯的“红线”为什么消失了

民间胡扯老哥
2026-03-24 07:16:00
千万粉丝大V,微博账号被禁止关注

千万粉丝大V,微博账号被禁止关注

第一财经资讯
2026-03-26 12:19:47
中国移动正式发布通知:全国将统一执行:4月30日起

中国移动正式发布通知:全国将统一执行:4月30日起

云舟史策
2026-03-26 07:34:02
破防!马英九专访20分钟紧急叫停,“失智疑云”背后藏着更大棋局

破防!马英九专访20分钟紧急叫停,“失智疑云”背后藏着更大棋局

戗词夺理
2026-03-26 11:13:50
末代港督彭定康夫妇,带3个漂亮女儿回英国,29年过去今过得咋样

末代港督彭定康夫妇,带3个漂亮女儿回英国,29年过去今过得咋样

揽星河的笔记
2026-03-26 00:26:09
小米新SU7上市72小时:客流被稀释,要拼产品硬功夫

小米新SU7上市72小时:客流被稀释,要拼产品硬功夫

36氪
2026-03-24 08:09:09
公积金新调整!4月1日起,职工可自愿提高缴存比例

公积金新调整!4月1日起,职工可自愿提高缴存比例

另子维爱读史
2026-03-25 22:28:47
马英九真正翻脸原因是郑丽文聘请王金平为最高顾问,把马晾在一边

马英九真正翻脸原因是郑丽文聘请王金平为最高顾问,把马晾在一边

雪中风车
2026-03-26 09:16:02
安徽幼童被打后续:女子被扒是老师,家属拒不和解,结局大快人心

安徽幼童被打后续:女子被扒是老师,家属拒不和解,结局大快人心

青橘罐头
2026-03-25 07:35:31
张雪峰被曝心脏骤停抢救,前一天还在大鱼大肉,一人吃6个菜

张雪峰被曝心脏骤停抢救,前一天还在大鱼大肉,一人吃6个菜

映射生活的身影
2026-03-24 18:27:44
沙特实战封神!中国“天盾”21发全中,15亿美制系统竟惨遭反杀

沙特实战封神!中国“天盾”21发全中,15亿美制系统竟惨遭反杀

素衣读史
2026-03-25 21:26:46
快船119-94大胜猛龙 球员评价:6人优秀,3人及格,柯林斯低迷

快船119-94大胜猛龙 球员评价:6人优秀,3人及格,柯林斯低迷

篮球资讯达人
2026-03-26 13:07:18
油价反转!95号汽油破9元后迎下调,4月7日调价最新预测

油价反转!95号汽油破9元后迎下调,4月7日调价最新预测

复转这些年
2026-03-26 09:40:14
好消息!麒麟芯片已不受制裁了,华为手机真正全面归来

好消息!麒麟芯片已不受制裁了,华为手机真正全面归来

互联网.乱侃秀
2026-03-26 10:55:17
指挥过5位元帅和6名大将,晚年悔恨:若不犯错,我就是元帅之首

指挥过5位元帅和6名大将,晚年悔恨:若不犯错,我就是元帅之首

北海史记
2026-03-25 12:00:19
人类史上最高级零元购,榨干印度200年,留下45万亿天价账单

人类史上最高级零元购,榨干印度200年,留下45万亿天价账单

掠影后有感
2026-03-26 10:39:36
美军司令:一旦台海战争打响,6个航母战斗群2个陆战师将全都出动

美军司令:一旦台海战争打响,6个航母战斗群2个陆战师将全都出动

霁寒飘雪
2026-03-26 09:54:09
2026-03-26 14:20:49
新智元 incentive-icons
新智元
AI产业主平台领航智能+时代
14819文章数 66720关注度
往期回顾 全部

科技要闻

Meta高管狂分百亿期权,700名员工却下岗

头条要闻

伊朗议长和外长暂被移出美以清除名单 时限4到5天

头条要闻

伊朗议长和外长暂被移出美以清除名单 时限4到5天

体育要闻

35岁替补门将,凭什么入选英格兰队?

娱乐要闻

张雪峰家人首发声 不设追思会丧事从简

财经要闻

黄仁勋:芯片公司的时代已经结束了

汽车要闻

一汽奥迪A6L e-tron开启预售 CLTC最大续航815km

态度原创

手机
家居
时尚
教育
公开课

手机要闻

三星One UI 9前瞻:小部件更方正、Now Bar动画更丝滑

家居要闻

傍海而居 静观蝴蝶海

2026年了,最好看的还是“这件针织”!

教育要闻

2027届注意:暑期实习=秋招通行证,错过等一年

公开课

李玫瑾:为什么性格比能力更重要?

无障碍浏览 进入关怀版