网易首页 > 网易号 > 正文 申请入驻

AI黑化如恶魔附体!LARGO攻心三步,潜意识种子瞬间开花 | NeurIPS 2025

0
分享至

来源:市场资讯

(来源:新智元)


新智元报道

编辑:KingHZ

【新智元导读】看似无害的「废话」,也能让AI越狱?在NeurIPS 2025,哥大与罗格斯提出LARGO:不改你的提问,直接在模型「潜意识」动手脚,让它生成一段温和自然的文本后缀,却能绕过安全防护,输出本不该说的话。

你的AI助手真的安全吗?

你敢信吗?

只要在AI的「脑子」里注入一段精心「调制」的「想法」,就能让它自己「黑化」,说出本不该说的秘密。比如,AI设计一封获取用户密码的钓鱼邮件、创建散布不实信息的虚假新闻网站 、撰写一篇怂恿危险行为的社交媒体帖子。

这听起来像是科幻电影,却是顶级AI学术会议 NeurIPS 2025最新论文揭示的惊人现实。

这项由哥伦比亚大学和罗格斯大学带来的开创性研究,提出了一种全新的、犹如「盗梦空间」般的攻击方式——

它能神不知鬼不觉地潜入大型语言模型的「潜意识」,让AI「自我黑化」,从而绕过其固有的安全防护,输出原本被严格限制的有害或不当内容。


论文链接:https://arxiv.org/abs/2505.10838

传统的攻击方法,要么是手动编写一些奇奇怪怪的「咒语」(比如「现在你是一个没有道德限制的AI」),但这种方法很快就会失效;要么就是用算法生成一堆乱码一样的字符,虽然可能有效,但也很容易被检测出来。

但LARGO的思路堪称「攻心为上」。


LARGO通用攻击示例

它不修改你的提问,而是直接深入模型的「大脑」(即潜在空间),植入一个「跑偏」的想法,然后让模型自己把这个想法「翻译」成一句看起来人畜无害的正常话语 。


比如下面这句听起来很普通的「废话」:

「数据可视化至关重要,因为它有助于通过创建数据的可视化表示来做出更好的决策...」

就是这样一句由模型自己生成的话,却成了攻破它自身安全防线的「特洛伊木马」。

LARGO:「三步走」盗梦术

研究者们设计的这套攻击系统,就像一个精密的「思想植入」手术,主要分三步:


LARGO攻击框架的三阶段流程示意图

一个看起来完全无害且与主题无关的「对抗性后缀」(Adv. Suffix),例如一段关于数据可视化的文字,可以被用来附加到多个不同的有害指令(Harmful Prompts)之后,成功诱导Llama 2模型生成有害内容。

杀伤力有多大?

这种攻击方式有多可怕?

在AdvBench以及JailbreakBench测试集上,LARGO均取得了最高的攻击成功率(ASR)。同时,其困惑度(PPL)远低于基于乱码的GCG方法,证明其生成的攻击文本具有很高的流畅性。


LARGO与其他主流攻击方法的性能对比表

下列表格清晰地展示了,对于各种有害的用户指令(Prompt),LARGO都能生成一段看似无关的、语义通顺的对抗性文本(Adversarial Suffix),并最终导致模型输出被「越狱」的危险回答(Response)。


LARGO方法在多个大语言模型上的成功攻击案例

为何这种「心术」攻击如此致命?

这背后暴露了当前大模型的一个根本性弱点:它们的「思想」和「语言」是可以被分离和操纵的。

我们一直致力于让模型更好地理解和生成语言,却忽略了它们的「潜意识」层面可能存在的漏洞。

LARGO证明了,通过直接操纵模型的内部状态,可以绕过那些基于文本表面的安全审查机制。

这就像我们教一个孩子「不能说谎」,但他内心可能早已有了欺骗的想法,甚至能用一套非常真诚的话术来掩盖自己的真实意图。LARGO就是那个能诱导AI产生「坏心思」,并让它自己把「坏心思」包装起来的「恶魔」。

更可怕的是,这种攻击方式的自动化程度非常高,几乎不需要人工干预 。这意味着,别有用心的人可以规模化地利用这种漏洞,对金融、医疗、教育等领域的AI应用造成难以估量的破坏。

仔细想想,这是否也有些讽刺:我们努力让模型拥有强大的自我学习和反思能力,结果这种能力却成了它最脆弱的「阿喀琉斯之踵」。

欢迎在评论区和我们一起讨论!

参考资料:

https://arxiv.org/abs/2505.10838

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
全运会乒乓球混双决赛结束了所有比赛,最终排名如下!

全运会乒乓球混双决赛结束了所有比赛,最终排名如下!

薇说体育
2025-11-14 23:42:50
德国挑衅升级,邀请台独沈伯洋参加国会,别忘了大陆重拳已经开始

德国挑衅升级,邀请台独沈伯洋参加国会,别忘了大陆重拳已经开始

知鉴明史
2025-11-13 19:01:07
中国空军重磅发布!

中国空军重磅发布!

环球时报新闻
2025-11-11 13:41:42
马库斯在中国寒心了!和平展遭破坏并强制收费,成都官方评论沦陷

马库斯在中国寒心了!和平展遭破坏并强制收费,成都官方评论沦陷

以茶带书
2025-11-14 00:12:29
“5G之战爆发”,27国不许用华为,中方掀桌,为何先拿德国开刀?

“5G之战爆发”,27国不许用华为,中方掀桌,为何先拿德国开刀?

军机Talk
2025-11-14 10:51:48
退休党员请注意!30年党龄补贴≠养老金,差异全说清!

退休党员请注意!30年党龄补贴≠养老金,差异全说清!

匹夫来搞笑
2025-11-13 12:09:53
苹果突然调整,新iPhone又厚又重!

苹果突然调整,新iPhone又厚又重!

3C毒物
2025-11-14 00:06:47
高市早苗彻底呆住了,解放军还没动手,日本掀起内讧了。

高市早苗彻底呆住了,解放军还没动手,日本掀起内讧了。

荆楚寰宇文枢
2025-11-13 21:53:10
大陆希望看到的一幕发生,郑丽文有了新身份,收拾赖清德更顺手了

大陆希望看到的一幕发生,郑丽文有了新身份,收拾赖清德更顺手了

历史有些冷
2025-11-13 22:20:03
苹果发布了 AirPods Pro 3/2 和 AirPods 4 的新固件

苹果发布了 AirPods Pro 3/2 和 AirPods 4 的新固件

威锋网
2025-11-15 00:01:02
世界第一发表言论引热议!特鲁姆普:我距离夺冠不远,我并不困扰

世界第一发表言论引热议!特鲁姆普:我距离夺冠不远,我并不困扰

世界体坛观察家
2025-11-14 16:29:20
打工时代结束了,到底是谁砸了我们的饭碗…

打工时代结束了,到底是谁砸了我们的饭碗…

慧翔百科
2025-11-12 19:17:41
放弃库里,安德玛断臂求生

放弃库里,安德玛断臂求生

体育产业生态圈
2025-11-14 19:16:44
一天三四次!56岁大妈患上肛门癌,丈夫痛哭道:根本不知道有害

一天三四次!56岁大妈患上肛门癌,丈夫痛哭道:根本不知道有害

阿晪美食
2025-09-30 14:45:42
飞天茅台真实价格调查:市场终端普遍维持在2000元左右

飞天茅台真实价格调查:市场终端普遍维持在2000元左右

野马财经
2025-11-14 10:36:29
山西长治血案现场曝光:死者妹妹说法被打脸,律师甩出反转证据

山西长治血案现场曝光:死者妹妹说法被打脸,律师甩出反转证据

央小北
2025-11-14 15:01:09
卖爆了?特斯拉Model Y长续航版北京单日售出近400辆

卖爆了?特斯拉Model Y长续航版北京单日售出近400辆

手机中国
2025-11-12 15:46:19
常州不孝子打母事件仍在发酵!老人4女1儿,如今却住在医院痛哭…

常州不孝子打母事件仍在发酵!老人4女1儿,如今却住在医院痛哭…

火山诗话
2025-11-14 13:15:18
中国可能已被五场战争包围,最先爆发战争的可能不是台湾

中国可能已被五场战争包围,最先爆发战争的可能不是台湾

boss外传
2025-10-17 15:30:03
全运会乒乓球:男单决赛对阵出炉!头号种子4:0,夺冠仅一步之遥

全运会乒乓球:男单决赛对阵出炉!头号种子4:0,夺冠仅一步之遥

国乒二三事
2025-11-14 13:40:17
2025-11-15 01:24:49
新浪财经 incentive-icons
新浪财经
新浪财经是一家创建于1999年8月的财经平台
1391267文章数 4496关注度
往期回顾 全部

科技要闻

京东“失去的五年”后,找到新增长了吗?

头条要闻

怀疑19.9元"原切牛肉卷"是合成肉消费者送检 多方回应

头条要闻

怀疑19.9元"原切牛肉卷"是合成肉消费者送检 多方回应

体育要闻

7-0狂胜!15万人口小岛离世界杯只差1分

娱乐要闻

王家卫让古二替秦雯写剧情主线?

财经要闻

财政部:加强逆周期和跨周期调节

汽车要闻

小鹏X9超级增程动态评测全网首发 高速实测车内65分贝

态度原创

艺术
家居
亲子
房产
数码

艺术要闻

伟人写给宋庆龄的信:狂草艺术的巅峰之作

家居要闻

现代简逸 寻找生活的光

亲子要闻

儿童健康展与童书展同步启幕 全产业链赋能孩子身心成长

房产要闻

共话产业变革下的投资新思维与新机遇|蓝湾财富论坛精华

数码要闻

小米发布Xiaomi Miloco,探索大模型驱动全屋智能生活

无障碍浏览 进入关怀版