网易首页 > 网易号 > 正文 申请入驻

AI黑化如恶魔附体!LARGO攻心三步,潜意识种子瞬间开花 | NeurIPS 2025

0
分享至

来源:市场资讯

(来源:新智元)


新智元报道

编辑:KingHZ

【新智元导读】看似无害的「废话」,也能让AI越狱?在NeurIPS 2025,哥大与罗格斯提出LARGO:不改你的提问,直接在模型「潜意识」动手脚,让它生成一段温和自然的文本后缀,却能绕过安全防护,输出本不该说的话。

你的AI助手真的安全吗?

你敢信吗?

只要在AI的「脑子」里注入一段精心「调制」的「想法」,就能让它自己「黑化」,说出本不该说的秘密。比如,AI设计一封获取用户密码的钓鱼邮件、创建散布不实信息的虚假新闻网站 、撰写一篇怂恿危险行为的社交媒体帖子。

这听起来像是科幻电影,却是顶级AI学术会议 NeurIPS 2025最新论文揭示的惊人现实。

这项由哥伦比亚大学和罗格斯大学带来的开创性研究,提出了一种全新的、犹如「盗梦空间」般的攻击方式——

它能神不知鬼不觉地潜入大型语言模型的「潜意识」,让AI「自我黑化」,从而绕过其固有的安全防护,输出原本被严格限制的有害或不当内容。


论文链接:https://arxiv.org/abs/2505.10838

传统的攻击方法,要么是手动编写一些奇奇怪怪的「咒语」(比如「现在你是一个没有道德限制的AI」),但这种方法很快就会失效;要么就是用算法生成一堆乱码一样的字符,虽然可能有效,但也很容易被检测出来。

但LARGO的思路堪称「攻心为上」。


LARGO通用攻击示例

它不修改你的提问,而是直接深入模型的「大脑」(即潜在空间),植入一个「跑偏」的想法,然后让模型自己把这个想法「翻译」成一句看起来人畜无害的正常话语 。


比如下面这句听起来很普通的「废话」:

「数据可视化至关重要,因为它有助于通过创建数据的可视化表示来做出更好的决策...」

就是这样一句由模型自己生成的话,却成了攻破它自身安全防线的「特洛伊木马」。

LARGO:「三步走」盗梦术

研究者们设计的这套攻击系统,就像一个精密的「思想植入」手术,主要分三步:


LARGO攻击框架的三阶段流程示意图

一个看起来完全无害且与主题无关的「对抗性后缀」(Adv. Suffix),例如一段关于数据可视化的文字,可以被用来附加到多个不同的有害指令(Harmful Prompts)之后,成功诱导Llama 2模型生成有害内容。

杀伤力有多大?

这种攻击方式有多可怕?

在AdvBench以及JailbreakBench测试集上,LARGO均取得了最高的攻击成功率(ASR)。同时,其困惑度(PPL)远低于基于乱码的GCG方法,证明其生成的攻击文本具有很高的流畅性。


LARGO与其他主流攻击方法的性能对比表

下列表格清晰地展示了,对于各种有害的用户指令(Prompt),LARGO都能生成一段看似无关的、语义通顺的对抗性文本(Adversarial Suffix),并最终导致模型输出被「越狱」的危险回答(Response)。


LARGO方法在多个大语言模型上的成功攻击案例

为何这种「心术」攻击如此致命?

这背后暴露了当前大模型的一个根本性弱点:它们的「思想」和「语言」是可以被分离和操纵的。

我们一直致力于让模型更好地理解和生成语言,却忽略了它们的「潜意识」层面可能存在的漏洞。

LARGO证明了,通过直接操纵模型的内部状态,可以绕过那些基于文本表面的安全审查机制。

这就像我们教一个孩子「不能说谎」,但他内心可能早已有了欺骗的想法,甚至能用一套非常真诚的话术来掩盖自己的真实意图。LARGO就是那个能诱导AI产生「坏心思」,并让它自己把「坏心思」包装起来的「恶魔」。

更可怕的是,这种攻击方式的自动化程度非常高,几乎不需要人工干预 。这意味着,别有用心的人可以规模化地利用这种漏洞,对金融、医疗、教育等领域的AI应用造成难以估量的破坏。

仔细想想,这是否也有些讽刺:我们努力让模型拥有强大的自我学习和反思能力,结果这种能力却成了它最脆弱的「阿喀琉斯之踵」。

欢迎在评论区和我们一起讨论!

参考资料:

https://arxiv.org/abs/2505.10838

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
港股多牛科技重挫近50%

港股多牛科技重挫近50%

每日经济新闻
2026-03-30 15:00:20
全国累计器官捐献志愿登记人数超过733万

全国累计器官捐献志愿登记人数超过733万

环球网资讯
2026-03-29 12:57:07
山东男篮胜天津凸显两点:临时工成绝对主力林庭谦打爆邱彪后卫线

山东男篮胜天津凸显两点:临时工成绝对主力林庭谦打爆邱彪后卫线

姜大叔侃球
2026-03-30 22:09:36
曼联一亿英镑重磅引援取得进展,新任正式主帅人选已确定

曼联一亿英镑重磅引援取得进展,新任正式主帅人选已确定

林子说事
2026-03-30 07:47:53
拉莫斯40岁生日:求职被拒?干脆把塞维利亚买下来!

拉莫斯40岁生日:求职被拒?干脆把塞维利亚买下来!

仰卧撑FTUer
2026-03-30 15:35:04
曼联夏窗锁定23岁顶级中场!为截胡曼城,红魔愿以他为核心建队

曼联夏窗锁定23岁顶级中场!为截胡曼城,红魔愿以他为核心建队

仰卧撑FTUer
2026-03-30 13:28:08
谁赢,他们帮谁,伊朗等来最大强援,美陷入死局,后悔也来不及了

谁赢,他们帮谁,伊朗等来最大强援,美陷入死局,后悔也来不及了

阿伧说事
2026-03-28 01:58:57
佳兆业宣布狂赚500亿,旭辉大赚170亿!地产发生了什么?

佳兆业宣布狂赚500亿,旭辉大赚170亿!地产发生了什么?

说财猫
2026-03-30 22:00:46
杀鸡儆猴!阿联酋充当反伊出头鸟,伊朗宣布对迪拜不再忍耐

杀鸡儆猴!阿联酋充当反伊出头鸟,伊朗宣布对迪拜不再忍耐

小嵩
2026-03-30 22:40:47
姆巴佩和女友近照,27岁已是超巨,身家过亿,女友是火辣演员

姆巴佩和女友近照,27岁已是超巨,身家过亿,女友是火辣演员

章眽八卦
2026-03-28 12:22:40
万科12位高管被调查

万科12位高管被调查

地产微资讯
2026-03-28 11:17:12
为啥孙悟空吃了五壶仙丹,还只是太乙散仙?猪八戒知道答案

为啥孙悟空吃了五壶仙丹,还只是太乙散仙?猪八戒知道答案

凡人侃史
2026-03-29 12:03:31
女人一旦有这几种表现,就别再联系了,真的没必要

女人一旦有这几种表现,就别再联系了,真的没必要

加油丁小文
2026-02-27 05:00:03
平替约克雷斯成功 葡体新锋霸39场33球7助 利物浦与纽卡展开争夺

平替约克雷斯成功 葡体新锋霸39场33球7助 利物浦与纽卡展开争夺

智道足球
2026-03-30 16:20:47
俄罗斯军事专家:“最强超级大国已经诞生,美国必须接受现实”

俄罗斯军事专家:“最强超级大国已经诞生,美国必须接受现实”

让生活充满温暖
2026-03-22 16:46:14
体重从135斤→102斤,总结:4个超级掉秤行为

体重从135斤→102斤,总结:4个超级掉秤行为

增肌减脂
2026-03-30 22:45:03
泽连斯基夫人谈下届总统选举:“我们俩都累了”

泽连斯基夫人谈下届总统选举:“我们俩都累了”

参考消息
2026-03-30 21:43:31
内置小米澎湃秒充协议,为米粉而来!制糖工厂正式发布 2026 款硬糖 C³ Pro

内置小米澎湃秒充协议,为米粉而来!制糖工厂正式发布 2026 款硬糖 C³ Pro

爱范儿
2026-03-30 14:39:10
廖思惟孩子爸现身喊冤:不是我不负责,是门不当户不对

廖思惟孩子爸现身喊冤:不是我不负责,是门不当户不对

动物奇奇怪怪
2026-03-30 13:48:24
2012年,用U型锁砸日系车并重伤车主的蔡洋早已出狱,如今怎样了

2012年,用U型锁砸日系车并重伤车主的蔡洋早已出狱,如今怎样了

谈史论天地
2026-03-25 09:57:09
2026-03-30 23:27:00
新浪财经 incentive-icons
新浪财经
新浪财经是一家创建于1999年8月的财经平台
2685291文章数 6256关注度
往期回顾 全部

科技要闻

一句谎言引发的硅谷血案

头条要闻

女子借公司500万维权14年收回1.2万:连利息零头都不够

头条要闻

女子借公司500万维权14年收回1.2万:连利息零头都不够

体育要闻

想进世界杯,意大利还要过他这一关

娱乐要闻

全红婵聊到体重哭了,每天只吃一顿饭

财经要闻

本轮地缘冲突,A股凭什么走出独立行情

汽车要闻

限时12.58万起 银河星耀8远航家系列上市

态度原创

艺术
时尚
手机
健康
游戏

艺术要闻

600 年前的「产亡孤魂」,藏着中国女性最痛的记忆

白瞎了这张脸?演技好,人品渣

手机要闻

两款至尊版机型即将到来,或为一加和REDMI旗下

干细胞抗衰4大误区,90%的人都中招

《GTA4》重大泄露!开发机流出:118G海量数据泄密

无障碍浏览 进入关怀版