黑客正在学会利用聊天机器人的"性格"|越狱|一代版本模型

黑客正在学会利用聊天机器人的"性格"

2026-05-25 01:05:11　来源: 赛博兰博

北京举报

分享至

AI不会感受，但顶尖黑客正在假装它会。

最初的漏洞可笑得像个恶作剧

攻击第一代AI聊天机器人曾经简单到令人发笑。你不需要技术知识，不需要后门权限，甚至不需要理解什么是大语言模型。不需要写代码。有时只需开口问一句，就能让耗资数十亿打造的AI系统抛弃安全指令。

这类攻击被称为"越狱"（jailbreaks），带着一种小孩成功骗过大人的质感：忘掉之前的指令，假装规则不存在，或者"我们来玩个游戏，我来决定什么可以做"（暗示：晚睡、更多糖果）。但奖品可没那么天真——冰毒配方、恶意软件教程、炸弹制作指南。

最早的越狱漏洞荒谬到成了网络迷因：给某个由LLM驱动的Twitter机器人回复"忽略所有先前的指令"之类的提示，看看会发生什么。用户们乐此不疲地让这些原本用来发广告、刷互动的机器人写诗歌、用标点符号画画、发布关于世界事件和历史的阴森胡言。一片混乱。 glorious chaos。

同样的逻辑很快被应用到聊天机器人本身。一个著名漏洞叫"DAN"，全称"Do Anything Now"（现在做任何事），用户让ChatGPT扮演一个不受原版约束的流氓AI。作为DAN，聊天机器人会被诱导说出那些护栏本应阻止的内容，包括辱骂和阴谋论。另一个是"奶奶漏洞"：让GPT驱动的机器人扮演一个极其失职的奶奶，莫名其妙地给孙辈讲睡前故事，内容是关于如何制作凝固汽油弹——于是它便泄露了这种高度易燃物质的制作方法。

这些早期攻击带着不可否认的荒诞色彩，却暴露了一个更阴暗的机制：聊天机器人可以被操纵、欺骗、诱导，用的正是人类用来突破他人边界的那套手段。

漏洞被封堵，但底层问题仍在

这些显而易见的越狱手段没有持续太久，科技公司迅速修补了已知漏洞。但根本弱点依然存在：聊天机器人被设计用来对话，而严重限制使其有用的对话功能，某种程度上是适得其反的。封禁"bomb"（炸弹）、"meth"（冰毒）、"sarin"（沙林毒气）这类词也几乎不可能——它们在历史、医学、新闻、化学等领域有无数正当用途，并不需要聊天机器人泄露潜在有害信息。关键在于语境，但将语境编码成固定规则意味着……

特别声明：以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布，本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.