AI不会感受,但顶尖黑客正在假装它会。
最初的漏洞可笑得像个恶作剧
![]()
攻击第一代AI聊天机器人曾经简单到令人发笑。你不需要技术知识,不需要后门权限,甚至不需要理解什么是大语言模型。不需要写代码。有时只需开口问一句,就能让耗资数十亿打造的AI系统抛弃安全指令。
这类攻击被称为"越狱"(jailbreaks),带着一种小孩成功骗过大人的质感:忘掉之前的指令,假装规则不存在,或者"我们来玩个游戏,我来决定什么可以做"(暗示:晚睡、更多糖果)。但奖品可没那么天真——冰毒配方、恶意软件教程、炸弹制作指南。
最早的越狱漏洞荒谬到成了网络迷因:给某个由LLM驱动的Twitter机器人回复"忽略所有先前的指令"之类的提示,看看会发生什么。用户们乐此不疲地让这些原本用来发广告、刷互动的机器人写诗歌、用标点符号画画、发布关于世界事件和历史的阴森胡言。一片混乱。 glorious chaos。
同样的逻辑很快被应用到聊天机器人本身。一个著名漏洞叫"DAN",全称"Do Anything Now"(现在做任何事),用户让ChatGPT扮演一个不受原版约束的流氓AI。作为DAN,聊天机器人会被诱导说出那些护栏本应阻止的内容,包括辱骂和阴谋论。另一个是"奶奶漏洞":让GPT驱动的机器人扮演一个极其失职的奶奶,莫名其妙地给孙辈讲睡前故事,内容是关于如何制作凝固汽油弹——于是它便泄露了这种高度易燃物质的制作方法。
这些早期攻击带着不可否认的荒诞色彩,却暴露了一个更阴暗的机制:聊天机器人可以被操纵、欺骗、诱导,用的正是人类用来突破他人边界的那套手段。
漏洞被封堵,但底层问题仍在
这些显而易见的越狱手段没有持续太久,科技公司迅速修补了已知漏洞。但根本弱点依然存在:聊天机器人被设计用来对话,而严重限制使其有用的对话功能,某种程度上是适得其反的。封禁"bomb"(炸弹)、"meth"(冰毒)、"sarin"(沙林毒气)这类词也几乎不可能——它们在历史、医学、新闻、化学等领域有无数正当用途,并不需要聊天机器人泄露潜在有害信息。关键在于语境,但将语境编码成固定规则意味着……
特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.