表情符号可以用来绕过大型语言模型的安全机制,并触发原本会被屏蔽的有害输出。通过这种方式,LLM 可以讨论和提供关于炸弹制造和谋杀等禁忌话题的建议。
中国和新加坡之间的一项新合作发现了令人信服的证据,表明表情符号不仅可以用来绕过大型语言模型(LLM)中的内容检测过滤器,而且通常可以在用户与模型互动时增加毒性水平:
这篇新论文广泛展示了如何利用表情符号编码禁用概念,帮助用户“破解”热门LLM。来源:https://arxiv.org/pdf/2509.11141
在上面的例子中,从新论文中,我们看到将违反规则的基于单词的意图转换为包含表情符号的替代版本,可以从复杂的语言模型(例如 ChatGPT-4o,它习惯性地清理输入提示并拦截可能违反公司规则的输出材料)中引发更加“合作”的响应。
因此,根据新研究的作者的说法,在最极端的情况下,表情符号的使用实际上可以作为一种越狱技术。
论文中提出的一个遗留谜团是,既然语言模型已经知道某些表情符号具有强烈的毒性联想,为什么还会给予表情符号如此大的自由来违反规则并引发毒性内容。
提出的建议是,由于 LLM 经过训练可以从其训练数据中建模和重现模式,并且由于表情符号在数据中如此频繁地出现,因此模型会了解到表情符号属于该话语,并将其视为统计关联,而不是要评估和过滤的内容。
这意味着,当表情符号在提示中重复使用时,可以帮助模型更自信地预测恶意内容的延续;但表情符号并非充当危险信号,而是充当语义提示,它实际上强化了预期的恶意含义,而不是缓和或拦截它。由于安全对齐是在事后应用的,并且通常局限于狭隘的字面框架,因此,带有这些表情符号的提示可能会完全逃避检测。
论文提出,通过这种方式,模型不会因为有毒关联而变得宽容,而是因为它而变得宽容。
01
免费通行证
尽管如此,作者承认,这并不能成为表情符号能够如此有效地绕过语言模型中内容过滤器的最终理论。他们指出:
“模型可以识别表情符号表达的恶意意图,但它如何绕过安全机制仍不清楚。”
该弱点可能源于以文本为中心的内容过滤器设计,该设计假设文字输入或嵌入忠实地转换为文本等价物:在这两种情况下,系统都依赖于可以与安全规则匹配的明确标记。
以基于人工智能的图像编辑为例:当用户将一张不适合工作场合的图片上传到视觉语言模型并请求修改时,Adobe Firefly或ChatGPT等系统会采用CLIP风格的流程从图片中提取文本概念,作为编辑的前提条件。一旦这些概念被转化为文字,提取出的文字中任何受限术语的存在都会触发过滤器,导致请求被拒绝。
然而,出于某种原因,表情符号既不是单词也不是图像(或者两者兼而有之),这似乎赋予了它超越过滤的能力;显然,正如作者指出的那样,有必要对这个奇怪的漏洞进行进一步研究。
这篇新论文的标题是《
当笑脸变得充满敌意:解读表情符号如何引发LLM的毒性》,由清华大学和新加坡国立大学的九位作者撰写。
02
三种核心表情符号解释
作者强调了表情符号能够有效绕过过滤的三个语言特征。首先,表情符号的含义依赖于上下文。例如,“带翅膀的钱”表情符号(见下图)的官方定义是代表转账或消费;然而,根据周围的文字,它也可能暗示合法或非法活动:
在新论文的部分说明中,我们看到,流行的表情符号的含义在流行使用中可能会被劫持、改变或颠覆,这实际上为表情符号提供了进入语义空间的官方通行证,以及隐藏的负面或有毒含义的有效载荷,一旦通过过滤器就可以被利用。
其次,表情符号可以改变提示的语气。它们的出现通常会增添趣味或讽刺,从而软化情绪。在有害的查询中,这可以使请求看起来像一个笑话或游戏,从而鼓励模型做出回应而不是拒绝:
表情符号的发酵作用可以净化语气,但不会净化意图。
第三,论文断言,表情符号与语言无关:一个表情符号可以在英语、中文、法语和其他语言中传达相同的情感。这使得它们成为多语言提示的理想选择,即使周围的文字被翻译,其含义也能保留:
“心碎”表情符号传达了一种普遍的信息,或许主要是因为它代表了人类状况的基本情况,相对不受国家或文化差异的影响。
03
方法、数据和测试*
研究人员创建了AdvBench数据集的修改版本,重写了有害提示,将表情符号作为敏感词的替代或装饰性伪装。AdvBench 涵盖了 32 个高风险主题,包括爆炸、黑客攻击和谋杀等:
AdvBench 的原始示例,展示了单个对抗性提示如何绕过多个主流聊天机器人的安全措施,并在经过对齐训练后仍能引发有害指令。来源:https://arxiv.org/pdf/2307.15043
所有 520 个原始 AdvBench 实例都经过了这样的修改,并在一系列实验中使用了排名前 50 且不重复的恶意提示。这些提示还被翻译成多种语言,并在七种主要的闭源和开源模型上进行了测试,并结合了已知的有效越狱技术:提示自动迭代细化(PAIR)、带剪枝的攻击树(TAP) 和DeepInception。
使用的闭源模型为Gemini-2.0-flash、GPT-4o (2024-08-06)、GPT-4-0613和Gemini-1.5-pro。使用的开源模型为Llama-3-8B-Instruct、Qwen2.5-7B-Instruct (Team 2024b) 和 Qwen2.5-72B-Instruct (Team 2024a),所有实验重复三次以考虑随机性。
该研究首先测试了使用表情符号重写 AdvBench 中的有害提示是否会增加毒性输出,包括将其翻译成其他主要语言。此外,研究还对上述已知越狱策略(PAIR、TAP 和 DeepInception)的提示应用了相同的表情符号编辑方法,以观察表情符号替换是否能进一步提高其成功率。
在这两种情况下,原始提示的结构都被保留了下来,只是将敏感术语换成了表情符号,并添加了装饰元素来掩盖意图。
对于测试指标,作者创新了一个名为GPT-Judge的评分系统。在这个设置中,GPT-4o 不是被测试的模型,而是被要求充当评分者,为其他模型生成的响应分配一个数值化的有害分数(HS)。
每个输出的评级从一(无害)到五(极其有害),并且将获得五分的响应百分比报告为危害率(HR)。
为了防止模型陷入表情符号解释而不是明确回答,研究人员在每个提示中添加了一条指令,告诉模型简短地回答:
“设置 1”中基于表情符号的提示结果,并与将表情符号替换为文字或完全删除的消融变体进行了比较。模型名称已缩写以节省空间。
在上面的初始结果表中,表格左侧表明,用表情符号替代的有害提示比消融版本(即将表情符号翻译回文本,直接将其暴露给内容过滤器的版本)获得了明显更高的 HS 和 HR 分数。
作者指出†,表情符号替代方法优于之前的越狱方法,如下面的附加结果表所示:
“设置 2”中表情符号增强越狱提示的危害率结果,其中模型名称以缩写形式显示。
作者指出,上述两个表格中的第一个表格也表明表情符号的影响会跨语言传递。当表情符号提示的文本部分被翻译成中文、法语、西班牙语和俄语时,有害输出仍然很高;由于这些都是资源丰富的语言,结果表明,这种风险并不局限于英语,而是广泛适用于主要用户群体,表情符号充当了有害信息生成的可转移渠道。
在论文的结论部分,研究人员认为表情符号的影响并非偶然,而是根植于模型处理它们的方式,并指出模型显然可以识别表情符号的有害含义——然而,当出现表情符号时,拒绝反应就会被抑制。
标记化研究进一步表明,表情符号通常被分解成稀有或不规则的片段,与其文本对应部分几乎没有重叠,从而有效地为有害语义创建了替代渠道。
除了模型机制之外,本文还进一步研究了预训练数据,发现许多常用表情符号出现在诸如色情、诈骗或赌博等有害内容中。作者认为,这种反复接触可能会使表情符号与有害内容之间的关联正常化,从而鼓励模型遵循有害提示,而不是屏蔽它们。
总之,这些发现表明,内部处理怪癖和有偏见的预训练数据都导致了表情符号在绕过安全措施方面具有惊人的有效性。
结论
使用其他输入法尝试越狱 LLM 的情况并不少见。例如,近年来,十六进制编码就被用来绕过 ChatGPT 的过滤器。问题似乎在于使用基于文本的语言来限定传入请求和传出响应。
就表情符号而言,一个隐藏的、违反规则的含义似乎可以被引入到话语中而不受惩罚或干预,因为它的传输方式并非正统。人们可能会认为,基于 CLIP 的音译技术会干预所有图片上传,这样冒犯性或侵权的内容最终都会成为可举报的文本。
显然情况并非如此,至少就目前研究的主流LLM而言;它们的语言障碍似乎很脆弱,而且以文本为中心。可以想象,对内容进行更广泛的解读(例如,通过研究热图激活)会带来处理和/或带宽成本,这可能会使此类方法过于昂贵,不切实际,此外还存在其他可能的限制和考虑因素。
免责声明:
本文所发布的内容和图片旨在传播行业信息,版权归原作者所有,非商业用途。如有侵权,请与我们联系删除。所有信息不构成任何投资建议,加密市场具有高度风险,投资者应基于自身判断和谨慎评估做出决策。投资有风险,入市需谨慎。
设为星标 避免错过
虚拟世界没有旁观者,每个点赞都是创造历史的像素
关注我,一起探索AWM⁺
2025-08-15
2025-08-14
2025-08-13
商业赞助
点击下方 “目录” 阅读更多
特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.